総務省の犯罪検知システム、その後 94
ストーリー by hylom
「レンコンと豆」のセットは判断が難しそう…… 部門より
「レンコンと豆」のセットは判断が難しそう…… 部門より
hide.jikyll 曰く
6月に掲載された「総務省が犯行予告自動収集システムの開発を企画……が、0円で作っちゃった人が登場」というストーリーを覚えているでしょうか。
その0円で作っちゃったシステム(予告.in)がXSS攻撃で不正コードを埋め込まれたりと外野の方が賑やかでしたが、当の総務省の企画が実行されることになったそうです(Internet Watchの記事)。
もっとも、いまさら予告検知だけでは格好が付かないと思ったのか、犯罪情報全般を対象とするシステムになるようで、隠語を使っているケースにも対応できるよう文脈から犯罪情報かどうかを判断する技術も検討するそうです(以下元記事から引用)。ちなみにレンコンは拳銃、豆は銃弾のことだそうですが、住所を明記しておけばスルーということでOK?たとえば「レンコン」に関しては、野菜のレンコンを説明する内容であれば犯罪情報と判定しないが、「レンコンが数十万円」「レンコンと豆をセットで販売」などの表記があり、販売連絡先に住所が明記されていない場合などは犯罪情報と見なすという。
費用対効果を考える分野では無いのだろうが(全く持ってアレゲではないコメント) (スコア:4, すばらしい洞察)
・検知対象のサイトまたはURLをどうやって見つける?
>エントリー式はとてつもなく手間がかかるし漏れも出てくるだろう。人件費は年にいくらかかるのだろう?
>アンカーによる自動追跡はページを見つけることは出来るかもしれないが掲示板か何かは判断できない。(ただの検索エンジンのクローラでは意味がない)
・費用はいくらかかる?
Google先生等の検索エンジン開発費にどれだけの費用を投じているのかわからないけど、そんな予算を毎年つぎ込むというのか?
一度作れば「できた!良かったね!」のようにはならず、常に改善/改良/研究が必要な分野じゃないだろうか?
・作った後の責任は?
「完成しました!」「うまく検出できません」「やっぱり失敗でしたね」でうやむやにされては困る。
いい加減、税金を使うことにたいして責任を持つという事をしてほしい。
全部明確にしてほしいものだ。
個人的な意見では「そんな無駄金使う以前に年金問題やら財政赤字やら解決すべき問題があるだろう」という事しか言えないのだが。
Re:費用対効果を考える分野では無いのだろうが(全く持ってアレゲではないコメント) (スコア:1)
そもそも、このシステムの効果測定をどうするのか、何を基準にするのかという部分も疑問ですよね。
隠語以外 (スコア:3, すばらしい洞察)
読
み
に
は
対
応
し
ま
す
か
?
Re:隠語以外 (スコア:3, おもしろおかしい)
Re:隠語以外 (スコア:3, おもしろおかしい)
C=ま
B=こ
D=め
E=ん
PRINT A + B + E + "と" + C + D + "売ります。"
# 都合により一部配列を変更しております。
## C + E + B
### 『警視庁の方から来ました。』『ひわいな言葉を使ったなっ!』
## なぜわかっtwqさえdfrtghyじゅき
ロシア語で考えるんだ (スコア:1)
は無くてもいいけど、「踊る人形」と「クリンゴン語」はサポートしてほしいです。
Re:ロシア語で考えるんだ (スコア:1)
海老原少佐
# と書くとタイーホなわけですね
Re:隠語以外 (スコア:3, すばらしい洞察)
そういうサイトをググるのも難しいから、ますます口コミのアングラサイト化
Re:隠語以外 (スコア:2, すばらしい洞察)
通常だと別にコレを避ける理由は無い。
アングラ系を売りにするサイトが本来の意味でアングラ化したって、一般犯罪者が到達出来るレベルならば警察なり総務省なりからも到達出来るだろう。
少なくとも、不特定多数の掲示板からそういう行為が無くなればそれはそれで良い訳で。
ってか、それだと「全ての予告が見付るから、犯行予告を出さなくなって危険」とも言える訳ですが。
ま、この手のモノは、馬鹿が考え無しに犯行予告でも書いて、それに引っ込みが付かなくなって実行するってのが無くなるだけで十分じゃないかな。
どうせ犯行声明無しに犯罪を犯す大多数のヤツ等には何の意味も無い物だし。
予告.inと比較する人間は多分あのサイトの役に立たなさぶりをちゃんと見ていないんだろうね。
その上で美化した予告.inと最悪予測したコイツを比較しているから、絶対にコッチの方が良いって結論は出ないと言う寸法。
まあ、現実的にどうなるかは知らんけどさ。
クロールするのですかね (スコア:2, 興味深い)
アクセス元が特定できなくても、認証とアクセス頻度制限などでクロールブロックは容易そうですし。
HTTPアクセス等ではなくてプロバイダに搭載させて飛び交うパケットを解析するのでしょうか。
それとも、ユーザーのローカル環境になにか仕込まれるとか。
スパイウェアにならないように、OSに搭載させるとか、法律で義務化するとかですか。
Re:クロールするのですかね (スコア:1)
「予告.inの件もあるし、とりあえず格好だけ示さないとメンツが保てなくなってきたから言った」
レベルでしか決まってないような感がヒシヒシと伝わってきます。
言い換えれば「本気じゃない」ってこと。
どうせ天下り先とかが いい加減なシステム作って、ほとぼりが冷めたころに黒歴史になるんじゃないですかね。
// 民間に委託するにしても矢野さんだけは勘弁してほしいなぁ(:>^
Re:クロールするのですかね (スコア:2, おもしろおかしい)
Re:クロールするのですかね (スコア:2, おもしろおかしい)
「あっ、税金を無駄遣いしてるシステムを発見したために『税金無駄遣い検知システム』は『税金を無駄遣いしていない』と判定されました!」
「ああっ、『税金無駄遣い検知システム』を検知できなかったために『税金無駄遣い検知システム』は『税金を無駄遣いしている』という判定が……」
#たぶん放っておけば最終的に核ミサイル発射を止めてくれるのでしょう。
Re:クロールするのですかね (スコア:1)
仕組みにしたりすれば、気が付きにくいかもしれませんね。
複数の経路で、離れたブロックに属するアドレス(しかもクロールのたびに
違うアドレスが理想的)など、本当にランダマイズしないと、あっという間に
対策されてしまう気がします。
知人がよく自宅サーバで、ロボットを翻弄して遊んでたのを思い出した。
(なんか.krからくるDQNなロボットには、延々でたらめなデータを送り続けるとか)
クローズドサイトは? (スコア:2, 興味深い)
どう対処するんでしょうね。非公開でも数万人規模、なんて事も、今の時代ならあるでしょう。
あと、たとえばMixiで、マイミク限定にして日記公開してる人の日記での犯罪予告とか…。
(数百人のマイミクが居る人ならそれでもやりかねないと思う…)。
予告.inだと、そういうのもタレこみで判明するけど、自動システムじゃ難しいでしょう。
完全に機械化するには、セキュリティの壁の問題は大きいと思うんですよね。
やりすぎるとそれこそ「検閲」になっちゃいますし。
まあ、ソーシャルなものに頼る必要は、何処かしらあるのではないでしょうか・・・。
Re:クローズドサイトは? (スコア:5, すばらしい洞察)
釣り堀はどうでしょう(Re:クローズドサイトは?) (スコア:1)
「犯罪予告はここにしていってね☆」っと
#管理者はもちろん警察
大きな規模でお金が動きそうですね。 (スコア:1, すばらしい洞察)
そーゆーのはパターンファイル的なものを延々とメンテナンスしていかなきゃいけないし、
運用コスト的な意味で美味しそうな案件ですね。
# 一次・二次請の可能性のある会社にいない以上はすっぱい葡萄なのでAC
Re:大きな規模でお金が動きそうですね。 (スコア:1, 興味深い)
近頃の自然言語処理ではパターンを人手でメンテするのよりも、タグづけされていなくてもよいのでとにかく多数の事例を力業で集めて、半教師あり機械学習をするのが流行です。
今回の例だと、「レンコン」の語義曖昧性解消問題としてみなすこともできますので、「レンコン」を含む文を多数あつめてきて、大多数の文章と何かちがう特徴をもっている文(レンコンを拳銃の隠語として扱っているもの、かもしれない)を拾う、という形になるでしょうか。
もちろん、最終的にその結果をみて機械学習がうまく動いているか、例でいうなら分類器が生成した集合において「レンコンが拳銃の意味で使われているかどうか」を判断するのは人手に頼る作業になりそうですが。
Re:大きな規模でお金が動きそうですね。 (スコア:1)
>近頃の自然言語処理ではパターンを人手でメンテするのよりも、タグづけされていなくてもよいのでとにかく
>多数の事例を力業で集めて、半教師あり機械学習をするのが流行です
警察署の倉庫の中には、取り調べの時の資料(調書)がいっぱい溜まっているはずで、それを学習データにするんじゃないですか。データが沢山あれば、それを学習に使うものと、テストに使うものに分け、後者を犯罪と関係のない文の中に紛れ込まさせておいて、判別機械がどれだけ認識できるかを調べるテストもできるでしょう。捜査資料がちゃんとデータベース化されていれば、犯罪としての重要度の予測だってできそうです。
Re:大きな規模でお金が動きそうですね。 (スコア:1)
逆に、これに当てはまるメールをフィルタアウトすればSPAMが減りそうでいいな。
レンコンと小豆の煮物 (スコア:1, 興味深い)
Re:レンコンと小豆の煮物 (スコア:1)
昔ながらの塩あんで煮たいとこ煮はクソまずいですが。
ただでさえまずいのに、給食で出た時は残飯率 7 割を超えて二度と出なかったということがあります。
# 蓮根の天ぷらとあんころ餅を別に食べた方がおいしいよ!おいしいよ!
隠語と正式語(?)とごちゃ混ぜをどこまで判別出来るかな (スコア:1)
#鳩に豆鉄砲は隠語じゃないか・・・
新しい隠語データにどう追随するのか興味があるなぁ。
まさかソースは2chからとかないよね!?
Re:隠語と正式語(?)とごちゃ混ぜをどこまで判別出来るかな (スコア:1)
Re:隠語と正式語(?)とごちゃ混ぜをどこまで判別出来るかな (スコア:1)
「熊の木本線」の世界ですねぇ
Re:隠語と正式語(?)とごちゃ混ぜをどこまで判別出来るかな (スコア:1)
「馬に蹴られて死んでしまえ」 => 殺人の動機ありと判断。
「二葉亭四迷」=> 「くたばってしまえ」の隠語。
とりあえず (スコア:1, すばらしい洞察)
書き込みがされているこの垂れ込みは、当局に通報されるのではなかろうか?
Re:とりあえず (スコア:1)
それ自体は何かの罪に問われるのでしょうか?
いきなり逮捕ではなく、身辺調査だったり身辺警護(張り込みとも言う)だったり任意の事情聴取が関の山?
なんか、ダミーで一斉に書き込んでシステムへの飽和攻撃がされそう。
#そして本命が見逃される...?
##レンコン=リボルバー なのかしらん?
隠語(おふとぴっくす) (スコア:2, おもしろおかしい)
あの取り出すと次弾が装填される仕組みといい、マガジン(弾倉)っぽいと思うのだが。
新しいPEZ入荷しました!150kみたいな。
#まぁ、そんなにオートが市場に出回る事は無いと思うんだが・・・そうでもないのか?
Re:隠語(おふとぴっくす) (スコア:1)
イメージとしては、トカレフ(ノーリンコ) [wikipedia.org]なんかのほうがリボルバーより
ヤクザな方達に流通している気がします。
#隠語はえーっと・・・ のり子??
Re:隠語(おふとぴっくす) (スコア:2, おもしろおかしい)
開脚トカチェフ2連続=10kとか
#伸身トカチェフ1回ひねり(リューキン)だといくらだ?
Re:隠語(おふとぴっくす) (スコア:1)
PEZは収集家が多いのでレアなやつならありえないでもないかも…
Re:とりあえず (スコア:2, すばらしい洞察)
Re:とりあえず (スコア:1, 参考になる)
必要なのは検知システムではなく人工知能 (スコア:1)
少なくとも、推理小説を連載しているブログとか、あからさまにネタで書いてる話なんかは自動的に判別してフィルタリングしてくれないと、膨大なリソースに人が埋もれてしまって役には立たない。
隠語データベースの話を見る限り、ある程度のフィルタリング機能を持つシステムを目指しているようだけど、開発すべき実体は文章の意味を理解して犯罪情報かどうかを判断する、ぶっちゃけた言い方をすれば空気を読める人工知能なのではなかろうか。
#犯罪捜査に特化した人工知能の開発となれば、巨額の予算もある程度うなずける気がしてしまう不思議。
しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される
Re:必要なのは検知システムではなく人工知能 (スコア:1)
推理小説のほうも、本当の犯罪予告と間違いそうな文章は、Webに載せるべきじゃないと思うけどね。
Re:必要なのは検知システムではなく人工知能 (スコア:1)
新聞や雑誌に掲載された事件記事の引用とか、サスペンスドラマの感想とか、前後を見れば明らかに犯罪予告ではないとわかるネタをどうやって排除するかって話です。
#「犯罪予告を模したネタ」と「犯罪予告に使われるキーワードが含まれるネタ」はぜんぜん別物ですよね
しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される
Re:必要なのは検知システムではなく人工知能 (スコア:1, 興味深い)
キーワードのみのspamフィルタも有ったと思うけどフツーはもちっと頭良いですよね。
傾向を見ているだけで人工知能ってレベルでは無いと思う。
Re:必要なのは検知システムではなく人工知能 (スコア:1)
Webページは文章の一部がiframeで違うサイトを参照してる場合など、人間の目に見えるとおりにロボットに読ませること自体に複雑な解析システムが必要になり、対象にしないといけないフィールドも極端に広いしリンク構成なんかも圧倒的に複雑です。
メールのspamフィルタとは難易度が桁違いじゃないですかね。
しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される
Re:必要なのは検知システムではなく人工知能 (スコア:1)
それって、相手がロボットじゃなく人間だったとしても、検索とかで飛んできたら、予告だと思っちゃう可能性あるんじゃないかな?
重要なのは、その予告に見えるものを見て、危険を感じる人がいるかどうかだろうし。
だから、iframeがどうこう見たいな所までは判定しなくて良いと思う。
Re:必要なのは検知システムではなく人工知能 (スコア:1)
では、「私は明日、ネタとしての犯罪予告をやります!」と宣言するのはすでに犯罪なのですね。
#というネタを思いついた。
Re:必要なのは検知システムではなく人工知能 (スコア:1)
例えば怪人二十面相シリーズのように、犯人が予告状を出すタイプの推理小説なんか引っかかりそうですよね。
ここは自由の殿堂だ。床につばを吐こうが猫を海賊呼ばわりしようが自由だ。- A.バートラム・チャンドラー 銀河辺境シリーズより
Re:必要なのは検知システムではなく人工知能 (スコア:1)
途中の文章だけとか見られ無いように、直リン禁止とかしておかないと危険だとおもう。
Re:必要なのは検知システムではなく人工知能 (スコア:1)
某グ○コあたりの新商品で「アーモンドがギッシリ詰まってる」という宣伝があったとして、
「アーモンドがギッシリ=> アーモンド臭と言えば青酸カリ => これは毒物販売サイトなんだ!」
という判断をする可能性はイカほど?
難しいのは可能性のあるサイトを検出することよりも、誤認識を防ぐことの方だと思う。
隠語を周知してどうすんだ (スコア:1, 興味深い)
こうやって知って隠語で遊び始めるやつも出てくると思うんだが
文脈を読むシステム (スコア:1)
しかもそれで読み取った情報から警察を動かせるってことでしょ?
純粋に、怖いのですが。
1を聞いて0を知れ!
当然 (スコア:1)
Re:レンコンと豆ね。(おふとぴぎみ) (スコア:1)
だから「レンコン」と「豆」なんて使う奴は関係ないかネタが大部分であり、そのワードでひっかける必要はなくて、あえてもっと新しい隠語使ってる奴が浮かび上がるんじゃないかと。
……※未承諾なんとかの例があるから何も考えずに発表しちゃった可能性もあるかなぁ。
Re:架空通貨も守備範囲? (スコア:1)
現実の通貨だしね。