パスワードを忘れた? アカウント作成
33256 story
インターネット

総務省の犯罪検知システム、その後 94

ストーリー by hylom
「レンコンと豆」のセットは判断が難しそう…… 部門より
hide.jikyll 曰く

6月に掲載された「総務省が犯行予告自動収集システムの開発を企画……が、0円で作っちゃった人が登場」というストーリーを覚えているでしょうか。

その0円で作っちゃったシステム(予告.in)がXSS攻撃で不正コードを埋め込まれたりと外野の方が賑やかでしたが、当の総務省の企画が実行されることになったそうです(Internet Watchの記事)。

もっとも、いまさら予告検知だけでは格好が付かないと思ったのか、犯罪情報全般を対象とするシステムになるようで、隠語を使っているケースにも対応できるよう文脈から犯罪情報かどうかを判断する技術も検討するそうです(以下元記事から引用)。

たとえば「レンコン」に関しては、野菜のレンコンを説明する内容であれば犯罪情報と判定しないが、「レンコンが数十万円」「レンコンと豆をセットで販売」などの表記があり、販売連絡先に住所が明記されていない場合などは犯罪情報と見なすという。
ちなみにレンコンは拳銃、豆は銃弾のことだそうですが、住所を明記しておけばスルーということでOK?
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • そもそも、言い出しっぺはインターネットがどういうものか理解しているのか疑問が沸く。
    ・検知対象のサイトまたはURLをどうやって見つける?
     >エントリー式はとてつもなく手間がかかるし漏れも出てくるだろう。人件費は年にいくらかかるのだろう?
     >アンカーによる自動追跡はページを見つけることは出来るかもしれないが掲示板か何かは判断できない。(ただの検索エンジンのクローラでは意味がない)
    ・費用はいくらかかる?
     Google先生等の検索エンジン開発費にどれだけの費用を投じているのかわからないけど、そんな予算を毎年つぎ込むというのか?
     一度作れば「できた!良かったね!」のようにはならず、常に改善/改良/研究が必要な分野じゃないだろうか?
    ・作った後の責任は?
     「完成しました!」「うまく検出できません」「やっぱり失敗でしたね」でうやむやにされては困る。
     いい加減、税金を使うことにたいして責任を持つという事をしてほしい。

    全部明確にしてほしいものだ。
    個人的な意見では「そんな無駄金使う以前に年金問題やら財政赤字やら解決すべき問題があるだろう」という事しか言えないのだが。

  • 隠語以外 (スコア:3, すばらしい洞察)

    by Anonymous Coward on 2008年08月22日 0時40分 (#1407575)












    • Re:隠語以外 (スコア:3, おもしろおかしい)

      by ots556556 (34248) on 2008年08月22日 12時53分 (#1407761)
      たぬき:れたんたこたんたとたまためたをたせたったとたでたはたんたばたい
      親コメント
    • Re:隠語以外 (スコア:3, すばらしい洞察)

      by sum (10437) on 2008年08月22日 13時22分 (#1407784) ホームページ
      あとCAPTCHAのように書き込みがすべて画像(ノイズ付き)に置きかわるBBSとか。
      そういうサイトをググるのも難しいから、ますます口コミのアングラサイト化
      親コメント
      • Re:隠語以外 (スコア:2, すばらしい洞察)

        by Anonymous Coward on 2008年08月22日 14時33分 (#1407844)
        いいんじゃない?

        通常だと別にコレを避ける理由は無い。

        アングラ系を売りにするサイトが本来の意味でアングラ化したって、一般犯罪者が到達出来るレベルならば警察なり総務省なりからも到達出来るだろう。

        少なくとも、不特定多数の掲示板からそういう行為が無くなればそれはそれで良い訳で。

        ってか、それだと「全ての予告が見付るから、犯行予告を出さなくなって危険」とも言える訳ですが。

        ま、この手のモノは、馬鹿が考え無しに犯行予告でも書いて、それに引っ込みが付かなくなって実行するってのが無くなるだけで十分じゃないかな。

        どうせ犯行声明無しに犯罪を犯す大多数のヤツ等には何の意味も無い物だし。

        予告.inと比較する人間は多分あのサイトの役に立たなさぶりをちゃんと見ていないんだろうね。
        その上で美化した予告.inと最悪予測したコイツを比較しているから、絶対にコッチの方が良いって結論は出ないと言う寸法。

        まあ、現実的にどうなるかは知らんけどさ。

        親コメント
  • by kcg (26566) on 2008年08月22日 12時53分 (#1407762) ホームページ 日記
    HTTPでクロールするだけだと、IPを偽ったり頻繁に変更するなりしないと、アクセス拒否する方法が広まるんじゃなですかね。
    アクセス元が特定できなくても、認証とアクセス頻度制限などでクロールブロックは容易そうですし。
    HTTPアクセス等ではなくてプロバイダに搭載させて飛び交うパケットを解析するのでしょうか。
    それとも、ユーザーのローカル環境になにか仕込まれるとか。
    スパイウェアにならないように、OSに搭載させるとか、法律で義務化するとかですか。
    • 多分そこまで煮詰まってないんじゃないですかね。
      「予告.inの件もあるし、とりあえず格好だけ示さないとメンツが保てなくなってきたから言った」
      レベルでしか決まってないような感がヒシヒシと伝わってきます。

      言い換えれば「本気じゃない」ってこと。
      どうせ天下り先とかが いい加減なシステム作って、ほとぼりが冷めたころに黒歴史になるんじゃないですかね。

      // 民間に委託するにしても矢野さんだけは勘弁してほしいなぁ(:>^
      親コメント
      • by sayuporn (33927) on 2008年08月22日 15時44分 (#1407889) 日記
        財務省に「税金無駄遣い検知システム」を作って欲しいですね☆
        親コメント
        • by digoh (17917) on 2008年08月22日 19時43分 (#1408005) 日記
          「『税金無駄遣い検知システム』は税金無駄遣いだと判定しました!」
          「あっ、税金を無駄遣いしてるシステムを発見したために『税金無駄遣い検知システム』は『税金を無駄遣いしていない』と判定されました!」
          「ああっ、『税金無駄遣い検知システム』を検知できなかったために『税金無駄遣い検知システム』は『税金を無駄遣いしている』という判定が……」

          #たぶん放っておけば最終的に核ミサイル発射を止めてくれるのでしょう。
          親コメント
    • これも単に拒否するだけじゃなくて、ダミーのページを食わせるような
      仕組みにしたりすれば、気が付きにくいかもしれませんね。

      複数の経路で、離れたブロックに属するアドレス(しかもクロールのたびに
      違うアドレスが理想的)など、本当にランダマイズしないと、あっという間に
      対策されてしまう気がします。

      知人がよく自宅サーバで、ロボットを翻弄して遊んでたのを思い出した。
      (なんか.krからくるDQNなロボットには、延々でたらめなデータを送り続けるとか)
      親コメント
  • by urdcat (35773) on 2008年08月22日 13時33分 (#1407793) ホームページ 日記
    たとえば認証制SNSとか、更にはその中の非公開クローズドコミュニティとかには、
    どう対処するんでしょうね。非公開でも数万人規模、なんて事も、今の時代ならあるでしょう。
    あと、たとえばMixiで、マイミク限定にして日記公開してる人の日記での犯罪予告とか…。
    (数百人のマイミクが居る人ならそれでもやりかねないと思う…)。

    予告.inだと、そういうのもタレこみで判明するけど、自動システムじゃ難しいでしょう。
    完全に機械化するには、セキュリティの壁の問題は大きいと思うんですよね。
    やりすぎるとそれこそ「検閲」になっちゃいますし。

    まあ、ソーシャルなものに頼る必要は、何処かしらあるのではないでしょうか・・・。
  • by Anonymous Coward on 2008年08月21日 19時48分 (#1407446)
    そりゃダミーの住所ぐらいは判別できるようにするでしょうけど、
    そーゆーのはパターンファイル的なものを延々とメンテナンスしていかなきゃいけないし、
    運用コスト的な意味で美味しそうな案件ですね。

    # 一次・二次請の可能性のある会社にいない以上はすっぱい葡萄なのでAC
    • by Anonymous Coward on 2008年08月22日 13時01分 (#1407769)
      > パターンファイル的なものを延々とメンテナンス

      近頃の自然言語処理ではパターンを人手でメンテするのよりも、タグづけされていなくてもよいのでとにかく多数の事例を力業で集めて、半教師あり機械学習をするのが流行です。
      今回の例だと、「レンコン」の語義曖昧性解消問題としてみなすこともできますので、「レンコン」を含む文を多数あつめてきて、大多数の文章と何かちがう特徴をもっている文(レンコンを拳銃の隠語として扱っているもの、かもしれない)を拾う、という形になるでしょうか。
      もちろん、最終的にその結果をみて機械学習がうまく動いているか、例でいうなら分類器が生成した集合において「レンコンが拳銃の意味で使われているかどうか」を判断するのは人手に頼る作業になりそうですが。
      親コメント
      • >近頃の自然言語処理ではパターンを人手でメンテするのよりも、タグづけされていなくてもよいのでとにかく
        >多数の事例を力業で集めて、半教師あり機械学習をするのが流行です

        警察署の倉庫の中には、取り調べの時の資料(調書)がいっぱい溜まっているはずで、それを学習データにするんじゃないですか。データが沢山あれば、それを学習に使うものと、テストに使うものに分け、後者を犯罪と関係のない文の中に紛れ込まさせておいて、判別機械がどれだけ認識できるかを調べるテストもできるでしょう。捜査資料がちゃんとデータベース化されていれば、犯罪としての重要度の予測だってできそうです。

        親コメント
      • ベイジアンですね、わかります

        逆に、これに当てはまるメールをフィルタアウトすればSPAMが減りそうでいいな。
        親コメント
  • by Anonymous Coward on 2008年08月22日 12時38分 (#1407751)
    レンコンと豆はだめらしいですが、レンコンと小豆のセット [niigata.jp]は美味しいですよ
    • by Stealth (5277) on 2008年08月23日 17時12分 (#1408534)

      昔ながらの塩あんで煮たいとこ煮はクソまずいですが。
      ただでさえまずいのに、給食で出た時は残飯率 7 割を超えて二度と出なかったということがあります。

      # 蓮根の天ぷらとあんころ餅を別に食べた方がおいしいよ!おいしいよ!

      親コメント
  • 意外と「鳩に豆鉄砲、大10枚」とかで引っかかっちゃったりして

    #鳩に豆鉄砲は隠語じゃないか・・・

    新しい隠語データにどう追随するのか興味があるなぁ。
    まさかソースは2chからとかないよね!?
  • とりあえず (スコア:1, すばらしい洞察)

    by Anonymous Coward on 2008年08月22日 13時07分 (#1407773)
    「レンコ*とま*セットで販売」、「住所明記なし」という条件に当てはまる
    書き込みがされているこの垂れ込みは、当局に通報されるのではなかろうか?
  •  クロールしてキーワードから情報を拾ってくるだけならそんなに難しくない。問題は、その膨大な情報の中から本当の犯罪にかかわる情報を見抜くこと。
     少なくとも、推理小説を連載しているブログとか、あからさまにネタで書いてる話なんかは自動的に判別してフィルタリングしてくれないと、膨大なリソースに人が埋もれてしまって役には立たない。
     隠語データベースの話を見る限り、ある程度のフィルタリング機能を持つシステムを目指しているようだけど、開発すべき実体は文章の意味を理解して犯罪情報かどうかを判断する、ぶっちゃけた言い方をすれば空気を読める人工知能なのではなかろうか。

    #犯罪捜査に特化した人工知能の開発となれば、巨額の予算もある程度うなずける気がしてしまう不思議。
    --
    しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される
    • 推理小説は別としても、「ネタで犯罪予告」ってのは、やってはいけない冗談であり、ネタであっても犯罪だとおもう。

      推理小説のほうも、本当の犯罪予告と間違いそうな文章は、Webに載せるべきじゃないと思うけどね。
      親コメント
      • 前後の文章を読めば明らかに犯罪予告ではないとわかるけど、キーワードレベルで収集していれば引っかかるネタというのはたくさんありますよ。

        新聞や雑誌に掲載された事件記事の引用とか、サスペンスドラマの感想とか、前後を見れば明らかに犯罪予告ではないとわかるネタをどうやって排除するかって話です。

        #「犯罪予告を模したネタ」と「犯罪予告に使われるキーワードが含まれるネタ」はぜんぜん別物ですよね
        --
        しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される
        親コメント
        • by Anonymous Coward on 2008年08月22日 16時47分 (#1407923)
          spamフィルタと似たりよったりの話では?

          キーワードのみのspamフィルタも有ったと思うけどフツーはもちっと頭良いですよね。
          傾向を見ているだけで人工知能ってレベルでは無いと思う。

          親コメント
          • spamフィルタの場合はヘッダ情報という定型フォーマットのフィルタリング判断に使える重要な情報があるし、本分のフォーマットに制限があるので本分の文章解析も楽です。
            Webページは文章の一部がiframeで違うサイトを参照してる場合など、人間の目に見えるとおりにロボットに読ませること自体に複雑な解析システムが必要になり、対象にしないといけないフィールドも極端に広いしリンク構成なんかも圧倒的に複雑です。
            メールのspamフィルタとは難易度が桁違いじゃないですかね。
            --
            しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される
            親コメント
            • >Webページは文章の一部がiframeで違うサイトを参照してる場合など

              それって、相手がロボットじゃなく人間だったとしても、検索とかで飛んできたら、予告だと思っちゃう可能性あるんじゃないかな?
              重要なのは、その予告に見えるものを見て、危険を感じる人がいるかどうかだろうし。

              だから、iframeがどうこう見たいな所までは判定しなくて良いと思う。
              親コメント
      • > 「ネタで犯罪予告」ってのは、やってはいけない冗談であり、ネタであっても犯罪だとおもう。
        では、「私は明日、ネタとしての犯罪予告をやります!」と宣言するのはすでに犯罪なのですね。

        #というネタを思いついた。
        親コメント
      •  (あるかどうか確認していないけれど)青空文庫に推理小説やら伝奇小説やらが収録されていたらどうしましょうか?
         例えば怪人二十面相シリーズのように、犯人が予告状を出すタイプの推理小説なんか引っかかりそうですよね。
        --
        ここは自由の殿堂だ。床につばを吐こうが猫を海賊呼ばわりしようが自由だ。- A.バートラム・チャンドラー 銀河辺境シリーズより
        親コメント
  • by Anonymous Coward on 2008年08月22日 14時27分 (#1407842)
    少なくともこの報道を見るまではレンコンとか豆とか知らなかった
    こうやって知って隠語で遊び始めるやつも出てくると思うんだが
  • 文脈まで読み取るネット監視システムを国が持って、
    しかもそれで読み取った情報から警察を動かせるってことでしょ?

    純粋に、怖いのですが。
    --
    1を聞いて0を知れ!
  • by vsr10 (34175) on 2008年08月23日 2時02分 (#1408232)
    1ピーナッツにも対応ですよね?
typodupeerror

開いた括弧は必ず閉じる -- あるプログラマー

読み込み中...