ページ内ジャンプ:

アレゲなニュースと雑談サイト

hylomによる 2008年08月22日 12時25分の掲載
「レンコンと豆」のセットは判断が難しそう……部門より
hide.jikyll 曰く

6月に掲載された「総務省が犯行予告自動収集システムの開発を企画……が、0円で作っちゃった人が登場」というストーリーを覚えているでしょうか。

その0円で作っちゃったシステム(予告.in)がXSS攻撃で不正コードを埋め込まれたりと外野の方が賑やかでしたが、当の総務省の企画が実行されることになったそうです(Internet Watchの記事)。

もっとも、いまさら予告検知だけでは格好が付かないと思ったのか、犯罪情報全般を対象とするシステムになるようで、隠語を使っているケースにも対応できるよう文脈から犯罪情報かどうかを判断する技術も検討するそうです(以下元記事から引用)。

たとえば「レンコン」に関しては、野菜のレンコンを説明する内容であれば犯罪情報と判定しないが、「レンコンが数十万円」「レンコンと豆をセットで販売」などの表記があり、販売連絡先に住所が明記されていない場合などは犯罪情報と見なすという。
ちなみにレンコンは拳銃、豆は銃弾のことだそうですが、住所を明記しておけばスルーということでOK?
この議論は賞味期限が過ぎたので、保存されている。 新たにコメントを書くことはできない。
表示オプション しきい値:
(1) | 2 (スラッシュドット・ジャパン システム負荷過大: コメント数制限中 50)
  • そもそも、言い出しっぺはインターネットがどういうものか理解しているのか疑問が沸く。
    ・検知対象のサイトまたはURLをどうやって見つける?
     >エントリー式はとてつもなく手間がかかるし漏れも出てくるだろう。人件費は年にいくらかかるのだろう?
     >アンカーによる自動追跡はページを見つけることは出来るかもしれないが掲示板か何かは判断できない。(ただの検索エンジンのクローラでは意味がない)
    ・費用はいくらかかる?
     Google先生等の検索エンジン開発費にどれだけの費用を投じているのかわからないけど、そんな予算を毎年つぎ込むというのか?
     一度作れば「できた!良かったね!」のようにはならず、常に改善/改良/研究が必要な分野じゃないだろうか?
    ・作った後の責任は?
     「完成しました!」「うまく検出できません」「やっぱり失敗でしたね」でうやむやにされては困る。
     いい加減、税金を使うことにたいして責任を持つという事をしてほしい。

    全部明確にしてほしいものだ。
    個人的な意見では「そんな無駄金使う以前に年金問題やら財政赤字やら解決すべき問題があるだろう」という事しか言えないのだが。

  • 隠語以外 (スコア:3, すばらしい洞察)

    Anonymous Coward : 2008年08月22日 0時40分 (#1407575)












    • Re:隠語以外 (スコア:3, おもしろおかしい)

      ots556556 (34248) : 2008年08月22日 12時53分 (#1407761)
      たぬき:れたんたこたんたとたまためたをたせたったとたでたはたんたばたい
    • Re:隠語以外 (スコア:3, すばらしい洞察)

      sum (10437) : 2008年08月22日 13時22分 (#1407784) ホームページ
      あとCAPTCHAのように書き込みがすべて画像(ノイズ付き)に置きかわるBBSとか。
      そういうサイトをググるのも難しいから、ますます口コミのアングラサイト化
      • Re:隠語以外 (スコア:2, すばらしい洞察)

        Anonymous Coward : 2008年08月22日 14時33分 (#1407844)
        いいんじゃない?

        通常だと別にコレを避ける理由は無い。

        アングラ系を売りにするサイトが本来の意味でアングラ化したって、一般犯罪者が到達出来るレベルならば警察なり総務省なりからも到達出来るだろう。

        少なくとも、不特定多数の掲示板からそういう行為が無くなればそれはそれで良い訳で。

        ってか、それだと「全ての予告が見付るから、犯行予告を出さなくなって危険」とも言える訳ですが。

        ま、この手のモノは、馬鹿が考え無しに犯行予告でも書いて、それに引っ込みが付かなくなって実行するってのが無くなるだけで十分じゃないかな。

        どうせ犯行声明無しに犯罪を犯す大多数のヤツ等には何の意味も無い物だし。

        予告.inと比較する人間は多分あのサイトの役に立たなさぶりをちゃんと見ていないんだろうね。
        その上で美化した予告.inと最悪予測したコイツを比較しているから、絶対にコッチの方が良いって結論は出ないと言う寸法。

        まあ、現実的にどうなるかは知らんけどさ。

      • 1個のコメント が現在のしきい値以下です。
    • 4個のコメント が現在のしきい値以下です。
  • kcg (26566) : 2008年08月22日 12時53分 (#1407762)
    HTTPでクロールするだけだと、IPを偽ったり頻繁に変更するなりしないと、アクセス拒否する方法が広まるんじゃなですかね。
    アクセス元が特定できなくても、認証とアクセス頻度制限などでクロールブロックは容易そうですし。
    HTTPアクセス等ではなくてプロバイダに搭載させて飛び交うパケットを解析するのでしょうか。
    それとも、ユーザーのローカル環境になにか仕込まれるとか。
    スパイウェアにならないように、OSに搭載させるとか、法律で義務化するとかですか。
    • 多分そこまで煮詰まってないんじゃないですかね。
      「予告.inの件もあるし、とりあえず格好だけ示さないとメンツが保てなくなってきたから言った」
      レベルでしか決まってないような感がヒシヒシと伝わってきます。

      言い換えれば「本気じゃない」ってこと。
      どうせ天下り先とかが いい加減なシステム作って、ほとぼりが冷めたころに黒歴史になるんじゃないですかね。

      // 民間に委託するにしても矢野さんだけは勘弁してほしいなぁ(:>^
      • sayuporn (33927) : 2008年08月22日 15時44分 (#1407889) 日記
        財務省に「税金無駄遣い検知システム」を作って欲しいですね☆
        • digoh (17917) : 2008年08月22日 19時43分 (#1408005) 日記
          「『税金無駄遣い検知システム』は税金無駄遣いだと判定しました!」
          「あっ、税金を無駄遣いしてるシステムを発見したために『税金無駄遣い検知システム』は『税金を無駄遣いしていない』と判定されました!」
          「ああっ、『税金無駄遣い検知システム』を検知できなかったために『税金無駄遣い検知システム』は『税金を無駄遣いしている』という判定が……」

          #たぶん放っておけば最終的に核ミサイル発射を止めてくれるのでしょう。
    • これも単に拒否するだけじゃなくて、ダミーのページを食わせるような
      仕組みにしたりすれば、気が付きにくいかもしれませんね。

      複数の経路で、離れたブロックに属するアドレス(しかもクロールのたびに
      違うアドレスが理想的)など、本当にランダマイズしないと、あっという間に
      対策されてしまう気がします。

      知人がよく自宅サーバで、ロボットを翻弄して遊んでたのを思い出した。
      (なんか.krからくるDQNなロボットには、延々でたらめなデータを送り続けるとか)
  • たとえば認証制SNSとか、更にはその中の非公開クローズドコミュニティとかには、
    どう対処するんでしょうね。非公開でも数万人規模、なんて事も、今の時代ならあるでしょう。
    あと、たとえばMixiで、マイミク限定にして日記公開してる人の日記での犯罪予告とか…。
    (数百人のマイミクが居る人ならそれでもやりかねないと思う…)。

    予告.inだと、そういうのもタレこみで判明するけど、自動システムじゃ難しいでしょう。
    完全に機械化するには、セキュリティの壁の問題は大きいと思うんですよね。
    やりすぎるとそれこそ「検閲」になっちゃいますし。

    まあ、ソーシャルなものに頼る必要は、何処かしらあるのではないでしょうか・・・。
  • Anonymous Coward : 2008年08月21日 19時48分 (#1407446)
    そりゃダミーの住所ぐらいは判別できるようにするでしょうけど、
    そーゆーのはパターンファイル的なものを延々とメンテナンスしていかなきゃいけないし、
    運用コスト的な意味で美味しそうな案件ですね。

    # 一次・二次請の可能性のある会社にいない以上はすっぱい葡萄なのでAC
    • Anonymous Coward : 2008年08月22日 13時01分 (#1407769)
      > パターンファイル的なものを延々とメンテナンス

      近頃の自然言語処理ではパターンを人手でメンテするのよりも、タグづけされていなくてもよいのでとにかく多数の事例を力業で集めて、半教師あり機械学習をするのが流行です。
      今回の例だと、「レンコン」の語義曖昧性解消問題としてみなすこともできますので、「レンコン」を含む文を多数あつめてきて、大多数の文章と何かちがう特徴をもっている文(レンコンを拳銃の隠語として扱っているもの、かもしれない)を拾う、という形になるでしょうか。
      もちろん、最終的にその結果をみて機械学習がうまく動いているか、例でいうなら分類器が生成した集合において「レンコンが拳銃の意味で使われているかどうか」を判断するのは人手に頼る作業になりそうですが。
      • >近頃の自然言語処理ではパターンを人手でメンテするのよりも、タグづけされていなくてもよいのでとにかく
        >多数の事例を力業で集めて、半教師あり機械学習をするのが流行です

        警察署の倉庫の中には、取り調べの時の資料(調書)がいっぱい溜まっているはずで、それを学習データにするんじゃないですか。データが沢山あれば、それを学習に使うものと、テストに使うものに分け、後者を犯罪と関係のない文の中に紛れ込まさせておいて、判別機械がどれだけ認識できるかを調べるテストもできるでしょう。捜査資料がちゃんとデータベース化されていれば、犯罪としての重要度の予測だってできそうです。

      • ベイジアンですね、わかります

        逆に、これに当てはまるメールをフィルタアウトすればSPAMが減りそうでいいな。
    • 3個のコメント が現在のしきい値以下です。
  • Anonymous Coward : 2008年08月22日 12時38分 (#1407751)
    レンコンと豆はだめらしいですが、レンコンと小豆のセット [niigata.jp]は美味しいですよ
  • 意外と「鳩に豆鉄砲、大10枚」とかで引っかかっちゃったりして

    #鳩に豆鉄砲は隠語じゃないか・・・

    新しい隠語データにどう追随するのか興味があるなぁ。
    まさかソースは2chからとかないよね!?
  • とりあえず (スコア:1, すばらしい洞察)

    Anonymous Coward : 2008年08月22日 13時07分 (#1407773)
    「レンコ*とま*セットで販売」、「住所明記なし」という条件に当てはまる
    書き込みがされているこの垂れ込みは、当局に通報されるのではなかろうか?
  •  クロールしてキーワードから情報を拾ってくるだけならそんなに難しくない。問題は、その膨大な情報の中から本当の犯罪にかかわる情報を見抜くこと。
     少なくとも、推理小説を連載しているブログとか、あからさまにネタで書いてる話なんかは自動的に判別してフィルタリングしてくれないと、膨大なリソースに人が埋もれてしまって役には立たない。
     隠語データベースの話を見る限り、ある程度のフィルタリング機能を持つシステムを目指しているようだけど、開発すべき実体は文章の意味を理解して犯罪情報かどうかを判断する、ぶっちゃけた言い方をすれば空気を読める人工知能なのではなかろうか。

    #犯罪捜査に特化した人工知能の開発となれば、巨額の予算もある程度うなずける気がしてしまう不思議。
    --

    //ソリッドファイター完全版 [fukkan.com]復刊賛同者募集中/

  • Anonymous Coward : 2008年08月22日 14時27分 (#1407842)
    少なくともこの報道を見るまではレンコンとか豆とか知らなかった
    こうやって知って隠語で遊び始めるやつも出てくると思うんだが
  • 文脈まで読み取るネット監視システムを国が持って、
    しかもそれで読み取った情報から警察を動かせるってことでしょ?

    純粋に、怖いのですが。
    --
    1を聞いて0を知れ!
  • vsr10 (34175) : 2008年08月23日 2時02分 (#1408232)
    1ピーナッツにも対応ですよね?
  • さすがにこういうのは「マスコミ発表時にはすでにマイナーになってる隠語」とかだったりするんじゃないですかねぇ。
    だから「レンコン」と「豆」なんて使う奴は関係ないかネタが大部分であり、そのワードでひっかける必要はなくて、あえてもっと新しい隠語使ってる奴が浮かび上がるんじゃないかと。
    ……※未承諾なんとかの例があるから何も考えずに発表しちゃった可能性もあるかなぁ。
  • 9個のコメント が現在のしきい値以下です。
(1) | 2 (スラッシュドット・ジャパン システム負荷過大: コメント数制限中 50)