Re:素晴らしい反スパム機能 (#256727) | Mozilla1.3bリリース、変更点山盛り

「Mozilla1.3bリリース、変更点山盛り」記事へのコメント

記事ページを表示すべてのコメント取得

検索58コメント Log In/Create an Account

素晴らしい反スパム機能 (スコア:3, 参考になる)

by kazhik (100)

私は数週間前からジャンクメールコントロールという新機能を試していますが、これは素晴らしい確率でスパムを検出してくれます。ベイジアンフィルタという統計的手法を使っているそうです。「スパムへの対策」 [dreamhost.com]という論文で詳しく解説されています。
- Re:素晴らしい反スパム機能 (スコア:1)
  
  by lu9 (13849)
  
  それって日本語のジャンクメールもOKですか？
  - Re:素晴らしい反スパム機能 (スコア:0)
    
    by Anonymous Coward
    
    せっかく参考になる論文へのリンクが張ってあるのだから読むべし。あなたの求めている答えもそこにある。
    - Re:素晴らしい反スパム機能 (スコア:2, 参考になる)
      
      by bero (5057) on 2003年02月12日 8時12分 (#256727) 日記
      
      論文では「メール中の単語からspam確率を求める方法」についてかかれているが、mozillaが日本語対応かどうか、つまりスペース区切りでない言語から単語を切り出せるかどうか、の直接的な答えにはなってない。
      （単語切り出しについては、論文筆者は続編で改良を試みてるが、3-gramとか、日本語の2-gramの実験もある。）
      
      でmozillaの実装はどうか？　と見てみると、一応対応している。
      
      まずスペースや記号で区切った後、全部数字なら無視、全部ASCIIならそのまま単語とする。それ以外はi18nルーチンに飛び、「カタカナのかたまり」「ひらがなのかたまり」「半角カナのかたまり」「それ以外のかたまり(英数含む)」に分けてる。
      
      シェア
      
      親コメント
      - Re:素晴らしい反スパム機能 (スコア:1)
        
        by bero (5057) on 2003年02月12日 8時23分 (#256735) 日記
        
        >>「それ以外のかたまり(英数含む)」
        
        「CJK（漢字）のかたまり」「それ以外のかたまり(英数含む)」でした。
        
        シェア
        
        親コメント
      - Re:素晴らしい反スパム機能 (スコア:1)
        
        by Circlive (12651) on 2003年02月12日 9時03分 (#256751) 日記
        
        ご存知だとは思いますが、日本語の文章から単語を切り出すにはどうしたって辞書が必要です。たとえばMozillaで（英数含む）をダブルクリックすると「英数含」が選択されていまいますが、これは妥当な選択とは言えません。（ひらがなのかたまり）もやはり分割できません。（半角カナ）は「半角」と「カナ」に分けられてしまいますが、これも望まれる動作ではないでしょう。
        
        件のフィルタリングのための切り分けなら、完全に単語単位にならなくても精度が落ちる以上のことはないわけで、実際に試してみれば実用的なのかも知れませんが...
        
        --
        ...芸というものは一生勉強だと思っています...
        
        シェア
        
        親コメント
        
        Mozilla と日本語単語の切り出し（Re:素晴らしい反ス (スコア:0)
        
        by Anonymous Coward
        
        本題とは関係ない話なんですが。
        
        日本語の読みをルビやツールチップなどで表現させようという試みが mozdev.org にありまして [mozdev.org]そちらでは ChaSen [aist-nara.ac.jp] を使おうとしていますね。
      - Re:素晴らしい反スパム機能 (スコア:1)
        
        by level (13054) on 2003年02月12日 22時49分 (#257302) ホームページ日記
        
        おお。最低レベルの日本語対応はしていると言うことですね。
        ちょっと安心。
        
        ところで、base64な部分はちゃんと読み飛ばしているでしょうか？
        本文による検索やフィルタリングはbase64のエンコード部分を
        そのまま見てしまうんですが...
        
        現状ではほぼ完璧に振り分けを行ってくれています。
        
        今、うちのtraining.datは7.6MB。
        どんなスパムな単語が登録されているのか、
        データの中身を見てみたい気もするけど。
        
        シェア
        
        親コメント
        
        Re:素晴らしい反スパム機能 (スコア:1)
        
        by bero (5057) on 2003年02月13日 9時25分 (#257530) 日記
        
        >どんなスパムな単語が登録されているのか、
        >データの中身を見てみたい気もするけど。
        
        traning.datをUTF-8対応のエディタで（バイナリを無理やり）のぞいたら見れました
        mimeだかuuencodeだかの一行分を単語としたのがかなりの量を占めてますが、これがウィルスにマッチするんだろうからあながち無駄とはいえない。
        
        シェア
        
        親コメント

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

Mozilla1.3bリリース、変更点山盛り More ログイン

「Mozilla1.3bリリース、変更点山盛り」記事へのコメント

素晴らしい反スパム機能 (スコア:3, 参考になる)

Re:素晴らしい反スパム機能 (スコア:1)

Re:素晴らしい反スパム機能 (スコア:0)

Re:素晴らしい反スパム機能 (スコア:2, 参考になる)

Re:素晴らしい反スパム機能 (スコア:1)

Re:素晴らしい反スパム機能 (スコア:1)

Mozilla と日本語単語の切り出し（Re:素晴らしい反ス (スコア:0)

Re:素晴らしい反スパム機能 (スコア:1)

Re:素晴らしい反スパム機能 (スコア:1)

スラド