ページ内ジャンプ:

アレゲなニュースと雑談サイト

この議論は賞味期限が過ぎたので、保存されている。 新たにコメントを書くことはできない。
表示オプション しきい値:
  • bero (5057) : 2003年02月12日 8時12分 (#256727) 日記
    論文では「メール中の単語からspam確率を求める方法」についてかかれているが、mozillaが日本語対応かどうか、つまりスペース区切りでない言語から単語を切り出せるかどうか、の直接的な答えにはなってない。
    (単語切り出しについては、論文筆者は続編で改良を試みてるが、3-gramとか、日本語の2-gramの実験もある。)

    でmozillaの実装はどうか? と見てみると、一応対応している。

    まずスペースや記号で区切った後、全部数字なら無視、全部ASCIIならそのまま単語とする。それ以外はi18nルーチンに飛び、「カタカナのかたまり」「ひらがなのかたまり」「半角カナのかたまり」「それ以外のかたまり(英数含む)」に分けてる。
    Starting Score:    2  points
    '参考になる' 補正   0  

    合計スコア:   2  
  • >>「それ以外のかたまり(英数含む)」

    「CJK(漢字)のかたまり」「それ以外のかたまり(英数含む)」でした。
  • ご存知だとは思いますが、日本語の文章から単語を切り出すにはどうしたって辞書が必要です。たとえばMozillaで(英数含む)をダブルクリックすると「英数含」が選択されていまいますが、これは妥当な選択とは言えません。(ひらがなのかたまり)もやはり分割できません。(半角カナ)は「半角」と「カナ」に分けられてしまいますが、これも望まれる動作ではないでしょう。

    件のフィルタリングのための切り分けなら、完全に単語単位にならなくても精度が落ちる以上のことはないわけで、実際に試してみれば実用的なのかも知れませんが...

    --
    ...芸というものは一生勉強だと思っています...
  • おお。最低レベルの日本語対応はしていると言うことですね。
    ちょっと安心。

    ところで、base64な部分はちゃんと読み飛ばしているでしょうか?
    本文による検索やフィルタリングはbase64のエンコード部分を
    そのまま見てしまうんですが...

    現状ではほぼ完璧に振り分けを行ってくれています。

    今、うちのtraining.datは7.6MB。
    どんなスパムな単語が登録されているのか、
    データの中身を見てみたい気もするけど。