ページ内ジャンプ:
[ アカウントをゲット! ]
親コメント
ご存知だとは思いますが、日本語の文章から単語を切り出すにはどうしたって辞書が必要です。たとえばMozillaで(英数含む)をダブルクリックすると「英数含」が選択されていまいますが、これは妥当な選択とは言えません。(ひらがなのかたまり)もやはり分割できません。(半角カナ)は「半角」と「カナ」に分けられてしまいますが、これも望まれる動作ではないでしょう。
件のフィルタリングのための切り分けなら、完全に単語単位にならなくても精度が落ちる以上のことはないわけで、実際に試してみれば実用的なのかも知れませんが...
このページのすべての商標と著作権はそれぞれの所有者が有します。 コメントやユーザ日記に関しては投稿者が有します。 のこりのものは、© 2001-2010 OSDN です。
Re:素晴らしい反スパム機能 (スコア:2, 参考になる)
(単語切り出しについては、論文筆者は続編で改良を試みてるが、3-gramとか、日本語の2-gramの実験もある。)
でmozillaの実装はどうか? と見てみると、一応対応している。
まずスペースや記号で区切った後、全部数字なら無視、全部ASCIIならそのまま単語とする。それ以外はi18nルーチンに飛び、「カタカナのかたまり」「ひらがなのかたまり」「半角カナのかたまり」「それ以外のかたまり(英数含む)」に分けてる。
親コメント
Re:素晴らしい反スパム機能 (スコア:1)
「CJK(漢字)のかたまり」「それ以外のかたまり(英数含む)」でした。
親コメント
Re:素晴らしい反スパム機能 (スコア:1)
ご存知だとは思いますが、日本語の文章から単語を切り出すにはどうしたって辞書が必要です。たとえばMozillaで(英数含む)をダブルクリックすると「英数含」が選択されていまいますが、これは妥当な選択とは言えません。(ひらがなのかたまり)もやはり分割できません。(半角カナ)は「半角」と「カナ」に分けられてしまいますが、これも望まれる動作ではないでしょう。
件のフィルタリングのための切り分けなら、完全に単語単位にならなくても精度が落ちる以上のことはないわけで、実際に試してみれば実用的なのかも知れませんが...
...芸というものは一生勉強だと思っています...
親コメント
Re:素晴らしい反スパム機能 (スコア:1)
ちょっと安心。
ところで、base64な部分はちゃんと読み飛ばしているでしょうか?
本文による検索やフィルタリングはbase64のエンコード部分を
そのまま見てしまうんですが...
現状ではほぼ完璧に振り分けを行ってくれています。
今、うちのtraining.datは7.6MB。
どんなスパムな単語が登録されているのか、
データの中身を見てみたい気もするけど。
親コメント