Oliverの日記: 新しい全文検索エンジンを求めて 4
日記 by
Oliver
システムアップグレードの課題として大きく残っているのが検索エンジンの選定だ。MySQLの標準の全文検索エンジンでは日本語の単語の切り分けができないので、Slashcodeの標準のものは使えない。現状はSlashcodeとは完全に並行する形でNamazuを使っているが、辞書を鍛えてないこともあり「わかち書き」の不完全さにより、精度が低すぎてほとんど使えないものだ。そこで、新システムでは新しいエンジンを使って、より統合された検索システムを実装したい。ストーリー本文だけでなく、コメントや日記も検索対象になる予定だ。
要求仕様はこんな感じだ
- 精度が高い。index付きgrep並の精度が欲しい。=> n-gram方式?
- 複数のマシンでNFSを使ってindexを共有可能。検索は絶対必要。書き込みのきちんとした排他もできれば。
- 統合できる様、Perl APIが欲しい
- 代案としては、XML-RPCなどの軽いリモートAPIなラッパー
- 検索対象の本文とメタデータをわけられ、メタデータも検索対象にできる
現在、候補としてあがっているエンジンは以下の通り:
各エンジンの特徴および試用結果はまた別のエントリに。他にも試しておくべきエンジンに関する知識やこれらのエンジンに関する経験があれば教えてください。
検索用の列をもっとけば (スコア:1)
Googleへリンク (スコア:1)
記事検索
http://www.google.co.jp/search?q=site%3Aslashdot.jp+inurl%3Aarticle
コメント検索
http://www.google.co.jp/search?q=site%3Aslashdot.jp+inurl%3Acomments
日記検索
http://www.google.co.jp/search?q=site%3Aslashdot.jp+inurl%3Ajournal
やなぎ
字面じゃなく論旨を読もう。モデレートはそれからだ
Re:Googleへリンク (スコア:1)
# GoogleのロボットにユーザIDを与えたらいいかな?
あぁ、「ン」が消えてるんですよ。「ビーフン・カレー」ね。
比較資料 (スコア:1)
Blog Hackers Conference 2005 発表資料 [yappo.jp]に、勝手に書き綴った
Hyper Estraier, Senna, Rastの紹介の紹介と比較資料を置いてあります。