Googleの対抗馬登場 10
ストーリー by wakatono
でもまたβテスト中 部門より
でもまたβテスト中 部門より
yuki-kun 曰く,"Japan.internet.comの記事によると、Teoma SearchのBeta Testが始まっている。GoogleとTeomaの比較を抜粋すると、Google ではWEB全体のリンク構造を解析して全部にページランクをつける。 その後ユーザーが検索をかけたときに、検索語に合致するサイト群を抽出、ページランク順に表示する、というアプローチをとっている。それに対し、TEOMA のアプローチは逆であり、TEOMAでは「まず検索語にマッチするサイト群を抽出」する。その後に Google と同じように「その検索語に合致したサイト群だけで」リンク構造を解析し、その中で表示順を決める。この方法だとより関連のあるページ群の中でのリンク構造を反映しているため、より検索精度が高くなる。という事らしい。検索結果の表示方法も秀逸、一度試してみて欲しい。なお、今のところ日本語を入力しても検索結果が出てこないようだ。"
今後が楽しみだ。早いうちに多言語対応もきっちりやってほしいな。
Re:結果だけはほとんどGoogle (スコア:2, 参考になる)
NTT未来ねっと研究所のODiNも一応Googleの真似をしたアルゴリズムを使っています。といってもこのプロジェクト自体はNTTが始めたものではありませんが。
私もいくつか試してみました (スコア:2, 興味深い)
実際の検索結果は、まだまだ大した物でもないですね。確かに。
多言語化が進んでいない(ひょっとして出来ない?)というのも大いに問題ありますが、
クロール要求を出す方法を見つけられなかったので、ここら辺もまだまだ「ベータテスト」ですね。
Googleの対抗としてはどうでしょう。
やはり既にプールしている膨大なデータという強力な資産がありますし、
あすこほどの技術集団であれば、同様の仕組みを作り込むのにも
対して時間はかからないような気がするので、程なくキャッチアップしてくるかも。
いずれにしても、本サービス開始が楽しみですね。
-+- 想像力を超え「創造力」をも凌駕する、それが『妄想力』!! -+-
Re:私もいくつか試してみました (スコア:2, 興味深い)
彼ら(どっちも)が特許とかで「アイデアという限られた資源」を
枯渇させたりしませんように…
ほんとにベターなアルゴリズムなの? (スコア:2, すばらしい洞察)
特定の単語にマッチしたサイト群の中でのPageRankとゆーことは、「特定の単語」を含まないけど関連するサイト群との関係は無視することになるわけだから、一概に良いアルゴリズムだとは言えない気がするんだけど。
PageRankと全く同じ計算をやっているとも思えないので、なんか別の方法でハイパーリンク構造の分析をしてると思うんだけど、それが分からないとなんともなあ。
PageRankの場合は、「リンクの一つをランダムに選択しつつネットサーフィンするという仮想的なWebユーザーを考えた時に、あるページを閲覧するユーザーがどれだけいると予測されるか?」を求めているという、非常に真っ当な数字なんだけど、このTeomaはどうなんだろ?
結果だけはほとんどGoogle (スコア:1)
ヒット数の違いはあるけど、メジャーなサイト、人気のあるサイトはヒットしやすいのはGoogleとおんなじですね。
多言語対応してくれるといい感じでしょうね。 長い目で見ないとこれについてはあんまり言うことって無いかも。期待の新星ってやつで。
NTT-Xもみならって欲しいね、こういうの:p
Re:私もいくつか試してみました (スコア:1)
確か、Googleもテスト期間があったと思うんですが、そのころはやっぱり、データベースが貧弱で満足な検索結果が出ないこともありました。試してみると、今のTEOMAもそんな感じですね。
まぁ、アルゴリズムはおもしろいと思うので、今後、運用していく中でデータベースが大きく、強力になっていくことを期待しています。
検索の精度は? (スコア:1)
日本語対応する際、検索の精度って、採用するシソーラスに依存するのかな? 新しい単語へはどうやって対応するのだろう?
Re:ほんとにベターなアルゴリズムなの? (スコア:1)
特定の単語にマッチしたサイト群の中でのPageRankとゆーことは、「特定の単語」を
含まないけど関連するサイト群との関係は無視することになるわけだから、
一概に良いアルゴリズムだとは言えない気がするんだけど。
google使っててたまに検索に使った単語が見当たらないページを
# でも、エロサイトの単語羅列攻撃に弱くなってたりするかも :-P拾っちゃうことがあったけど、そういうことだったのか。
Teomaのアルゴリズムが特定の単語を「含む」ことを前提とした
データベースの構築を行なうならばそういうこともなくなるかも...
teoma agent (スコア:1)
キャッシュがないから (スコア:0)