パスワードを忘れた? アカウント作成
3722 story

大規模汎用連想検索エンジンを公開 9

ストーリー by yourCat
連想ゲームはできない 部門より

von_yosukeyan曰く、"日立製作所のプレスリリースによると、日立製作所と国立情報学研究所(NII)は、大規模な全文検索に対応した汎用連想型計算エンジン(GETA)を開発したと発表した。GETAはNIIで公開されている。
GETAは、「連想型計算エンジン」の名の通り単純なインデックス型全文検索エンジンではなく、単語のベクトル表現により文書間の関連性や類似性をもとに検索が可能なベクトル型全文検索エンジン。インデックスの圧縮やクラスタリングに対応することで、単独PCでは20万件程度、クラスタリング時には1,000万件程度のデータベースから類似検索が可能になるという。
ソースコードで配布されているので、必要環境についてはこちらを参照していただきたいが、FreeBSDの他に各種Linuxディストリビューション、Solaris、Digital UNIXなどで動作が確認されている。"

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by ncube2 (2864) on 2002年08月25日 19時53分 (#152819)
    検索エンジンってのはいろんな方式が提案されていて、かつ商用・フリーと実際に動くモノも豊富にあるけど、それに比べてそもそも検索エンジンに食わすデータの収集方法に関してはあまり目立たないような気がするのはワシだけ?
    • by Dobon (7495) on 2002年08月25日 23時30分 (#152949) 日記
      この検索エンジンの用途は「内容の似た論文」の検索です。

      論文というのは基本的には雑誌に掲載されるモノです。(また、発表後百年以上参照され続けるユニークな性質を持っています。)
      そのため、論文集というものが発行されています。(電子化されていないモノも結構あったりしますが...)
      出版社から論文集のCDを送ってもらって、ぶちこむだけです。

      # テストは新聞記事で行ったみたいですが…

      蛇足:
      ・お金と手間を掛けずに論文を読みたい場合
      たいてい、大学とか研究機関では論文一覧 [google.com]を載せてますし、
      こういう風に [jaeri.go.jp]論文全てを掲載している所もあります。

      --
      notice : I ignore an anonymous contribution.
      親コメント
    • 検索というとwebしか思いつかない人?
    • ウェブからどうデータを集めるかは富士通なんかでも研究していたはず。
      #手法は忘れたので AC
  • by take0m (4948) on 2002年08月25日 20時51分 (#152842) 日記
    Justsystemのコンセプトベースって事ですかね
    さらに言うなら、徳島大学ですかね
  • Unicodeは使えないんでしょうかね?まだちゃんと見ていないんですが。今更JISコードじゃちょっと…
    • by oltio (3848) on 2002年08月26日 14時18分 (#153219) 日記
      GETAのコアな部分は疎行列計算を高速に行って類似成分を見付けるところにあるのだから、 その外側を差しかえればUnicodeだろうが何だろうが対応可能。 というわけでよろしく。 僕は別にJISでもいいのでありがたく使わせていただく予定。
      親コメント
  • by dorifer (514) on 2002年08月27日 0時24分 (#153532) 日記
    これを使って、slashdot.jpの日記世界で、同じような
    傾向、志向を持った人々を結びつけるシステムを実装
    して欲しいなりよ。
    --
    IN EARTH AND SKIE AND SEA STRANGE THYNGES THER BE.
typodupeerror

日本発のオープンソースソフトウェアは42件 -- ある官僚

読み込み中...