パスワードを忘れた? アカウント作成
7950 story

ノイズの少ない検索エンジン 72

ストーリー by GetSet
特化によるフィルタリングの効率化 部門より

Minap 曰く、 "HotWiredによると、科学分野専門の検索エンジン「サイラス」の人気が密かに上昇中らしい。
アレゲな人々がコンピュータ関係の情報を探す際、企業広告やアダルトサイトの対検索エンジン用文字列を探し当ててしまうように、科学者による参考文献の検索には困難が伴う。科学データベースや出版物、関連企業や大学のサイトというようにあらかじめ絞り込みをかけることで、専門情報のみを検索する事ができるサイラスはもはや科学者の必需品らしい。
検索結果に更なる絞り込み語句の選択肢というおまけまで付けてくれるこの検索エンジン、運営元のエルセビア社は、検索結果に含まれる同社の出版物に目立つロゴマークをつけたり、その要約文を表示して全文を読む為には別途料金が発生する旨を表示するという方法で運営費を捻出しているようだ。
コンピュータ関連でも一つ欲しいところだが、作ってくれるとしたらやはりオライリーか、SoftBankimpressあたりだろうか?"

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • ノイズも楽しい (スコア:5, おもしろおかしい)

    by rdrop (21631) on 2004年04月13日 17時28分 (#531090)
     同じ単語ではあるけれど全く内容の違う意味のキーワードに引っかかってしまって思わずニヤリとしてしまうのが密やかな楽しみだったりするのですけれどね、私は。

     以前、英語圏の友人(日本語はちょっとだけわかる)が興奮した様子でメールを送ってきたことがありましたっけ。

    彼「日本でのPHPの普及率ってすごいんだね」
    私「は?」
    彼「PHP文庫ってあるんじゃん!ものすごい種類あるんだ?」
    私「あー…」

    # 実話です。
    --

    -supercalifragilisticexpialidocious-

  • 人によってノイズは様々 (スコア:3, おもしろおかしい)

    by nidak (2008) on 2004年04月13日 19時21分 (#531145) ホームページ 日記
    自分もネット上でエロ画像を探しているのにもかかわらず、掲示板の
    スレッドや個人日記、書籍情報、果ては政治運動系サイト等にたどり
    着いてしまい困っています。

    エロ以外のノイズが出ない検索エンジンはないものでしょうか。。。
    --

    There is no spoon.
  • CiteSeerer (スコア:2, 参考になる)

    by gigo (21150) on 2004年04月13日 17時18分 (#531086)
    CiteSeerer [psu.edu]はgoogleを使っているそうで結構良いですが、物理系ではアメリカ物理学会 [aps.org]がロボットの進入を許さないので、有名どころの論文が取れません。

    最近AIP自体が配下の学術雑誌の統合検索 [aip.org]を提供するようになり、人間の検索もできます。これのメタサーチャーを作ればもっといろいろできるかもですね。もっと便利なのがあれば教えて下さい。

    • Re:CiteSeerer (スコア:2, 興味深い)

      by Anonymous Coward on 2004年04月13日 18時04分 (#531105)
      当たり前といえばあたりまえなのですが,エルゼビアじゃないところの
      論文誌はやっぱり検索の対象外なのですね.
      #AGU [agu.org]の論文もだめらしい.
      親コメント
    • Re:CiteSeerer (スコア:1, 参考になる)

      by Anonymous Coward on 2004年04月13日 17時38分 (#531094)
      私も使っていますが、物理が弱かったんですね。 CiteSeererとscitation.aip.orgを使い分けるだけで十分便利そうですね。 Scirusは医学系が強そうで、数学系は弱そうですね。
      親コメント
    • Re:CiteSeerer (スコア:1, すばらしい洞察)

      by Anonymous Coward on 2004年04月13日 22時15分 (#531221)
      CiteSeerer(サイトシーラ?)じゃなくてCiteSeer(サイトシーア)ですよ。サブジェクトにも本文にも繰り返し同じように書いてるからタイポじゃないと思うので一応。
      親コメント
  • by wintermute (732) on 2004年04月13日 17時38分 (#531093) ホームページ 日記
    単純な漢字文字列("火星"とか)で検索すると、文書のどこにも"火星"が無い、しかし"Mars"関連の文書を引っ張ってくれます。
    もしかして英訳してるのかな?
  • by Anonymous Coward on 2004年04月13日 17時57分 (#531102)
    もろ、お世話になっている業界のものですが、2年くらい前から「仕事の」検索ではGoogle+Scirusがデフォルトです。

    ただ、会社が全文閲覧の契約をあまりしていないと、結局米国立バイオテクノロジー情報センター(NCBI [nih.gov])のPubMed [nih.gov]と変わりないでので、もっぱらJournalを対象から外して、実験手法やいろいろなラボのHPの検索に使っていますが・・・

    他の業界の人に、メリットのあるエンジンとは思えないんですが・・・・どんなものでしょうか?

    今は出向中なのでAC。

    • by gigo (21150) on 2004年04月14日 7時10分 (#531379)
      検索エンジンは、ロボットを使ってサイトを巡回してページを読み、だいたい現れる語の頻度から重要な単語(索引語)を選んでDBに保存します。Journalのサイトはどこにあるか分かっているので、ひたすら索引語を抽出するだけですが、AIPのサイトは、目次やabstractにも著作権があるから勝手に読むなと言ってやらせてくれません。エルセビアなんかは、ビジネスのためにはそっちの方が良いと思って、とにかく情報を出すので上位にランクされることになる。

      索引語とユーザーの入力した単語の一致でアタリを判断しますが、普通ユーザーは1つか2つの単語しか入力しないので、良い検索ができるわけがありません。動作からやっていることを推測すると、Scirusは単なる頻度でなく、物理学(医学)辞典にのっているような専門用語を索引語に選ぶようにしているのでは。そうすると、科学的には重要でも普通はstop wordになるもの(He、ヘリウムとか)もつかまります。

      CiteSeer(ごめんなさい)は、Googleを使う以上それで取れる索引語はあまりよくないので、いったん検索したあとでユーザーが索引語を改良できるようなインターフェースがあった思った。

      scitationは専門用語辞書に加えて、それまでの検索結果から索引語を抽出しようとするみたい。ユーザーがどのような情報を持っているかから、次に何を欲しがるか推測しようとするのだけれど、これを実際に検索する時に入力するわけにはいかないから、それまでの検索結果をサーバーが個人を認識してとっておくのでなければ、ハードディスクの中をこっそり巡回してその人の読書傾向を調べてサーバーに送るような解になってしまいます。それでは困るのでアイデア要だと思います。

      親コメント
      • なるほど

        生物系の場合AbstructはMEDLINE(Pubmed)としてオープンになってるし(すいません、生物学系に話持っていって)、本文も他出版社の分も含めてScienceDirectとして自前で持ってる訳で、自分のところの雑誌を優遇していたらやだな、と思ったんです。利益が絡む企業がやってるんで当然といえば当然だし、一部の雑誌だけでも全文検索できるのはありがたいのですけども。

        検索結果の表示の画面で興味を持った論文とかウェブサイトにチェックを入れて保存していくと(実際Scirusの検索結果にはそれがあるのだけど)、保存されたレコードを元に新しい検索結果に重み付けをしてくれるような仕組みはあったらいいかなと。実際、索引語がどれくらいオーバーラップしてるかで類似レコードを引っ張ってくる仕組みはSirusに搭載されてるみたいだし(similar resultsなんてのがある)、技術的には難しくないんじゃないかと思ったりします。その辺については素人ですが。

        一見さんには適用できないので意味はないかもしれないけど、研究者が使うことが多いと思うので、興味にあわせたランク付けってのはあるとうれしいですね。

        #結局、時間かけて検索語をうまく工夫して絞り込めばいいだけなんですけど、
        #もうちょっと楽できないかな、とも思う訳で。
        親コメント
    • by momochi (17543) on 2004年04月14日 4時27分 (#531353)
      おお、検索対象からJournalを外せるんですね。
      雑誌だったらPubmedで十分だけど、研究機関とかのウェブサイトをサーチするには便利そうだ。

      と、調べながら書いてて気がついたんだけど、Scirusって論文の全文を検索できるみたいですね。
      ScienceDirectに入っている雑誌だけですけど、Figure LegendsとかMatrials and Methods
      の中の文章が引っかかってきました。Pubmedにはできない芸当です。

      #全体的にElsevierが出す雑誌の論文が結果の上位にくるようになってる気がする。
      #Elsevier以外の一部の雑誌の全文もいちおうでてくるんですが。
      #日付順でもないし、どういう基準で並んでるんだろ?
      親コメント
  • Blogが (スコア:2, すばらしい洞察)

    by Anonymous Coward on 2004年04月13日 18時04分 (#531106)
    検索エンジンで目的のページを探すとき、Blogが邪魔だと思うの
    私だけですか?

    技術情報を探しているのに、日記がぼろぼろと引っかかると、必要な
    情報がほとんど書かれていなくて。
    • Re:Blogが (スコア:1, 興味深い)

      by Anonymous Coward on 2004年04月13日 18時08分 (#531110)
      逆が欲しいこともあります。
      非常に新しい話題について検索したいとき、毎日~毎週程度で更新されているWeb日記系が重要な情報源になることもあるので、そちらだけ頻繁にクロールしてくれるとうれしいこともあるかと。
      とはいっても、最近のバカでもかけるblogは引っかかって欲しくないか(w
      親コメント
    • by Anonymous Coward on 2004年04月13日 21時21分 (#531196)
      なんかも同様に邪魔になることが多い気がします。
      親コメント
    • by Anonymous Coward
      -blogのオプション使えばいいのに。

      といえる日が来るのだろうか。
    • by Anonymous Coward
      ScirusでBlog引っかかる? そうは見えないけど‥‥
  • by Colin (9916) on 2004年04月14日 3時55分 (#531347)
    まだベータ版みたいですけど、Google Personalized Search [google.com]とか。

    最初にEdit Profileで興味のあるカテゴリ(Computersとか)を設定して検索、検索結果の左上のスライドバーをMax方向に動かしてやると……かなり面白いです。
  • by tekete (19724) on 2004年04月13日 17時02分 (#531079) 日記
    とりあえずアレゲで検索 [scirus.com]しましたが、
    /.J はヒットしませんでした。
  • by Anonymous Coward on 2004年04月13日 16時30分 (#531067)
    ノイズは少ないな、sex でサーチした結果。 [slashdot.jp]
  • by Anonymous Coward on 2004年04月13日 16時31分 (#531068)
    >その要約文を表示して前文を読む為には
    全文のtypoっすね
  • by Anonymous Coward on 2004年04月13日 17時26分 (#531088)
    SPIRES [kyoto-u.ac.jp] の進化形と思ってよいのでしょうか。
    どういう物が検索に引っかかるのかいまいち把握できてないのですが。
typodupeerror

日々是ハック也 -- あるハードコアバイナリアン

読み込み中...