ノイズの少ない検索エンジン 72
ストーリー by GetSet
特化によるフィルタリングの効率化 部門より
特化によるフィルタリングの効率化 部門より
Minap 曰く、 "HotWiredによると、科学分野専門の検索エンジン「サイラス」の人気が密かに上昇中らしい。
アレゲな人々がコンピュータ関係の情報を探す際、企業広告やアダルトサイトの対検索エンジン用文字列を探し当ててしまうように、科学者による参考文献の検索には困難が伴う。科学データベースや出版物、関連企業や大学のサイトというようにあらかじめ絞り込みをかけることで、専門情報のみを検索する事ができるサイラスはもはや科学者の必需品らしい。
検索結果に更なる絞り込み語句の選択肢というおまけまで付けてくれるこの検索エンジン、運営元のエルセビア社は、検索結果に含まれる同社の出版物に目立つロゴマークをつけたり、その要約文を表示して全文を読む為には別途料金が発生する旨を表示するという方法で運営費を捻出しているようだ。
コンピュータ関連でも一つ欲しいところだが、作ってくれるとしたらやはりオライリーか、SoftBank、impressあたりだろうか?"
ノイズも楽しい (スコア:5, おもしろおかしい)
以前、英語圏の友人(日本語はちょっとだけわかる)が興奮した様子でメールを送ってきたことがありましたっけ。
彼「日本でのPHPの普及率ってすごいんだね」
私「は?」
彼「PHP文庫ってあるんじゃん!ものすごい種類あるんだ?」
私「あー…」
# 実話です。
-supercalifragilisticexpialidocious-
Re:ノイズも楽しい (スコア:3, おもしろおかしい)
Re:ノイズも楽しい (スコア:1)
1を聞いて0を知れ!
Re:ノイズも楽しい (スコア:2, 興味深い)
「なんじゃこりゃ?」というような内容をさらにキーワードとして検索して行ったり。
紙媒体の辞書辞典類を使うときも、その「知りたい単語以外を知ることができる」、という機能を重視しています。
それ故、電子辞書よりは紙の辞書の方を使うことが多いような気がします。
暇人なのか、はたまた
これがオールドタイプということか……。
/* Seeds */
Re:ノイズも楽しい (スコア:1)
人は同じ過ちを繰り返す。
……んですね?(泪)
/* Seeds */
Re:ノイズも楽しい (スコア:1)
仕事でぐぐってるときに、楽しいものを見つけてしまうと
ついLINKをめもったり、脱線してしばらく休憩~♪なんて
こともしばしば。。。
#むしろ脱線の方に時間かけてるかも
Re:ノイズも楽しい(オフトピ:-1) (スコア:1)
あー、あれですね、
「息抜きの合間に人生をやっている」
に近くないですか?
#かくいう私も同じなんですが
---
「萌え」「美少女」「メイド」に現実逃避してはいけませんか、そうですか。
人事を半分尽くして天命を待つ
Re:ノイズも楽しい(オフトピ:-1) (スコア:1)
いい言葉だ。。。
今度から上司にはそう言うようにしよっと。
#ただいま十二分に休息中~♪
これってノイズ? (スコア:1)
あすなろの社 [google.co.jp]
スレの社 [google.co.jp]
# 昔は「ゴーグル」でgoogleがヒットしてたような。
1を聞いて0を知れ!
Re:これってノイズ? (スコア:1)
それは、ノイズではありません。
探したいと思ってるものが見つかってるので シグナルなのです。
自分or友達の名前をぐぐったことある人 (スコア:1)
#名前を和英和変換したこともありますが何か?
1を聞いて0を知れ!
Re:ノイズも楽しい (スコア:0)
人によってノイズは様々 (スコア:3, おもしろおかしい)
スレッドや個人日記、書籍情報、果ては政治運動系サイト等にたどり
着いてしまい困っています。
エロ以外のノイズが出ない検索エンジンはないものでしょうか。。。
There is no spoon.
Re:人によってノイズは様々 (スコア:2, 参考になる)
有料サイトをはじくために"-無料"ってオプションつけてるよ。
本当に無料なら「無料」なんて書いてないからさ。
検索エンジンからノイズを取り除くためのテクニックは他にも色々
ありそうだなあ。(と言ってみるテスト)
--
そして市が栄えた。
Re:人によってノイズは様々 (スコア:1)
Re:人によってノイズは様々 (スコア:-1, オフトピック (スコア:1)
Re:人によってノイズは様々 (スコア:1)
大したコト書いてないんだけどなぁ……。
#具体的なキャラ名を出したりすると特に。
#で、下ネタはそのキャラとは全く関係無かったり。
--
「なんとかインチキできんのか?」
Re:人によってノイズは様々 (スコア:0)
Re:人によってノイズは様々 (スコア:1)
喘いだりしゃぶったりエロエロっす。画像はフィルタリング出来ませんからねー。
凛々しく、あほらしく。
CiteSeerer (スコア:2, 参考になる)
最近AIP自体が配下の学術雑誌の統合検索 [aip.org]を提供するようになり、人間の検索もできます。これのメタサーチャーを作ればもっといろいろできるかもですね。もっと便利なのがあれば教えて下さい。
Re:CiteSeerer (スコア:2, 興味深い)
論文誌はやっぱり検索の対象外なのですね.
#AGU [agu.org]の論文もだめらしい.
Re:CiteSeerer (スコア:1, 参考になる)
Re:CiteSeerer (スコア:1, すばらしい洞察)
英訳してくれるのかな (スコア:2, 興味深い)
もしかして英訳してるのかな?
Re:英訳してくれるのかな (スコア:1)
以前から、使っていますが (スコア:2, 興味深い)
ただ、会社が全文閲覧の契約をあまりしていないと、結局米国立バイオテクノロジー情報センター(NCBI [nih.gov])のPubMed [nih.gov]と変わりないでので、もっぱらJournalを対象から外して、実験手法やいろいろなラボのHPの検索に使っていますが・・・
他の業界の人に、メリットのあるエンジンとは思えないんですが・・・・どんなものでしょうか?
今は出向中なのでAC。
Re:以前から、使っていますが (スコア:3, 参考になる)
索引語とユーザーの入力した単語の一致でアタリを判断しますが、普通ユーザーは1つか2つの単語しか入力しないので、良い検索ができるわけがありません。動作からやっていることを推測すると、Scirusは単なる頻度でなく、物理学(医学)辞典にのっているような専門用語を索引語に選ぶようにしているのでは。そうすると、科学的には重要でも普通はstop wordになるもの(He、ヘリウムとか)もつかまります。
CiteSeer(ごめんなさい)は、Googleを使う以上それで取れる索引語はあまりよくないので、いったん検索したあとでユーザーが索引語を改良できるようなインターフェースがあった思った。
scitationは専門用語辞書に加えて、それまでの検索結果から索引語を抽出しようとするみたい。ユーザーがどのような情報を持っているかから、次に何を欲しがるか推測しようとするのだけれど、これを実際に検索する時に入力するわけにはいかないから、それまでの検索結果をサーバーが個人を認識してとっておくのでなければ、ハードディスクの中をこっそり巡回してその人の読書傾向を調べてサーバーに送るような解になってしまいます。それでは困るのでアイデア要だと思います。
Re:以前から、使っていますが (スコア:1)
生物系の場合AbstructはMEDLINE(Pubmed)としてオープンになってるし(すいません、生物学系に話持っていって)、本文も他出版社の分も含めてScienceDirectとして自前で持ってる訳で、自分のところの雑誌を優遇していたらやだな、と思ったんです。利益が絡む企業がやってるんで当然といえば当然だし、一部の雑誌だけでも全文検索できるのはありがたいのですけども。
検索結果の表示の画面で興味を持った論文とかウェブサイトにチェックを入れて保存していくと(実際Scirusの検索結果にはそれがあるのだけど)、保存されたレコードを元に新しい検索結果に重み付けをしてくれるような仕組みはあったらいいかなと。実際、索引語がどれくらいオーバーラップしてるかで類似レコードを引っ張ってくる仕組みはSirusに搭載されてるみたいだし(similar resultsなんてのがある)、技術的には難しくないんじゃないかと思ったりします。その辺については素人ですが。
一見さんには適用できないので意味はないかもしれないけど、研究者が使うことが多いと思うので、興味にあわせたランク付けってのはあるとうれしいですね。
#結局、時間かけて検索語をうまく工夫して絞り込めばいいだけなんですけど、
#もうちょっと楽できないかな、とも思う訳で。
Re:以前から、使っていますが (スコア:2, 興味深い)
雑誌だったらPubmedで十分だけど、研究機関とかのウェブサイトをサーチするには便利そうだ。
と、調べながら書いてて気がついたんだけど、Scirusって論文の全文を検索できるみたいですね。
ScienceDirectに入っている雑誌だけですけど、Figure LegendsとかMatrials and Methods
の中の文章が引っかかってきました。Pubmedにはできない芸当です。
#全体的にElsevierが出す雑誌の論文が結果の上位にくるようになってる気がする。
#Elsevier以外の一部の雑誌の全文もいちおうでてくるんですが。
#日付順でもないし、どういう基準で並んでるんだろ?
Blogが (スコア:2, すばらしい洞察)
私だけですか?
技術情報を探しているのに、日記がぼろぼろと引っかかると、必要な
情報がほとんど書かれていなくて。
Re:Blogが (スコア:1, 興味深い)
非常に新しい話題について検索したいとき、毎日~毎週程度で更新されているWeb日記系が重要な情報源になることもあるので、そちらだけ頻繁にクロールしてくれるとうれしいこともあるかと。
とはいっても、最近のバカでもかけるblogは引っかかって欲しくないか(w
大学のシラバス、amazon、2ch (スコア:1, すばらしい洞察)
Re:大学のシラバス、amazon、2ch (スコア:1)
よく知らない分野を調べてるときに本の目次がかかってきたら、著者名でamazon検索+ググりなおし、とかよくやってます。
--- - I WILL FEAR NO EVIL -
アニメの事を調べる時 (スコア:1)
あらすじやキャラ設定を知りたいのに、声優の出演リストがバラバラ出てくるとか
もちろんページ作成者に罪はありませんが。
Re:Blogが (スコア:0)
といえる日が来るのだろうか。
Re:Blogが (スコア:0)
Google Personalized Search (スコア:2, 参考になる)
最初にEdit Profileで興味のあるカテゴリ(Computersとか)を設定して検索、検索結果の左上のスライドバーをMax方向に動かしてやると……かなり面白いです。
ここはノイズ!? (スコア:1)
/.J はヒットしませんでした。
Re:ここはノイズ!? (スコア:0)
元コメントもそう言いたかったんじゃないかと。
だって、立派にノイズじゃん。
Re:ここはノイズ!? (スコア:1)
>ここはノイズ!?
「?」はいらねーじゃん。
確かに (スコア:0)
Re:確かに (スコア:0)
typo (スコア:0)
全文のtypoっすね
Re:typo (スコア:1)
ストーリーから飛んできたときに,上のほうにtypo指摘があるのは見づらい気がするんですよ.
Re:typo (スコア:1)
別のところだと、誰も見ないと思いますし。
Re:typo (スコア:2, すばらしい洞察)
> 別のところだと、誰も見ないと思いますし。
そうではなくて,各ストーリーごとにtypo報告用の窓口を設けて,報告があったtypoについてはそちらで公開するような仕組みにすればよいのではないかとふと思ったんですよ.
typo情報ばかりを進んで見るようなユーザはそんなにいないと思うので,
typo情報は他のコメントなどと同じように扱わなくてよいと思うんですが.
Re:typo (スコア:1)
タレコミに対してコメントでツッコミを入れるのもオープンソースジャーナリズムの一環です。
みんなで洗練させるのです。
# なんてね
というかFAQを見ると、間違いを見つけたら執筆者にメールしてください。すぐに直します。 [srad.jp]となってるんだけど....
メールしたことあるひと手を上げて(笑
Re:typo (スコア:0)
Re:typo (スコア:1, 興味深い)
エルゼビアの印象はかなり悪いんだよな (スコア:0)
どういう物が検索に引っかかるのかいまいち把握できてないのですが。