NCSAがYahoo!とGoogleのインデックス数を比較 98
ストーリー by Oliver
デカさじゃない 部門より
デカさじゃない 部門より
Anonymous Coward曰く、"本家記事NCSA Compares Google and Yahoo Index Numbersより。先日、Yahooの検索インデックス数が200億ページを超え、Googleの80億ページを大幅に凌いだとの発表があったが、Yahooの発表に異を唱える調査結果をNCSAが発表した。発表資料の結論部分は以下の通り
- 平均ではYahoo!と比較してGoogleは166.9%は多い検索結果を返す
- 10,012個のテストケースのうちYahoo!の検索結果が多かったケースは3%(307個)
- 96.9%のケース(9,676個)ではGoogleがより多い検索結果を返した
- 1%以下のケース(29個)では両者とも同数の検索結果を返した
- Yahoo!がGoogleの二倍以上のインデックスを持つという主張は疑わしい"
色々,試してみよう :) (スコア:5, 興味深い)
Re:色々,試してみよう :) (スコア:2, おもしろおかしい)
やってみました。
検索語: a
Google 2,930,000,000
Yahoo! 11,800,000,000
検索語: is
Google 2,300,000,000
Yahoo! 6,780,000,000
検索語: this
Google 2,200,000,000
Yahoo! 7,320,000,000
Yahoo!のほうが3~4倍は多いですね。
Re:色々,試してみよう :) (スコア:2, おもしろおかしい)
AVG anti-virus data base out of date
Re:色々,試してみよう :) (スコア:1)
最初どこぞの本での造語かなと思ったんすが、実際に使われているんか。
うーん。
#ということでamazonで「ヤフる」をワードにしても、出てくるのはBL本ばかりなのはなんでやと思うID
Re:インフォシクる (スコア:1)
Re:色々,試してみよう :) (スコア:1)
> ♯ 自分のサイトだけがひっかかる検索語があるというのは
> ♯ ちょっとうらやましいかも。
そういう話は公開(public)されたWeb以外のコミュニティでやらないと,次からこのページも引っかかるじゃないですか.アレゲなサイトもしっかりとクロールされるご時世なんですから.
# 某国を除く
見つけたものが何であるかで,未来の姿が変わる.
文書インデックスか、単語インデックスか (スコア:3, すばらしい洞察)
「個々の文章に出る単語の頻度」と「文章集合中の単語頻度の逆数(語の珍しさ)」の積で
計算するのを基本としているので、出現頻度の少ない語(long tail)を使えば
閾値の差が問題になりにくい(tf=1でも閾値を越えるように設計していると予想できる)
てーのはあると思います。
その反面、検索エンジン(文書の登録部分)は
余りに出現頻度の低い語に対しては単語のインデックスを作らないように
している可能性があります(そうしないとインデックス数が爆発するから)。
NCSAは検索結果の数が 1000 以下になるまでランダムに単語を追加して
検索を繰り返したそうなので、登録時の閾値が原因で Yahoo の検索結果が
少なくなった可能性があります。
スラッシュドットで検索した結果 [srad.jp]
にもあるように、頻度の高い語で検索すれば Yahoo の結果の方が多いので、
文章登録数は Yahoo>google
単語登録数は google>Yahoo
なんじゃないかなーと。
Re:文書インデックスか、単語インデックスか (スコア:2, 参考になる)
頻度が少ない、と言う意味でlong tailを使うのには非常に違和感が。
long tailだろうがshort tailだろうが尾の部分は頻度が少ないわけで。
と言うのはまあおいといて。
>NCSAは検索結果の数が 1000 以下になるまでランダムに単語を追加して
>検索を繰り返したそうなので
すいませんが、これはどこの記述でしょうか。
資料を読んだ限りではランダムに2つの単語を使って、結果が1000以下の
ものだけ使用したように読めたもので。
#もしかしてPERLのスクリプトにはそう書かれているんでしょうか?
#いや、FORTRAN以外は読み慣れてないんで飛ばしちゃったんですよね。
Re:文書インデックスか、単語インデックスか (スコア:2, 参考になる)
> ランダムに2つの単語を使って、結果が1000以下の
> ものだけ使用したように読めたもので。
こっちが正しいです。
最近のgoogleは増殖webなどの意味のないページでも上 (スコア:2, 興味深い)
まとめ (スコア:2, おもしろおかしい)
・Yahoo!のほうがインデックスが多い
・Googleの検索結果の方が多い
↓
・Yahooは(検索に使わないような)無駄なインデックスが多い
ということに見えてあまり問題がないように思えるのですが?
google八分をまずやめろと (スコア:2, 参考になる)
Re:google八分をまずやめろと (スコア:1)
意味がわからん。スポンサーにマイナスな情報が削られるならまだわかるが。
検索時に表示されるのは推計値です (スコア:2, 参考になる)
と表示されます。この低い桁に0が並ぶのは、数字の有効桁数が低いときによく見られる表示で、Yahooの方も採用しています。この数字だけではインデックスの規模は判断できません。しかし実際にはそれほどはURLを抱えていないこともあり、NCSAのレポートを見ると検索結果として提示されたすべてのURLを数えています。
ただし、両者で違うインデックスを用いていますから、どちらが便利かはインデックスの規模だけでは判断できないという皆さんの意見には同感です。
データベースからの削除 (スコア:2, 興味深い)
Googleは削除の申請が出来るのは親切だと思います。
逆にYahoo!は「うちは知りません」だからなぁ。
Yahoo!はなりふり構わずに数だけ稼いでる感じがする・・・のは私だけですかねぇ。
Blogの影響 (スコア:1, すばらしい洞察)
Blogの影響ってどんなものなんですかね。Blogの登場で、数年前と比べて状況が変わったんじゃないでしょうか。
検索エンジンによっては、初期値でBlogを検索対象からはずしたりってとこもあるみたいですが、Googleはそういうのも含めて結果を出すところが利点でもありますよね。
逆にBlog専門の検索エンジンもありますが、それはそれでどのくらいがインデックス化されているのかも面白いですね。
Re:Blogの影響 (スコア:1, 興味深い)
たとえば僕のBlogなど、毎日数十回(msnはその半分程度)見に来てますから。
Googleは数日おきに数回程度(大抵はトップページ)だけど。
# GoogleがAnonymousFTPを覗きに来たらしい時はたまげましたよ
Re:Blogの影響 (スコア:0)
「いやそんな検索でウチのサイトが上位にきちゃあかんだろ」
って場合がちらほらありますね>Yahoo!
独自エンジンに変わってから逆に精度が悪くなった気がしてならないな。
Re:Blogの影響 (スコア:3, 興味深い)
トラックバックがひとつもないブログが、タイトルを工夫するだけでYahooでは上位に来るようです。
内容が伴っていないから上位にこられても困るんだけどなぁ。
Re:Blogの影響 (スコア:2, 参考になる)
(被リンク数-トラックバック数)=ポピュラリティー(の要素)
になったもんだと思ってました。
有名ブログがちょっと触れてるだけ、とか (スコア:1)
> Yahooでは被リンク数を見ていない気がします。
> トラックバックがひとつもないブログが、
> タイトルを工夫するだけでYahooでは上位に来るようです。
>
> 内容が伴っていないから上位にこられても困るんだけどなぁ。
有名なブログがちょこっとだけ触れた箇所と、無名のブログがそれだけを中心に書いた記事だったら、むしろ有名なブログが上位に来るほうが邪魔なんじゃないの。
まあでもアフィリエイト目的のあざとい書き方を見ると腹が立ちます。
Re:Blogの影響 (スコア:1)
なんか最近やたらヒット数多いなと思って調べてみたら...。
tDiary使ってると検索語の表示機能があるんですが、1回紹介しただけの記事に含まれてたキーワードがどうも検索語表示機能にさらにヒットするという雪だるま方式で、今やそのキーワードで検索するとYahoo!の検索トップに来るようになってしまいました(-_-;
だから家のサイトはその系のサイトじゃないんだって(笑)
Re:Blogの影響 (スコア:2, 参考になる)
| 記事に含まれてたキーワードがどうも検索語表示機能にさらにヒットする
| という雪だるま方式で、今やそのキーワードで検索するとYahoo!の検索トッ
| プに来るようになってしまいました(-_-;
tdiary.conf に以下のような記述をすれば良いです。
@options['bot'] = [
'^(Naverbot|Cowbot)-',
'^BlogLines/',
'^blogmap',
'^FAST-WebCrawler/',
'^Hatena Antenna/',
'MI[CK]AN/',
'^msnbot/',
'^NG/',
# '^Openbot/',
'Openbot/',
'^samidare',
'^TAMATEBAKO/',
'^TomSoftAntenna',
'Slurp',
'NPBot',
'psbot',
'research-robot',
'Ask Jeeves/Teoma',
'Comaneci_bot',
'Yahoo-MMCrawler',
'Comodo HTTP',
'ConveraCrawler',
'Moewe',
'ZyBorg',
'oBot',
'aipbot',
'SurveyBot',
'Girafabot',
'StackRambler',
'sohu-search',
'Scooter',
'1Noonbot',
'ichiro',
'Mediapartners-Google'
]
Re:Blogの影響 (スコア:1)
#個人的に(参考になる+1)
Re:Blogの影響 (スコア:1, 興味深い)
-"トラックバック" とかすれば除外はできるだろうが面倒。
#邪魔な署名廃止活動中! 目下の敵は YOUsuke,Fatalwedge
Re:Blogの影響 (スコア:1)
設定で署名消せるっしょ。
# だから、君みたいにACで署名っぽいのをつけるほうが邪魔。
Re:Blogの影響 (スコア:1)
メアドとパスワードを出鱈目に変更すれば捨てたことになるでしょ。
私はそうやってIDを2つ捨ててるけど。
「捨てても、心の中から削除しきれない」とかなのか?
Re:Blogの影響 (スコア:1)
前のメアドやパスワードが記録に残っている可能性はないの?
いや、そんな! あの毛は何だ! 枕に! 枕に!
Re:Blogの影響 (スコア:1)
検索結果数なんか (スコア:1, すばらしい洞察)
そうですかとしか言えんしなあ。
便利なら細かい数字なんかどうでも良いよ。
Re:検索結果数なんか (スコア:2, 参考になる)
有る閾値を両エンジンが持っていて閾値以上の結果を表示する仕組みになっているとすると
その閾値以上の検索結果は総インデックス数に比例するんじゃないかしら。
とすればNCSAの主張はあながち間違っていないかも
Re:検索結果数なんか (スコア:1)
- YahooにあってGoogleにはない
- 両方にある
というページを見てみて、欲しかった情報がどっちにあるか
または、ないか、見てみないとわからんのではないかなぁ。
Re:検索結果数なんか (スコア:1)
> 仕組みになっているとするとその閾値以上の検索結果は総イン
> デックス数に比例する
閾値が等しければそうでしょうけど、閾値の設定が異なれば、
結果の数=総インデックス数は成り立たないですよね。
# その閾値の設定も調整できればさらに便利かも。
# 厳密にキーワードについて触れているページだけ表示したり、
# 甘くキーワードが含まれていれば表示したり。
Your 金銭的 potential. Our passion - Micro$oft
Tsukitomo(月友)
Re:検索結果数なんか (スコア:1)
アクセスログを見たら (スコア:1, 興味深い)
Yahoo 42.95%
Google 27.85%
MSN 23.70%
となってます。
確かに、Yahooの方が多いみたいですけど、これが、検索結果に直接影響しているのかは不明。
ほんとだ。数では。 (スコア:1)
Google(Japan)よりYahoo(Japan)の方が多くて驚いています。
スラッシュドットなんか、とくに(俺が調べた時点では)
Google 検索 約 202,000 件 [google.co.jp]
Yahoo! 検索 約2110000件 [yahoo.co.jp]
と10倍以上の差があります。
今は特に探しものがないので、どっちが質が高いかは検証していませんが。
# ところで、 xorg.conf でググったところ10件。
# "xorg.conf" にしてみると件数増えたけどドットって特殊な意味逢ったっけ?
1を聞いて0を知れ!
Re:ほんとだ。数では。 (スコア:1)
検索ワードのせいでしょう。
元の論文には、あまりメジャーじゃない語を使用したとあります。
> # ところで、 xorg.conf でググったところ10件。
> # "xorg.conf" にしてみると件数増えたけどドットって特殊な意味逢ったっけ?
Yahoo!Japanの場合、確かに検索結果が変わりますが、そんな結果は、こちらでは得られません。
スペルミスかなんかじゃないでしょうか?
|Google Japan(xorg.conf) [google.co.jp]| = 135,000件
|Google Japan("xorg.conf") [google.co.jp]| = 135,000件
|Yahoo! Japan(xorg.conf) [yahoo.co.jp]| = 349,000件
|Yahoo! Japan("xorg.conf") [yahoo.co.jp]| = 219,000件
Re:ほんとだ。数では。 (スコア:1)
どうやら何かの間違いだったようです。
御迷惑をお掛けしました。
1を聞いて0を知れ!
参考になるかな・・・? (スコア:1)
某有名人の名前で、今年の1月から今日まで毎日検索したものをグラフにした物です。
ちなみに、Yahoo!の結果が急激に伸びた6/20は、Yahoo!が「Yahoo!SEARCH(ベータ版)」を公開した日 [yahoo.co.jp]
その後の暴落、暴騰の原因は不明です(^^;;
Yahoo!の暴騰、暴落差BEST3
1位 6/20 +144,470
2位 8/5 +75,400
3位 7/12 -26,000
Googleの暴騰、暴落差BEST3
1位 6/2 +5,500
2位 5/4 +5,300
3位 3/4 +4,500
Yahoo!とGoogleの数値の差BEST3
8/18 Y 192,000 G 28,300 163,700
8/17 Y 192,000 G 29,300 162,700
7/8 Y 193,000 G 32,900 160,100
#毎日計測していますが、どこにも公表してなかったりします(笑)
検索結果の数が多い方がいいのなら (スコア:0)
すべてのページを返す検索エンジンを作れば最強じゃね?
Re:だよねぇ? (スコア:0)
それ以外にも重要度の高そうなデータを上位に持ってくるアルゴリズムの
違いのせいかもしれないわけでさ。
#そもそも下の方のページまで丹念にチェックするのって、
#エロキーワードをチェックしている連中だけでねぇの?
Re:検索結果の数が多い方がいいのなら (スコア:0)
Re:検索結果の数が多い方がいいのなら (スコア:0)
もっとも NCSA だって結果が多ければ優秀だなんて言ってないんだけどさ。
google の主張するインデックス数を検索結果から検証してみた(と主張している)だけ。
インデックス数は多いに越し
画像検索に関しては、 (スコア:0)
#理由は推して知るべし
Re:Yahoo! の主張が嘘だと言う根拠は? (スコア:1)
あまり知られていない語(long tailな語)を使った、とあります。
一般的な「web word」とは例えば、Yahoo!のウェブディレクトリに現れるような語です。
Re:Yahoo! の主張が嘘だと言う根拠は? (スコア:1)
思うのですが・・・
#しかしRyo.F氏の"long tailな語"って,どう読んだらそういう
#間違いが出来るのかちょっと謎.
#何せ元資料では“long tail” of the search indexとなって
#いるわけで.
Re:Yahoo! の主張が嘘だと言う根拠は? (スコア:1)
私がどう理解していると考えてますか?
正しくはどうあるべきだと考えていますか?
確かに、「long tailな語」というのは、表現として厳密ではありませんが。
Re:Yahoo! の主張が嘘だと言う根拠は? (スコア:1)
#もっと詳しい解説が必要ということでしょうか?
Re:Yahoo! の主張が嘘だと言う根拠は? (スコア:1)
では,まあ簡単に.
Long tail:
通常,自然界での分布は正規分布など,平均から外れた値は非常に
迅速に減少し大勢に影響を与えません.
しかし一部の現象,例えば分布がpower-lawに従うようなものでは,
平均から大きく外れたものも,広い範囲で足し合わせると全体に対し
無視できない寄与を与えます.このような裾を曳いた分布の裾の
部分をその形状からlong tailと呼びます.
ここから転じ,個々ではニッチなどと呼ばれ非常に小さな市場しかない
ものでも多数集めると大規模な市場を形成するようなものたちにも
このlong tailという語は使われています.ネットの発達により
小規模顧客へのダイレクトな販売手段などが容易に低コストで構築
できるようになったため,現在ではこのようなlong tailを形成する
市場も注目されています.
今回の例で行くと,ヒット数の少ない「語の組み合わせ」というもの
が指し示すページを,long tailの部分を構成する要素,と称して
います.ただ,このようなページが本当にlong tailなのか(short tail
ではないのか)は私は知りません.そういう研究はありそうですが.
とまあ概要はこんな感じですが,これって結局ずっと前にリンクで
示されていたページに比べると簡易な説明なんですよね.
なぜリンク先を読まんのかと.
Re:Yahoo! の主張が嘘だと言う根拠は? (スコア:1)
> ただ,このようなページが本当にlong tailなのか(short tail
> ではないのか)は私は知りません.そういう研究はありそうですが.
ジップの法則 [chokai.ne.jp]というのが知られています。
(参考:ベキ法則との関係 [can.or.jp])。
言い訳:
出現順位が低い、long tailを形成するような語(の組合せ)は、
「あまり知られていない語」であるのが普通なので、
意訳し過ぎてしまいました。