パスワードを忘れた? アカウント作成
10671 story

NCSAがYahoo!とGoogleのインデックス数を比較 98

ストーリー by Oliver
デカさじゃない 部門より

Anonymous Coward曰く、"本家記事NCSA Compares Google and Yahoo Index Numbersより。先日、Yahooの検索インデックス数が200億ページを超え、Googleの80億ページを大幅に凌いだとの発表があったが、Yahooの発表に異を唱える調査結果をNCSAが発表した。発表資料の結論部分は以下の通り

  • 平均ではYahoo!と比較してGoogleは166.9%は多い検索結果を返す
  • 10,012個のテストケースのうちYahoo!の検索結果が多かったケースは3%(307個)
  • 96.9%のケース(9,676個)ではGoogleがより多い検索結果を返した
  • 1%以下のケース(29個)では両者とも同数の検索結果を返した
  • Yahoo!がGoogleの二倍以上のインデックスを持つという主張は疑わしい"
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by KAMUI (3084) on 2005年08月17日 9時24分 (#782782) 日記
    Yahoo! [yahoo.com]
    • yahooing 14,600
    • googling 2,910,000
    Google [google.com]
    • yahooing 4,320
    • googling 810,000
    Yahoo! JAPAN [yahoo.co.jp]
    • ヤフる 3,410
    • ググる 481,000
    Google 日本 [google.co.jp]
    • ヤフる 1,790
    • ググる 61,300
    個人的には「ヤフる」という言葉が存在した事に驚いた(笑)
  • by jl4cvb (4926) on 2005年08月17日 16時15分 (#782940)
    検索エンジンは、文章の適合度を tf*idf つまり
    「個々の文章に出る単語の頻度」と「文章集合中の単語頻度の逆数(語の珍しさ)」の積で
    計算するのを基本としているので、出現頻度の少ない語(long tail)を使えば
    閾値の差が問題になりにくい(tf=1でも閾値を越えるように設計していると予想できる)
    てーのはあると思います。

    その反面、検索エンジン(文書の登録部分)は
    余りに出現頻度の低い語に対しては単語のインデックスを作らないように
    している可能性があります(そうしないとインデックス数が爆発するから)。

    NCSAは検索結果の数が 1000 以下になるまでランダムに単語を追加して
    検索を繰り返したそうなので、登録時の閾値が原因で Yahoo の検索結果が
    少なくなった可能性があります。

    スラッシュドットで検索した結果 [srad.jp]
    にもあるように、頻度の高い語で検索すれば Yahoo の結果の方が多いので、

     文章登録数は Yahoo>google
     単語登録数は google>Yahoo

    なんじゃないかなーと。
    • >出現頻度の少ない語(long tail)

      頻度が少ない、と言う意味でlong tailを使うのには非常に違和感が。
      long tailだろうがshort tailだろうが尾の部分は頻度が少ないわけで。

      と言うのはまあおいといて。

      >NCSAは検索結果の数が 1000 以下になるまでランダムに単語を追加して
      >検索を繰り返したそうなので

      すいませんが、これはどこの記述でしょうか。
      資料を読んだ限りではランダムに2つの単語を使って、結果が1000以下の
      ものだけ使用したように読めたもので。
      #もしかしてPERLのスクリプトにはそう書かれているんでしょうか?
      #いや、FORTRAN以外は読み慣れてないんで飛ばしちゃったんですよね。
      親コメント
  • by Anonymous Coward on 2005年08月17日 11時55分 (#782846)
    増殖webとか他の検索エンジンの結果とか、自動生成されたページが上位に来るのは何とかならないの?
  • まとめ (スコア:2, おもしろおかしい)

    by kicchy (4711) on 2005年08月17日 13時04分 (#782876)
    結局これらの主張を素直に受け入れて見てみると

    ・Yahoo!のほうがインデックスが多い
    ・Googleの検索結果の方が多い

        ↓

    ・Yahooは(検索に使わないような)無駄なインデックスが多い

    ということに見えてあまり問題がないように思えるのですが?
  • by apj (8158) on 2005年08月17日 13時40分 (#782895) 日記
     いくら精度がよくても、誰かに都合の悪い特定の情報を恣意的に取り除くようなことをすれば、情報源としては精度の悪いものになるのでは。
  • by you-you (4108) on 2005年08月17日 15時01分 (#782921) 日記
    GoogleでたとえばShining Timeと検索すると、

    Shining Time の検索結果 約 5,400,000 件中 1 - 10 件目 (0.25 秒)

    と表示されます。この低い桁に0が並ぶのは、数字の有効桁数が低いときによく見られる表示で、Yahooの方も採用しています。この数字だけではインデックスの規模は判断できません。しかし実際にはそれほどはURLを抱えていないこともあり、NCSAのレポートを見ると検索結果として提示されたすべてのURLを数えています。

    ただし、両者で違うインデックスを用いていますから、どちらが便利かはインデックスの規模だけでは判断できないという皆さんの意見には同感です。
  • by tomoki_s (11516) on 2005年08月17日 18時49分 (#782973)
    検索エンジンに引っかかって欲しくないページをクロールされてしまっても、
    Googleは削除の申請が出来るのは親切だと思います。
    逆にYahoo!は「うちは知りません」だからなぁ。

    Yahoo!はなりふり構わずに数だけ稼いでる感じがする・・・のは私だけですかねぇ。
  • Blogの影響 (スコア:1, すばらしい洞察)

    by Anonymous Coward on 2005年08月17日 8時40分 (#782769)

    Blogの影響ってどんなものなんですかね。Blogの登場で、数年前と比べて状況が変わったんじゃないでしょうか。

    検索エンジンによっては、初期値でBlogを検索対象からはずしたりってとこもあるみたいですが、Googleはそういうのも含めて結果を出すところが利点でもありますよね。

    逆にBlog専門の検索エンジンもありますが、それはそれでどのくらいがインデックス化されているのかも面白いですね。

    • Re:Blogの影響 (スコア:1, 興味深い)

      by Anonymous Coward on 2005年08月17日 9時41分 (#782790)
      Yahoo はBlogを活発に収集しているようです。
      たとえば僕のBlogなど、毎日数十回(msnはその半分程度)見に来てますから。
      Googleは数日おきに数回程度(大抵はトップページ)だけど。

      # GoogleがAnonymousFTPを覗きに来たらしい時はたまげましたよ
      親コメント
      • by Anonymous Coward
        その影響かどうか知りませんが、
        「いやそんな検索でウチのサイトが上位にきちゃあかんだろ」
        って場合がちらほらありますね>Yahoo!
        独自エンジンに変わってから逆に精度が悪くなった気がしてならないな。
        • Re:Blogの影響 (スコア:3, 興味深い)

          by ciina (26410) on 2005年08月17日 11時12分 (#782829) 日記
          ほんの数サイトしか管理していませんが、Yahooでは被リンク数を見ていない気がします。
          トラックバックがひとつもないブログが、タイトルを工夫するだけでYahooでは上位に来るようです。

          内容が伴っていないから上位にこられても困るんだけどなぁ。
          親コメント
        • by Carol (2812) on 2005年08月17日 12時15分 (#782852)
          それ、最近多いです。
          なんか最近やたらヒット数多いなと思って調べてみたら...。
          tDiary使ってると検索語の表示機能があるんですが、1回紹介しただけの記事に含まれてたキーワードがどうも検索語表示機能にさらにヒットするという雪だるま方式で、今やそのキーワードで検索するとYahoo!の検索トップに来るようになってしまいました(-_-;
          だから家のサイトはその系のサイトじゃないんだって(笑)
          親コメント
          • Re:Blogの影響 (スコア:2, 参考になる)

            by wei (16323) <kitty_freak@yahoo.co.jp> on 2005年08月18日 11時56分 (#783301)
            | tDiary使ってると検索語の表示機能があるんですが、1回紹介しただけの
            | 記事に含まれてたキーワードがどうも検索語表示機能にさらにヒットする
            | という雪だるま方式で、今やそのキーワードで検索するとYahoo!の検索トッ
            | プに来るようになってしまいました(-_-;

            tdiary.conf に以下のような記述をすれば良いです。

            @options['bot'] = [
                            '^(Naverbot|Cowbot)-',
                            '^BlogLines/',
                            '^blogmap',
                            '^FAST-WebCrawler/',
                            '^Hatena Antenna/',
                            'MI[CK]AN/',
                            '^msnbot/',
                            '^NG/',
            # '^Openbot/',
                            'Openbot/',
                            '^samidare',
                            '^TAMATEBAKO/',
                            '^TomSoftAntenna',
                            'Slurp',
                            'NPBot',
                            'psbot',
                            'research-robot',
                            'Ask Jeeves/Teoma',
                            'Comaneci_bot',
                            'Yahoo-MMCrawler',
                            'Comodo HTTP',
                            'ConveraCrawler',
                            'Moewe',
                            'ZyBorg',
                            'oBot',
                            'aipbot',
                            'SurveyBot',
                            'Girafabot',
                            'StackRambler',
                            'sohu-search',
                            'Scooter',
                            '1Noonbot',
                            'ichiro',
                            'Mediapartners-Google'
            ]
            親コメント
    • Re:Blogの影響 (スコア:1, 興味深い)

      by Anonymous Coward on 2005年08月17日 10時45分 (#782817)
      Blogってほとんどの場合、見るべき物がないからGoogleでも検索結果から除外するチェックボックスが欲しいところ。
      -"トラックバック" とかすれば除外はできるだろうが面倒。

      #邪魔な署名廃止活動中! 目下の敵は YOUsuke,Fatalwedge
      親コメント
  • 検索結果数なんか (スコア:1, すばらしい洞察)

    by Anonymous Coward on 2005年08月17日 8時44分 (#782771)
    より精度のいい結果を返してるからだとか言われれば、
    そうですかとしか言えんしなあ。

    便利なら細かい数字なんかどうでも良いよ。
    • by kokugojiten (22778) on 2005年08月17日 13時16分 (#782881)
      私も一瞬そう考えたのですが

      有る閾値を両エンジンが持っていて閾値以上の結果を表示する仕組みになっているとすると

      その閾値以上の検索結果は総インデックス数に比例するんじゃないかしら。
      とすればNCSAの主張はあながち間違っていないかも
      親コメント
      • by hirachan (7458) on 2005年08月17日 13時50分 (#782897)
        - GoogleにあってYahooにはない
        - YahooにあってGoogleにはない
        - 両方にある

        というページを見てみて、欲しかった情報がどっちにあるか
        または、ないか、見てみないとわからんのではないかなぁ。
        親コメント
      • > 有る閾値を両エンジンが持っていて閾値以上の結果を表示する
        > 仕組みになっているとするとその閾値以上の検索結果は総イン
        > デックス数に比例する

        閾値が等しければそうでしょうけど、閾値の設定が異なれば、
        結果の数=総インデックス数は成り立たないですよね。

        # その閾値の設定も調整できればさらに便利かも。
        # 厳密にキーワードについて触れているページだけ表示したり、
        # 甘くキーワードが含まれていれば表示したり。
        --
        Your 金銭的 potential. Our passion - Micro$oft

        Tsukitomo(月友)
        親コメント
    • by chiba-f (6867) on 2005年08月17日 14時10分 (#782903)
      普通はじめの数個しか見ないし.
      親コメント
  • by Anonymous Coward on 2005年08月17日 10時51分 (#782820)
    bbcloneを入れているサイトのアクセスログを見たら、検索ロボットの比率は、

    Yahoo 42.95%
    Google 27.85%
    MSN 23.70%

    となってます。
    確かに、Yahooの方が多いみたいですけど、これが、検索結果に直接影響しているのかは不明。
  • by greentea (17971) on 2005年08月17日 11時17分 (#782831) 日記
    いろいろ検索してみた所、(検索ワードのせいかもしれませんが)
    Google(Japan)よりYahoo(Japan)の方が多くて驚いています。

    スラッシュドットなんか、とくに(俺が調べた時点では)
    Google 検索 約 202,000 件 [google.co.jp]
    Yahoo! 検索 約2110000件 [yahoo.co.jp]
    と10倍以上の差があります。

    今は特に探しものがないので、どっちが質が高いかは検証していませんが。

    # ところで、 xorg.conf でググったところ10件。
    # "xorg.conf" にしてみると件数増えたけどドットって特殊な意味逢ったっけ?
    --
    1を聞いて0を知れ!
  • http://para-site.net/up/data/4980.gif
    某有名人の名前で、今年の1月から今日まで毎日検索したものをグラフにした物です。

    ちなみに、Yahoo!の結果が急激に伸びた6/20は、Yahoo!が「Yahoo!SEARCH(ベータ版)」を公開した日 [yahoo.co.jp]
    その後の暴落、暴騰の原因は不明です(^^;;

    Yahoo!の暴騰、暴落差BEST3
    1位 6/20 +144,470
    2位 8/5   +75,400
    3位 7/12  -26,000

    Googleの暴騰、暴落差BEST3
    1位 6/2   +5,500
    2位 5/4   +5,300
    3位 3/4   +4,500

    Yahoo!とGoogleの数値の差BEST3
    8/18 Y 192,000 G 28,300 163,700
    8/17 Y 192,000 G 29,300 162,700
    7/8  Y 193,000 G 32,900 160,100

    #毎日計測していますが、どこにも公表してなかったりします(笑)
  • by Anonymous Coward on 2005年08月17日 9時05分 (#782776)
    どんな検索キーワードに対してもインデックスされてる
    すべてのページを返す検索エンジンを作れば最強じゃね?
    • by Anonymous Coward
      SPAMのフィルタリング処理が若干強めなだけかもしれないし、
      それ以外にも重要度の高そうなデータを上位に持ってくるアルゴリズムの
      違いのせいかもしれないわけでさ。

      #そもそも下の方のページまで丹念にチェックするのって、
      #エロキーワードをチェックしている連中だけでねぇの?
    • むしろ、どんな検索クエリに対しても(キーワード相関DBみたいなのを介して)「関連しそうな」ページを全て返せばいいんじゃない?
      • いや、関連する/しないに関係なく全てのページを返せば最強

        もっとも NCSA だって結果が多ければ優秀だなんて言ってないんだけどさ。
        google の主張するインデックス数を検索結果から検証してみた(と主張している)だけ。

        インデックス数は多いに越し
  • by Anonymous Coward on 2005年08月17日 9時28分 (#782783)
    ややYahoo!優勢と判断したい。ただし、重複が多いのが、難点かな。
    #理由は推して知るべし
typodupeerror

日々是ハック也 -- あるハードコアバイナリアン

読み込み中...