NCSAがYahoo!とGoogleのインデックス数を比較

NCSAがYahoo!とGoogleのインデックス数を比較 98

ストーリー by Oliver 2005年08月17日 8時24分
デカさじゃない部門より

Anonymous Coward曰く、"本家記事NCSA Compares Google and Yahoo Index Numbersより。先日、Yahooの検索インデックス数が200億ページを超え、Googleの80億ページを大幅に凌いだとの発表があったが、Yahooの発表に異を唱える調査結果をNCSAが発表した。発表資料の結論部分は以下の通り

平均ではYahoo!と比較してGoogleは166.9%は多い検索結果を返す
10,012個のテストケースのうちYahoo!の検索結果が多かったケースは3%(307個)
96.9%のケース(9,676個)ではGoogleがより多い検索結果を返した
1%以下のケース(29個)では両者とも同数の検索結果を返した
Yahoo!がGoogleの二倍以上のインデックスを持つという主張は疑わしい"

この議論は賞味期限が切れたので、アーカイブ化されています。新たにコメントを付けることはできません。

記事ページを表示すべてのコメント取得

検索98コメント Log In/Create an Account

色々，試してみよう :) (スコア:5, 興味深い)

by KAMUI (3084) on 2005年08月17日 9時24分 (#782782) 日記
Yahoo! [yahoo.com]
- yahooing 14,600
- googling 2,910,000
Google [google.com]
- yahooing 4,320
- googling 810,000
Yahoo! JAPAN [yahoo.co.jp]
- ヤフる　3,410
- ググる　481,000
Google 日本 [google.co.jp]
- ヤフる　1,790
- ググる　61,300
個人的には「ヤフる」という言葉が存在した事に驚いた(笑)
- Re:色々，試してみよう :) (スコア:2, おもしろおかしい)
  
  by Anonymous Cowerd (24277) on 2005年08月17日 20時08分 (#782993)
  
  どんなキーワードが最大数になるのか、簡単に思いつくのを
  やってみました。
  
  検索語: a
  Google 2,930,000,000
  Yahoo! 11,800,000,000
  
  検索語: is
  Google 2,300,000,000
  Yahoo! 6,780,000,000
  
  検索語： this
  Google 2,200,000,000
  Yahoo! 7,320,000,000
  
  Yahoo!のほうが３～４倍は多いですね。
  
  シェア
  
  親コメント
- Re:色々，試してみよう :) (スコア:2, おもしろおかしい)
  
  by hohehohe (11394) on 2005年08月17日 23時46分 (#783109)
  
  本家コメントより。「failure」でぐぐってごらん。
  
  --
  AVG anti-virus data base out of date
  
  シェア
  
  親コメント
- Re:色々，試してみよう :) (スコア:1)
  
  by Higuchi_Misya (23432) on 2005年08月17日 15時47分 (#782932)
  
  ヤフるって．．．
  最初どこぞの本での造語かなと思ったんすが、実際に使われているんか。
  
  うーん。
  
  #ということでamazonで「ヤフる」をワードにしても、出てくるのはBL本ばかりなのはなんでやと思うID
  
  シェア
  
  親コメント
- - Re:インフォシクる (スコア:1)
    
    by zenkakueisuuji (20374) on 2005年08月17日 17時08分 (#782953) 日記
    
    そりゃ、シクっ [google.co.jp]ちゃいけない。
    
    シェア
    
    親コメント
  - Re:色々，試してみよう :) (スコア:1)
    
    by tenkoma (23973) on 2005年08月17日 23時21分 (#783090) ホームページ日記
    
    コメントアウトされた部分にマジレス．
    > ♯ 自分のサイトだけがひっかかる検索語があるというのは
    > ♯ ちょっとうらやましいかも。
    
    そういう話は公開(public)されたWeb以外のコミュニティでやらないと，次からこのページも引っかかるじゃないですか．アレゲなサイトもしっかりとクロールされるご時世なんですから．
    
    # 某国を除く
    
    --
    見つけたものが何であるかで，未来の姿が変わる．
    
    シェア
    
    親コメント
文書インデックスか、単語インデックスか (スコア:3, すばらしい洞察)

by jl4cvb (4926) on 2005年08月17日 16時15分 (#782940)

検索エンジンは、文章の適合度を tf*idf つまり
「個々の文章に出る単語の頻度」と「文章集合中の単語頻度の逆数（語の珍しさ）」の積で
計算するのを基本としているので、出現頻度の少ない語（long tail）を使えば
閾値の差が問題になりにくい（tf=1でも閾値を越えるように設計していると予想できる）
てーのはあると思います。

その反面、検索エンジン（文書の登録部分）は
余りに出現頻度の低い語に対しては単語のインデックスを作らないように
している可能性があります（そうしないとインデックス数が爆発するから）。

NCSAは検索結果の数が 1000 以下になるまでランダムに単語を追加して
検索を繰り返したそうなので、登録時の閾値が原因で Yahoo の検索結果が
少なくなった可能性があります。

スラッシュドットで検索した結果 [srad.jp]
にもあるように、頻度の高い語で検索すれば Yahoo の結果の方が多いので、

　文章登録数は　Yahoo＞google
　単語登録数は　google＞Yahoo

なんじゃないかなーと。
- Re:文書インデックスか、単語インデックスか (スコア:2, 参考になる)
  
  by phason (22006) <mail@molecularscience.jp> on 2005年08月17日 16時39分 (#782946) 日記
  
  >出現頻度の少ない語（long tail）
  
  頻度が少ない、と言う意味でlong tailを使うのには非常に違和感が。
  long tailだろうがshort tailだろうが尾の部分は頻度が少ないわけで。
  
  と言うのはまあおいといて。
  
  >NCSAは検索結果の数が 1000 以下になるまでランダムに単語を追加して
  >検索を繰り返したそうなので
  
  すいませんが、これはどこの記述でしょうか。
  資料を読んだ限りではランダムに2つの単語を使って、結果が1000以下の
  ものだけ使用したように読めたもので。
  #もしかしてPERLのスクリプトにはそう書かれているんでしょうか？
  #いや、FORTRAN以外は読み慣れてないんで飛ばしちゃったんですよね。
  
  シェア
  
  親コメント
  - Re:文書インデックスか、単語インデックスか (スコア:2, 参考になる)
    
    by jl4cvb (4926) on 2005年08月17日 16時48分 (#782949)
    
    あ、
    
    > ランダムに2つの単語を使って、結果が1000以下の
    > ものだけ使用したように読めたもので。
    
    こっちが正しいです。
    
    シェア
    
    親コメント
最近のgoogleは増殖webなどの意味のないページでも上 (スコア:2, 興味深い)

by Anonymous Coward on 2005年08月17日 11時55分 (#782846)

増殖webとか他の検索エンジンの結果とか、自動生成されたページが上位に来るのは何とかならないの？
まとめ (スコア:2, おもしろおかしい)

by kicchy (4711) on 2005年08月17日 13時04分 (#782876)

結局これらの主張を素直に受け入れて見てみると

・Yahoo!のほうがインデックスが多い
・Googleの検索結果の方が多い

　　　　↓

・Yahooは(検索に使わないような)無駄なインデックスが多い

ということに見えてあまり問題がないように思えるのですが？
google八分をまずやめろと (スコア:2, 参考になる)

by apj (8158) on 2005年08月17日 13時40分 (#782895) 日記

　いくら精度がよくても、誰かに都合の悪い特定の情報を恣意的に取り除くようなことをすれば、情報源としては精度の悪いものになるのでは。
- - Re:google八分をまずやめろと (スコア:1)
    
    by apj (8158) on 2005年08月18日 18時26分 (#783463) 日記
    
    >結局はスポンサーへ誘導するためのエサとしての検索結果なんだから自社にマイナスな情報は削られる罠。
    
    　意味がわからん。スポンサーにマイナスな情報が削られるならまだわかるが。
    
    シェア
    
    親コメント
検索時に表示されるのは推計値です (スコア:2, 参考になる)

by you-you (4108) on 2005年08月17日 15時01分 (#782921) 日記

GoogleでたとえばShining Timeと検索すると、

Shining Time の検索結果約 5,400,000 件中 1 - 10 件目 (0.25 秒)

と表示されます。この低い桁に0が並ぶのは、数字の有効桁数が低いときによく見られる表示で、Yahooの方も採用しています。この数字だけではインデックスの規模は判断できません。しかし実際にはそれほどはURLを抱えていないこともあり、NCSAのレポートを見ると検索結果として提示されたすべてのURLを数えています。

ただし、両者で違うインデックスを用いていますから、どちらが便利かはインデックスの規模だけでは判断できないという皆さんの意見には同感です。
データベースからの削除 (スコア:2, 興味深い)

by tomoki_s (11516) on 2005年08月17日 18時49分 (#782973)

検索エンジンに引っかかって欲しくないページをクロールされてしまっても、
Googleは削除の申請が出来るのは親切だと思います。
逆にYahoo!は「うちは知りません」だからなぁ。

Yahoo!はなりふり構わずに数だけ稼いでる感じがする・・・のは私だけですかねぇ。
Blogの影響 (スコア:1, すばらしい洞察)

by Anonymous Coward on 2005年08月17日 8時40分 (#782769)

Blogの影響ってどんなものなんですかね。Blogの登場で、数年前と比べて状況が変わったんじゃないでしょうか。
検索エンジンによっては、初期値でBlogを検索対象からはずしたりってとこもあるみたいですが、Googleはそういうのも含めて結果を出すところが利点でもありますよね。
逆にBlog専門の検索エンジンもありますが、それはそれでどのくらいがインデックス化されているのかも面白いですね。
- Re:Blogの影響 (スコア:1, 興味深い)
  
  by Anonymous Coward on 2005年08月17日 9時41分 (#782790)
  
  Yahoo はBlogを活発に収集しているようです。
  たとえば僕のBlogなど、毎日数十回(msnはその半分程度)見に来てますから。
  Googleは数日おきに数回程度(大抵はトップページ)だけど。
  
  # GoogleがAnonymousFTPを覗きに来たらしい時はたまげましたよ
  
  シェア
  
  親コメント
  - Re:Blogの影響 (スコア:0)
    
    by Anonymous Coward
    
    その影響かどうか知りませんが、
    「いやそんな検索でウチのサイトが上位にきちゃあかんだろ」
    って場合がちらほらありますね＞Yahoo!
    独自エンジンに変わってから逆に精度が悪くなった気がしてならないな。
    - Re:Blogの影響 (スコア:3, 興味深い)
      
      by ciina (26410) on 2005年08月17日 11時12分 (#782829) 日記
      
      ほんの数サイトしか管理していませんが、Yahooでは被リンク数を見ていない気がします。
      トラックバックがひとつもないブログが、タイトルを工夫するだけでYahooでは上位に来るようです。
      
      内容が伴っていないから上位にこられても困るんだけどなぁ。
      
      シェア
      
      親コメント
      - Re:Blogの影響 (スコア:2, 参考になる)
        
        by t_miyabi (15946) on 2005年08月17日 15時24分 (#782927) ホームページ
        
        rel=nofollow支持 [5net.com]しているくらいだから
        (被リンク数-トラックバック数)=ポピュラリティー(の要素)
        になったもんだと思ってました。
        
        シェア
        
        親コメント
      - 有名ブログがちょっと触れてるだけ、とか (スコア:1)
        
        by Kanji (8729) <h-gomiNO@SPAMmanuke.com> on 2005年08月17日 21時55分 (#783044) ホームページ日記
        
        > ほんの数サイトしか管理していませんが、
        > Yahooでは被リンク数を見ていない気がします。
        > トラックバックがひとつもないブログが、
        > タイトルを工夫するだけでYahooでは上位に来るようです。
        >
        > 内容が伴っていないから上位にこられても困るんだけどなぁ。
        
        有名なブログがちょこっとだけ触れた箇所と、無名のブログがそれだけを中心に書いた記事だったら、むしろ有名なブログが上位に来るほうが邪魔なんじゃないの。
        
        まあでもアフィリエイト目的のあざとい書き方を見ると腹が立ちます。
        
        シェア
        
        親コメント
    - Re:Blogの影響 (スコア:1)
      
      by Carol (2812) on 2005年08月17日 12時15分 (#782852)
      
      それ、最近多いです。
      なんか最近やたらヒット数多いなと思って調べてみたら．．．。
      tDiary使ってると検索語の表示機能があるんですが、１回紹介しただけの記事に含まれてたキーワードがどうも検索語表示機能にさらにヒットするという雪だるま方式で、今やそのキーワードで検索するとYahoo!の検索トップに来るようになってしまいました(-_-;
      だから家のサイトはその系のサイトじゃないんだって（笑）
      
      シェア
      
      親コメント
      - Re:Blogの影響 (スコア:2, 参考になる)
        
        by wei (16323) <kitty_freak@yahoo.co.jp> on 2005年08月18日 11時56分 (#783301)
        
        | tDiary使ってると検索語の表示機能があるんですが、１回紹介しただけの
        | 記事に含まれてたキーワードがどうも検索語表示機能にさらにヒットする
        | という雪だるま方式で、今やそのキーワードで検索するとYahoo!の検索トッ
        | プに来るようになってしまいました(-_-;
        
        tdiary.conf に以下のような記述をすれば良いです。
        
        @options['bot'] = [
        '^(Naverbot|Cowbot)-',
        '^BlogLines/',
        '^blogmap',
        '^FAST-WebCrawler/',
        '^Hatena Antenna/',
        'MI[CK]AN/',
        '^msnbot/',
        '^NG/',
        # '^Openbot/',
        'Openbot/',
        '^samidare',
        '^TAMATEBAKO/',
        '^TomSoftAntenna',
        'Slurp',
        'NPBot',
        'psbot',
        'research-robot',
        'Ask Jeeves/Teoma',
        'Comaneci_bot',
        'Yahoo-MMCrawler',
        'Comodo HTTP',
        'ConveraCrawler',
        'Moewe',
        'ZyBorg',
        'oBot',
        'aipbot',
        'SurveyBot',
        'Girafabot',
        'StackRambler',
        'sohu-search',
        'Scooter',
        '1Noonbot',
        'ichiro',
        'Mediapartners-Google'
        ]
        
        シェア
        
        親コメント
        
        Re:Blogの影響 (スコア:1)
        
        by Carol (2812) on 2005年08月19日 9時29分 (#783617)
        
        これでbot避けしてくれるわけですね。
        
        #個人的に（参考になる+1）
        
        シェア
        
        親コメント
- Re:Blogの影響 (スコア:1, 興味深い)
  
  by Anonymous Coward on 2005年08月17日 10時45分 (#782817)
  
  Blogってほとんどの場合、見るべき物がないからGoogleでも検索結果から除外するチェックボックスが欲しいところ。
  -"トラックバック" とかすれば除外はできるだろうが面倒。
  
  #邪魔な署名廃止活動中!　目下の敵は YOUsuke,Fatalwedge
  
  シェア
  
  親コメント
  - Re:Blogの影響 (スコア:1)
    
    by akudaikan (26016) on 2005年08月17日 13時46分 (#782896)
    
    ID取得すれば？
    設定で署名消せるっしょ。
    # だから、君みたいにACで署名っぽいのをつけるほうが邪魔。
    
    シェア
    
    親コメント
    - - Re:Blogの影響 (スコア:1)
        
        by akudaikan (26016) on 2005年08月18日 16時31分 (#783413)
        
        なんで？
        メアドとパスワードを出鱈目に変更すれば捨てたことになるでしょ。
        私はそうやってIDを2つ捨ててるけど。
        「捨てても、心の中から削除しきれない」とかなのか？
        
        シェア
        
        親コメント
        
        Re:Blogの影響 (スコア:1)
        
        by Cononymous Award (27524) <cononymous_awardNO@SPAMbotayama.net> on 2005年08月19日 8時54分 (#783606) 日記
        
        > メアドとパスワードを出鱈目に変更すれば捨てたことになるでしょ。
        
        前のメアドやパスワードが記録に残っている可能性はないの？
        
        --
        いや、そんな！　あの毛は何だ！　枕に！　枕に！
        
        シェア
        
        親コメント
        
        Re:Blogの影響 (スコア:1)
        
        by akudaikan (26016) on 2005年08月21日 1時28分 (#784553)
        
        それは、削除機能があっても一緒だと思う。
        
        シェア
        
        親コメント
検索結果数なんか (スコア:1, すばらしい洞察)

by Anonymous Coward on 2005年08月17日 8時44分 (#782771)

より精度のいい結果を返してるからだとか言われれば、
そうですかとしか言えんしなあ。

便利なら細かい数字なんかどうでも良いよ。
- Re:検索結果数なんか (スコア:2, 参考になる)
  
  by kokugojiten (22778) on 2005年08月17日 13時16分 (#782881)
  
  私も一瞬そう考えたのですが
  
  有る閾値を両エンジンが持っていて閾値以上の結果を表示する仕組みになっているとすると
  
  その閾値以上の検索結果は総インデックス数に比例するんじゃないかしら。
  とすればNCSAの主張はあながち間違っていないかも
  
  シェア
  
  親コメント
  - Re:検索結果数なんか (スコア:1)
    
    by hirachan (7458) on 2005年08月17日 13時50分 (#782897)
    
    - GoogleにあってYahooにはない
    - YahooにあってGoogleにはない
    - 両方にある
    
    というページを見てみて、欲しかった情報がどっちにあるか
    または、ないか、見てみないとわからんのではないかなぁ。
    
    シェア
    
    親コメント
  - Re:検索結果数なんか (スコア:1)
    
    by Tsukitomo (22680) on 2005年08月17日 15時10分 (#782925) 日記
    
    > 有る閾値を両エンジンが持っていて閾値以上の結果を表示する
    > 仕組みになっているとするとその閾値以上の検索結果は総イン
    > デックス数に比例する
    
    閾値が等しければそうでしょうけど、閾値の設定が異なれば、
    結果の数＝総インデックス数は成り立たないですよね。
    
    # その閾値の設定も調整できればさらに便利かも。
    # 厳密にキーワードについて触れているページだけ表示したり、
    # 甘くキーワードが含まれていれば表示したり。
    
    --
    Your 金銭的 potential. Our passion - Micro$oft
    
    Tsukitomo（月友）
    
    シェア
    
    親コメント
- Re:検索結果数なんか (スコア:1)
  
  by chiba-f (6867) on 2005年08月17日 14時10分 (#782903)
  
  普通はじめの数個しか見ないし．
  
  シェア
  
  親コメント
アクセスログを見たら (スコア:1, 興味深い)

by Anonymous Coward on 2005年08月17日 10時51分 (#782820)

bbcloneを入れているサイトのアクセスログを見たら、検索ロボットの比率は、

Yahoo 42.95%
Google 27.85%
MSN 23.70%

となってます。
確かに、Yahooの方が多いみたいですけど、これが、検索結果に直接影響しているのかは不明。
ほんとだ。数では。 (スコア:1)

by greentea (17971) on 2005年08月17日 11時17分 (#782831) 日記

いろいろ検索してみた所、(検索ワードのせいかもしれませんが)
Google(Japan)よりYahoo(Japan)の方が多くて驚いています。

スラッシュドットなんか、とくに(俺が調べた時点では)
Google 検索約 202,000 件 [google.co.jp]
Yahoo! 検索約2110000件 [yahoo.co.jp]
と10倍以上の差があります。

今は特に探しものがないので、どっちが質が高いかは検証していませんが。

# ところで、 xorg.conf でググったところ10件。
# "xorg.conf" にしてみると件数増えたけどドットって特殊な意味逢ったっけ?

--
1を聞いて0を知れ!
- Re:ほんとだ。数では。 (スコア:1)
  
  by Ryo.F (3896) on 2005年08月17日 11時55分 (#782847) 日記
  
  > 検索ワードのせいかもしれませんが
  
  検索ワードのせいでしょう。
  元の論文には、あまりメジャーじゃない語を使用したとあります。
  
  > # ところで、 xorg.conf でググったところ10件。
  > # "xorg.conf" にしてみると件数増えたけどドットって特殊な意味逢ったっけ?
  
  Yahoo!Japanの場合、確かに検索結果が変わりますが、そんな結果は、こちらでは得られません。
  スペルミスかなんかじゃないでしょうか？
  |Google Japan(xorg.conf) [google.co.jp]| = 135,000件
  |Google Japan("xorg.conf") [google.co.jp]| = 135,000件
  |Yahoo! Japan(xorg.conf) [yahoo.co.jp]| = 349,000件
  |Yahoo! Japan("xorg.conf") [yahoo.co.jp]| = 219,000件
  
  シェア
  
  親コメント
  - Re:ほんとだ。数では。 (スコア:1)
    
    by greentea (17971) on 2005年08月17日 18時36分 (#782972) 日記
    
    あれ？たしかに今やってみるとそんな結果になりませんでした。
    どうやら何かの間違いだったようです。
    
    御迷惑をお掛けしました。
    
    --
    1を聞いて0を知れ!
    
    シェア
    
    親コメント
参考になるかな・・・？ (スコア:1)

by kojikoji (9447) on 2005年08月18日 5時31分 (#783182)

http://para-site.net/up/data/4980.gif
某有名人の名前で、今年の1月から今日まで毎日検索したものをグラフにした物です。

ちなみに、Yahoo!の結果が急激に伸びた6/20は、Yahoo!が「Yahoo!SEARCH（ベータ版）」を公開した日 [yahoo.co.jp]
その後の暴落、暴騰の原因は不明です(^^;;

Yahoo!の暴騰、暴落差BEST3
1位　6/20　+144,470
2位　8/5　　 +75,400
3位　7/12　　-26,000

Googleの暴騰、暴落差BEST3
1位　6/2　　 +5,500
2位　5/4　　 +5,300
3位　3/4　　 +4,500

Yahoo!とGoogleの数値の差BEST3
8/18　Ｙ 192,000　Ｇ 28,300　163,700
8/17　Ｙ 192,000　Ｇ 29,300　162,700
7/8　　Ｙ 193,000　Ｇ 32,900　160,100

#毎日計測していますが、どこにも公表してなかったりします（笑）
検索結果の数が多い方がいいのなら (スコア:0)

by Anonymous Coward on 2005年08月17日 9時05分 (#782776)

どんな検索キーワードに対してもインデックスされてる
すべてのページを返す検索エンジンを作れば最強じゃね？
- Re:だよねぇ？ (スコア:0)
  
  by Anonymous Coward
  
  SPAMのフィルタリング処理が若干強めなだけかもしれないし、
  それ以外にも重要度の高そうなデータを上位に持ってくるアルゴリズムの
  違いのせいかもしれないわけでさ。
  
  ＃そもそも下の方のページまで丹念にチェックするのって、
  ＃エロキーワードをチェックしている連中だけでねぇの？
- Re:検索結果の数が多い方がいいのなら (スコア:0)
  
  by Anonymous Coward
  
  むしろ、どんな検索クエリに対しても(キーワード相関DBみたいなのを介して)「関連しそうな」ページを全て返せばいいんじゃない?
  - Re:検索結果の数が多い方がいいのなら (スコア:0)
    
    by Anonymous Coward
    
    いや、関連する／しないに関係なく全てのページを返せば最強
    
    もっとも NCSA だって結果が多ければ優秀だなんて言ってないんだけどさ。
    google の主張するインデックス数を検索結果から検証してみた(と主張している)だけ。
    
    インデックス数は多いに越し
画像検索に関しては、 (スコア:0)

by Anonymous Coward on 2005年08月17日 9時28分 (#782783)

ややYahoo!優勢と判断したい。ただし、重複が多いのが、難点かな。
#理由は推して知るべし
- Re:Yahoo! の主張が嘘だと言う根拠は？ (スコア:1)
  
  by Ryo.F (3896) on 2005年08月17日 11時44分 (#782844) 日記
  
  そういう懸念を排するためか、一般的な「web word」ではなく、
  あまり知られていない語(long tailな語)を使った、とあります。
  一般的な「web word」とは例えば、Yahoo!のウェブディレクトリに現れるような語です。
  
  シェア
  
  親コメント
  - - - Re:Yahoo! の主張が嘘だと言う根拠は？ (スコア:1)
        
        by phason (22006) <mail@molecularscience.jp> on 2005年08月17日 14時48分 (#782918) 日記
        
        リンク先を読めば，それ以上説明するほどのことも無いと
        思うのですが・・・
        #しかしRyo.F氏の"long tailな語"って，どう読んだらそういう
        #間違いが出来るのかちょっと謎．
        #何せ元資料では“long tail” of the search indexとなって
        #いるわけで．
        
        シェア
        
        親コメント
        
        Re:Yahoo! の主張が嘘だと言う根拠は？ (スコア:1)
        
        by Ryo.F (3896) on 2005年08月17日 14時59分 (#782920) 日記
        
        ん？別に語尾の長い語、と理解しているわけじゃありませんよ。
        私がどう理解していると考えてますか？
        正しくはどうあるべきだと考えていますか？
        
        確かに、「long tailな語」というのは、表現として厳密ではありませんが。
        
        シェア
        
        親コメント
        
        Re:Yahoo! の主張が嘘だと言う根拠は？ (スコア:1)
        
        by phason (22006) <mail@molecularscience.jp> on 2005年08月17日 23時05分 (#783078) 日記
        
        すでに#782902のコメントのリンク先に十分書いてあると思いますが．
        #もっと詳しい解説が必要ということでしょうか？
        
        シェア
        
        親コメント
        
        Re:Yahoo! の主張が嘘だと言う根拠は？ (スコア:1)
        
        by phason (22006) <mail@molecularscience.jp> on 2005年08月18日 11時22分 (#783283) 日記
        
        >わかってんなら、さっさと解説しなよ。
        
        では，まあ簡単に．
        
        Long tail：
        通常，自然界での分布は正規分布など，平均から外れた値は非常に
        迅速に減少し大勢に影響を与えません．
        しかし一部の現象，例えば分布がpower-lawに従うようなものでは，
        平均から大きく外れたものも，広い範囲で足し合わせると全体に対し
        無視できない寄与を与えます．このような裾を曳いた分布の裾の
        部分をその形状からlong tailと呼びます．
        ここから転じ，個々ではニッチなどと呼ばれ非常に小さな市場しかない
        ものでも多数集めると大規模な市場を形成するようなものたちにも
        このlong tailという語は使われています．ネットの発達により
        小規模顧客へのダイレクトな販売手段などが容易に低コストで構築
        できるようになったため，現在ではこのようなlong tailを形成する
        市場も注目されています．
        
        今回の例で行くと，ヒット数の少ない「語の組み合わせ」というもの
        が指し示すページを，long tailの部分を構成する要素，と称して
        います．ただ，このようなページが本当にlong tailなのか(short tail
        ではないのか)は私は知りません．そういう研究はありそうですが．
        
        とまあ概要はこんな感じですが，これって結局ずっと前にリンクで
        示されていたページに比べると簡易な説明なんですよね．
        なぜリンク先を読まんのかと．
        
        シェア
        
        親コメント
        
        Re:Yahoo! の主張が嘘だと言う根拠は？ (スコア:1)
        
        by Ryo.F (3896) on 2005年08月18日 14時25分 (#783368) 日記
        
        そうですね。「あまり知られていない語」は正確ではありませんでした。訂正します。
        
        > ただ，このようなページが本当にlong tailなのか(short tail
        > ではないのか)は私は知りません．そういう研究はありそうですが．
        
        ジップの法則 [chokai.ne.jp]というのが知られています。
        (参考:ベキ法則との関係 [can.or.jp])。
        
        言い訳:
        出現順位が低い、long tailを形成するような語(の組合せ)は、
        「あまり知られていない語」であるのが普通なので、
        意訳し過ぎてしまいました。
        
        シェア
        
        親コメント

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

NCSAがYahoo!とGoogleのインデックス数を比較 More ログイン

色々，試してみよう :) (スコア:5, 興味深い)

Re:色々，試してみよう :) (スコア:2, おもしろおかしい)

Re:色々，試してみよう :) (スコア:2, おもしろおかしい)

Re:色々，試してみよう :) (スコア:1)

Re:インフォシクる (スコア:1)

Re:色々，試してみよう :) (スコア:1)

文書インデックスか、単語インデックスか (スコア:3, すばらしい洞察)

Re:文書インデックスか、単語インデックスか (スコア:2, 参考になる)

Re:文書インデックスか、単語インデックスか (スコア:2, 参考になる)

最近のgoogleは増殖webなどの意味のないページでも上 (スコア:2, 興味深い)

まとめ (スコア:2, おもしろおかしい)

google八分をまずやめろと (スコア:2, 参考になる)

Re:google八分をまずやめろと (スコア:1)

検索時に表示されるのは推計値です (スコア:2, 参考になる)

データベースからの削除 (スコア:2, 興味深い)

Blogの影響 (スコア:1, すばらしい洞察)

Re:Blogの影響 (スコア:1, 興味深い)

Re:Blogの影響 (スコア:0)

Re:Blogの影響 (スコア:3, 興味深い)

Re:Blogの影響 (スコア:2, 参考になる)

有名ブログがちょっと触れてるだけ、とか (スコア:1)

Re:Blogの影響 (スコア:1)

Re:Blogの影響 (スコア:2, 参考になる)

Re:Blogの影響 (スコア:1)

Re:Blogの影響 (スコア:1, 興味深い)

Re:Blogの影響 (スコア:1)

Re:Blogの影響 (スコア:1)

Re:Blogの影響 (スコア:1)

Re:Blogの影響 (スコア:1)

検索結果数なんか (スコア:1, すばらしい洞察)

Re:検索結果数なんか (スコア:2, 参考になる)

Re:検索結果数なんか (スコア:1)

Re:検索結果数なんか (スコア:1)

Re:検索結果数なんか (スコア:1)

アクセスログを見たら (スコア:1, 興味深い)

ほんとだ。数では。 (スコア:1)

Re:ほんとだ。数では。 (スコア:1)

Re:ほんとだ。数では。 (スコア:1)

参考になるかな・・・？ (スコア:1)

検索結果の数が多い方がいいのなら (スコア:0)

Re:だよねぇ？ (スコア:0)

Re:検索結果の数が多い方がいいのなら (スコア:0)

Re:検索結果の数が多い方がいいのなら (スコア:0)

画像検索に関しては、 (スコア:0)

Re:Yahoo! の主張が嘘だと言う根拠は？ (スコア:1)

Re:Yahoo! の主張が嘘だと言う根拠は？ (スコア:1)

Re:Yahoo! の主張が嘘だと言う根拠は？ (スコア:1)

Re:Yahoo! の主張が嘘だと言う根拠は？ (スコア:1)

Re:Yahoo! の主張が嘘だと言う根拠は？ (スコア:1)

Re:Yahoo! の主張が嘘だと言う根拠は？ (スコア:1)