パスワードを忘れた? アカウント作成
6130 story
インターネット

Webサイトへのアクセスの予測 106

ストーリー by wakatono
リロードがさらに拍車をかける 部門より

mpls 曰く、 "今、キリンの生茶を買うと、インターネット限定で生茶パンダをプレゼントして くれるというサイトへのアクセスコードがついてきます。
実はこのサイト、この二、三日稼動していません。
予想を上回るアクセスがあったため、と説明していますが、この「予想」ってなんなんでしょうね?
/.J を読んでいる方にも、Webサイトの構築をされている方がおられると思いますが、どのような「予想」を元に回線やサーバの性能を決めていますか?"

過去には Playstation.comが、現在もまさに生茶のサイト以外にも電子国土ポータルがこの状態だ。最近は予測以外にも「必要に応じた」リソースの動的追加という手段もとられているが、サービス提供側もそうしなければならない状態になったら「よもやこんなとは…」と感じることはあるだろう。実際どうすればいいのだろうか…

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • これは成功例 (スコア:4, 参考になる)

    by Anonymous Coward on 2003年07月15日 17時24分 (#359494)
    >/.J を読んでいる方にも、Webサイトの構築をされている方がおられると思いますが、
    >どのような「予想」を元に回線やサーバの性能を決めていますか?

    正直、掛け算ですね。もちろん、経験からくる数字をかけますが。
    具体的な数字はあげられないけど、予想10万人で100Mbps x 3、
    サーバ3台をロードバランシングとか。(数字はあえてテキトーです)

    ところで、この生茶って失敗例じゃなくて、成功例だと思いますよ。
    回線の充分(ネットワークは問題なく繋がってる)だし、
    アプリも、にっちもさっちもいかなくなる前に「混んでます」画面出すし。

    アクセスしてみるとわけるけど、ユーザ登録画面は結構待ちがなく進むのですよ。
    つまり、マーケティングはかなりの高得点で成功しているわけ。
    とまあ、そこまでわかっておきながら、パンダ欲しさに罠にはまる俺。
    • by L.Nizah (7804) on 2003年07月15日 20時19分 (#359628)
      100Mbpsx3とかサーバ3台はどうでもよい(ということも無い)のですが
      どうやって10万人を予想したかが知りたいのです。企業秘密でしょうか?(^^;

      というか、そこのところの予想がこのストーリーの肝なんじゃないかと思ったり。
      親コメント
  • by j_NY (14415) on 2003年07月15日 15時35分 (#359410)
    うちは、客の「理想アクセス数」に耐えられる設計にしています。
    これが一番予算も出やすくて妥当なところだと思うんですが、
    もちろん客の理想以上にアクセスが有ることもあるでしょう。
    そんな時のために、
    「理想以上のアクセスがあったら止まっちゃうかもしれませんが、
    目標達成するわけですから御の字でしょう。そうなってから考えましょう。」
    と笑顔で打ち合わせして、見積もりにも表記しときます。

    #絶対こんなサイト、アクセスこねーよ。客は10万アクセスって言ってるけど、
    #5万くらいで考えとこう、ということもある、か・・・な?
    • by kamira (6480) on 2003年07月15日 18時21分 (#359537) ホームページ
      お客さんによって様々なのでアレなのですが、間違っている時はこちらから提案し
      お客さんが予想アクセス数を持ってきた時には、それに耐えうる構築をします。
      方法はロードバランシングに然り、サーバー自体のパフォーマンスモニタリングに然り。
      勿論帯域チェックやらパケットキャプチャ型アクセス解析ソフトによる過去の履歴から算出します。

      ただ、あまりにもアレなところもありますね。
      予想される規模のでかさをわかってないまま、こちらに構築依頼をされたりとか。
      もしくは仕組みを分かってないまま、お客さん自身が適当な機械を馴れ合い会社から
      購入しちゃって「これで組んで」みたいなパターン。
      ストリーミングサーバー用意してても、そこに接続するための認証サーバーが1機とか。
      WebはLBされてるのに、DBがクラスタリングされてないとか。
      完全二重化といいながら、上位のルートが1本とか。

      でも最後にはお金ですよね。。
      親コメント
    • by Anonymous Coward on 2003年07月15日 16時09分 (#359434)
      5万とか10万とかって、月間?

      WEBの負荷の見積りって、 明らかに少ない場合は「月間」とかで考えても 「あ、余裕あるな」で終わっちゃうけれど、 それなりの負荷がかかる場合、 当然ピークタイムで予想しないといけないよね。

      特に、キャンペーンとかメールマガジンからくるとか、 ピークタイムに特殊なパターンがある場合。

      厳密にやる場合:
      1時間あたりの最大ページビュー数予想して、
      1秒あたりのヒット数になおして負荷計算。

      でやってるけど、それでいいの? 教えてエライ人。
      親コメント
      • by yasudas (5610) on 2003年07月15日 16時33分 (#359454) 日記
        >厳密にやる場合:
        >1時間あたりの最大ページビュー数予想して、
        >1秒あたりのヒット数になおして負荷計算。
        >
        >でやってるけど、それでいいの? 教えてエライ人。

        最終的には「実際のアクセスに耐えられることを望む」システム
        のオーナーさんと、「実際に予測を打ち立てる」ところと、その
        予測をまっとうするシステムインテグレータとかがあるわけなん
        ですが、そのまんなかの「予測を出して保証する」といったこと
        がないのが、問題だと思うんですよ。

        # 絶対安全圏みたいなことでむちゃくちゃな見積が出てきたり、
        # リソース不足でふっとぶちゃちな見積がでてきたり...

        自社製品の社外向け販売WebPageを作った時、危機的状況になって
        調べてみて、ことの他、社員からのアクセスが多かったりする。
        で、社内に対して「社員さんとかは、社員向けのページを使って
        ちょうだいな」ってなアナウンスをしたりするわけです。敵はど
        こにいるかわかったもんでもない...(^^,,
        親コメント
  • by Transponder (6045) on 2003年07月15日 15時22分 (#359402) ホームページ 日記
    2,3日どころか1週間以上まともに動いてないですね。
    こんなのじゃきっと誰もエントリーすらできないんだろうなと思っているとそうでもないみたい。 [yahoo.co.jp]

    ま、そんなことはどうでもいいが生茶の前回のキャンペーンが期間にある程度の余裕があった(?)のに対し、今回は1ヶ月ほど。さらにリプトン、サントリーも同じような(同じなんだろうけど)14桁のシリアルナンバーでエントリーするキャンペーンを行ってこの方法の認知度が上がったこと、でもって、当選品(以外も)
    が結構な高値で売買
    [yahoo.co.jp]されてることに気づいて応募者殺到って感じですね。
    さらに付け加えるなら「おしりを噛んでほしい」人、多数なのかも。

    #ボクはパペットマペットのまねがしたいだけです。
    --

    # I will work seriously this year!

  • そりゃ当然 (スコア:2, 興味深い)

    by Anonymous Coward on 2003年07月15日 15時27分 (#359405)
    >どのような「予想」を元に回線やサーバの性能を決めていますか?

    提示された予算の中で入手できる分だけ。
    いや、マジで「〇〇円で作って」ってで、「予測される負荷」から金額を積み上げていないものばっか。
    (そう言えば最近も厚生省が作った「過労チェック」なるものを外郭団体のWEBで公開したらアクセスが集中してサーバーが過労でダウン、なんてのがありましたなあ)
    • by Anonymous Coward on 2003年07月15日 15時43分 (#359418)
      >提示された予算の中で入手できる分だけ。

      これ自体はまっとうなんだけどさ。
      下にもあるけど、具体的な限度を積算書や契約書に明記しておかないと責任の所在が不明確になって、後々トラブルに繋がるぞ。
      親コメント
      • by yasudas (5610) on 2003年07月15日 16時27分 (#359448) 日記
        >具体的な限度を積算書や契約書に明記しておかないと責任の所在が不明確になって、後々トラブルに繋がるぞ。

        分間何千件のアクセスを受け付けて、受注を分間何件受け付けるか?とか、
        結構具体的に取り決めしていたりするのですが、それでも客が後になって
        「あれ変えられないか?もっとアクセスあるかもしれないだろ」とか言い出
        してもめるケースもあったりしますね。釘を刺しても、相手は釘に思わない
        ケースもあったりして、トラブルはなかなか...

        そもそも、コンテンツやらコンテンツへの希求といった社会的状況を調べも
        せずに、アクセス件数を予測してシステムを構築するってことが元でトラブル
        を招くケースもあるわけなんですよ。

        # コンピュータ側に余裕はあったけど、ロードバランサーがこけたってのも
        # あったりするわけで...
        親コメント
  • by Tak.M (6722) on 2003年07月15日 16時25分 (#359446)
    ブロードバンド回線が普及してきて、サーバ側バックボーン容量とクライアントからのアクセス回線容量の差がなくなって来ていますよね。だから、アクセス量の見積りが難しくなってるんじゃないかと思います。

    今までの常識で考えると、サーバ側には大容量の回線を用意し、多数の(ナローバンドな)クライアントからのリクエストに耐えるという設計にするのでしょうけど、実際のインターネットはそうではなくなってきてると。

    それを解決するのが P2P ネットワークだと思うんだけどなぁ。なんだか、きな臭い話しか聞こえてきませんね。P2P技術が悪いんじゃなくて、その有名な応用例が問題視されてるわけですが……。根底を支えるP2P技術の研究・開発も一緒につぶされると困ります。
    • そうなんだよな。
      現状ってのは、コンピュータの、というかPCの爆発的な性能向上で、
      あり余る処理能力を持って肥満しまくった飢鬼ども(クライアント)が
      相対的にはるかに貧弱なバックボーン回線に群がって
      一生懸命甘い汁を吸ってるモデルだから、
      回線の能力を増やしていってもクライアント側は問題なくついてきてしまう。
      よって、みんな寄ってたかってサーバの処理能力を喰い潰していって、
      とんでもないことになるわけだ。

      本来なら、サーバで処理すべき処理能力の一部を
      これらパワーのあり余ったクライアントに効果的に分散すれば、
      現状の回線能力でも、かなりの帯域圧縮効果があると思うんだけど、
      詰まる所、やっぱセキュリティがね…。

      基本的にP2Pは送信能力を負荷分散するテクノロジだけど、

      本来ならグリッドコンピューティングの要素も採り入れて、
      サーバが集中してやってる処理そのものも、分散すべきなんだ。

      本来ならJavaがそういう言語として設計されたはずなのだけど、
      その能力は十分に活かされていると言い難いのが残念だな。
      親コメント
    • by Anonymous Coward on 2003年07月15日 17時02分 (#359480)
      サーバのアクセス負荷は、トラフィック量だけじゃないのですが…。
      また、Webアプリなんかだと、P2Pに向かないように思えますが、そこいらはいかがでしょうか?

      ・データのトランザクションはどう保障し、分散効果はどのくらい出ますか?
      ・アプリのアルゴリズムの同一性をどのように保障しますか?
      ・データの盗聴対策は?

      くらいは考えないと、電波に見えてしまいますよ^^;;
      親コメント
      • >サーバのアクセス負荷は、トラフィック量だけじゃないのですが…。

        おっと失礼。よくよく考えてみたら、この件では特に

        ・クライアントからアクセスコードを入力(数十バイト?)
        ・サーバから結果を返答

        というシステムだから、データ量だけ考えると、実は大したことなさそう。見積もるべき(思案すべき)はデータ転送量ではなく、むしろページビューによるサーバ側負荷だったのか。

        >・データのトランザクションはどう保障し、分散効果はどのくらい出ますか?
        >・アプリのアルゴリズムの同一性をどのように保障しますか?
        >・データの盗聴対策は?

        P2P技術が進歩し、こういう問題点を考えねばならなくなるような時代がくることを切に願うばかりです。

        # ……で、その問題点の解決策については、
        # 当方あいにく持ち合わせておりません。教えてエライ人。
        親コメント
        • by Anonymous Coward on 2003年07月15日 18時43分 (#359554)
          私が関わってきた、たいていのWebサービスの場合は回線速度が速いお客さんが多いほうが、
          はやくWebのセッションを開放してくれるからありがたいことが多いな。
          Webサーバのプロセス数は有限のリソースですからねぇ。。

          #ストリーム系は話が別でしょうね。
          親コメント
  • by zasha (14341) on 2003年07月15日 17時24分 (#359495) ホームページ 日記
    性能見積なんて、運用環境でロードランナーやJTestなんかの負荷テストした結果をみて、数値をえいやーで決定するしかないと思うです。極めて根拠レス。

    テスト用の環境をいくら用意してても、ロードバランサなどのネットワーク構成、サーバ性能、OSの設定値とかが違っていれば全然当てにならないわけです。MaxConnectionCount数をApacheとTOMCATでそれぞれどう設定するか~みたいな微妙な問題もあるとききますし。
    #実際のところStrutsとかVelocityの負荷もよく分からんのよね

    最初に見切り発車したら、負荷の少ない深夜帯に負荷テストを『本番環境で』実施する羽目になるわけです(苦笑

    結論:サイトが死にかかってようやく意識する
    --
    ---- 何ぃ!ザシャー
  • by tux (14291) on 2003年07月15日 18時31分 (#359541)
    「システムはIBMと共同で構築したが、最初の1分間で10万ヒットのアクセスを記録し、
    システムの一部がダウン。その後手直しをして再度スタートしたが、ピーク時は1分間に
    40~50万ヒットを記録しており、これまでにない記録的なこととなった」だそうで。

    http://pc.watch.impress.co.jp/docs/article/20000218/ps2_2.htm

    ブロードバンドが高嶺の花だった当時、これだけのアクセスを予測することは無理だった
    んではないでしょうか。

    ソースが見つからないんですが、IBMの人もこれ以上のものは作れなかったらしいです。
    サーバー増強したのはそれからずっと後の事。

    …まぁトップページのFlashが500KBもあったのが原因という話もありますが。:-P
  • by usay (8) on 2003年07月15日 15時54分 (#359426) 日記
    根気よくやってるとアクセスできますよ。
    (もっとも、その所為で負荷かかってんだろうけど)
    3回やって、3回ともはずれた。パンダ欲しいわぁ。

    で、ゲーム中にもタイムアウトしたりするけど、
    次にアクセスしてもセッションがちゃんと残ってる。
    逆に怖いけどね。
    --
    May the source be with you... always.
    • by yasudas (5610) on 2003年07月15日 16時17分 (#359438) 日記
      コンピュータ使いに根気を求めるのが、そもそも
      間違っている様に思うんですけどね。不精・お手軽
      ちゃっちゃとでけへんと、客は離れていっちゃうみ
      たいですよ。いくつか例外はありますが、コンテンツ
      の良さやユニークさでそういったアクセス不良を招い
      ていても客がくるサイトもありますが、他に類例があ
      れば、そっちに客が逃げちゃうね。

      今回みたいに「ここでなければ出来ない」ってことで
      酷いことになるケースもあるし、「他でできないのだ
      から我慢してろ」ってな傲慢な態度だと、その商品に
      対しての購入意欲を失わせてしまって、最終的には損失
      になると思いますが...
      親コメント
    • by pantora (11989) on 2003年07月15日 21時37分 (#359693)
      >3回やって、3回ともはずれた。パンダ欲しいわぁ。

      同じアクセスコード方式のキリンの缶コーヒー『ファイア』
      のサイトで5回やって、3回当選しました。
      なんでしょうね。これって運じゃないですか?
      --
      PCにECC Registeredメモリの利用を推奨します。
      親コメント
  • by Anonymous Coward on 2003年07月15日 16時29分 (#359449)
    キリン関係ではないのですが…以前にこういうキャンペーンサイトの
    中身を見たことがあるのですが…アルゴリズムがアレすぎて仕様とは
    違う結果をたたき出したり、有名な方法でクラッキングが出来たりと、
    ひどい物でした。
    また、この生茶のサイトに関して、少なくともDNSレベルでは、負荷を
    分散しようとしている形跡は見えません。
    そんなわけで、本当にこれ、サーバ過負荷での話しなのか、少し疑いの
    目を持って見てるのですが…どうなのでしょうね。

    これに対して、cyberjapanの方はDNSレベルから負荷を分散しようと
    しているので、裏のつくりはともかくも、少なくとも、本当に過負荷
    っぽいぞっということはわかりますね。
    …まぁ当然ですか(笑
    • by Anonymous Coward on 2003年07月15日 16時40分 (#359463)
      DNSレベルで負荷分散すると分散対象が落ちた時にアクセス
      出来なくなる人が出てくるのが恐いんですよね。

      というわけでDNSでは分散せず箱モノのロードバランサを
      入れてやるところが殆どだと思いますよ。
      親コメント
      • by Anonymous Coward on 2003年07月16日 0時00分 (#359783)
        DNS負荷分散(ラウンドロビン)の弱点のもう1つは「正確に負荷分散されない」こと。

        例えば、サーバがAとBの2台あるとして、
        ロードバランサーならお互いの負荷を均等にできるけど、
        DNSだとラウンドロビンで交互に割り振られるだけなので、
        遅いクライアントが片方に集中してぶらさがったりすると、
        結果として全体のパフォーマンスがガタガタになったりする。
        つまり、パフォーマンスの見積もりができない。

        本当に高負荷なシステムにはDNSラウンドロビンは使いませんね。
        ロードバランサーはだてに高いわけじゃないんですよ。
        もしDNSラウンドロビンを安易に提案してくるベンダがあったらかなりヤヴァイかと。

        DNSに頼るのは本当にしょうもないor身内しか使わないようなシステムか、
        本当に予算がない時だけですね。
        親コメント
        • by Anonymous Coward on 2003年07月16日 2時55分 (#359830)
          ロードバランサ使ってましたがやめました。
          やめた直接の原因はトラフィック増えてロードバランサが過負荷になったためですが、よりパフォーマンスの高いロードバランサに買い換えるぐらいなら、その金でサーバ増やして処理量自体を増やしてDNSラウンドロビンにした方がマシという結論になりました。
          サーバ増やして処理量が増えれば、多少のアンバランスは問題無いですし、Xeon×2のサーバが何台も買えるような金出してロードバランサを入れても、結局処理量は増えないで、100%(に近く)処理できるようになるだけですから。

          >もしDNSラウンドロビンを安易に提案してくるベンダがあったらかなりヤヴァイかと。

          むしろ、安易にロードバランサを提案してくるベンダの方がヤヴァイですよ。
          単に単価が高いもの売りたいだけっていうような場合もあります。
          実際、ロードバランサを入れながらコケたサイトとかの情報を聞くと、サーバがコケるより前にロードバランサがコケたとかのマヌケな話も良く聞くし。
          私としてはロードバランサの(コストも含めた)有効性というのは疑問ですね。

          親コメント
  • by Anonymous Coward on 2003年07月15日 20時20分 (#359629)

    Playstation.comとかが落ちた時に素人なりに 考えたのですが、一ページ当たりに表示されるデータを 減らす事で、負荷が減るのではないですか。

    落ちるのが予想されたりする場合は、画像とかFlashを ばしばし使うのをやめて、テキスト主体で作っておくと、 良いと思ったのですが。

    • 酔っぱらいの戯言だが。

      Flashで登録シーケンス全部作ってゆっくり書かせて、バックエンドで待ち行列制御しつつ適度に送る(P2Pソフトとかであるやつ)ようにすれば、設計値通りのアクセスしか発生しないし、待ち行列の数見て適切増強できる。最初のFlashはCDN業者使って処置。

      なんてのはダメ?
      ダメだ、呑み直そう。
      親コメント
    • IMG タグやら OBJECT タグやらがあるたびにクエリーを飛ばす HTML ページよりは、意外と Flash だけで作っちゃったページの方が負荷は減るのかもしれません。

      ほんとうにテキストだけにしちゃうのが一番軽いんでしょうけどね。

      --
      むらちより/あい/をこめて。
      親コメント
      • by Anonymous Coward on 2003年07月16日 1時32分 (#359814)
        >ほんとうにテキストだけにしちゃうのが一番軽いんでしょうけどね。

        9.11の時、cnn.comがトップページを一時的にテキストオンリーに切り替えましたよね(確か)。

        緊急時は、案外こういう単純な方法の方が良いのかもしれない。
        親コメント
        • by Anonymous Coward on 2003年07月16日 3時50分 (#359833)
          ですね。最近のサイトはダイナミックにページを作ってると
          思いますが、これを静的なファイルに切り替えればそれだけで
          10-100倍はいけます。それでも来るなら(まだしてなかったと
          して)画像だけ外に配置して、本体コンテンツはテキスト
          オンリーにすればさらに-10倍(どれくらい画像を使っていたか
          次第)、で、これで情報の伝達だけは少なくともできるはず。

          後は同時並行的にサーバー(と設置場所)増やしたり、DNS設定
          追加したり…でしょうか。激しく外した場合は台数だとか
          回線とかの物理資源が完全にボトルネックになるので手当てできる
          体制がなければ途中でお手上げでしょうね。

          受付系だとどうしてもダイナミックにせざるをえませんが、
          それもリアルタイムで処理しないでファイルシステム上に
          作った臨時キューとかに生リクエストをひたすら貯めるだけに
          して、「受け付けただけ - 結果は後日」状態にするように
          簡略化してしまえば臨時対策でも結構持ちます。

          しかし問題はこれをするかどうかの政治的判断で、CNNの場合は
          即断できる人がいたか体制が整っていたのかなと思われます。

          以前 CNN の人が発表した 9/11 の時のレポートのソースを
          なくしてしまいましたが、聞いていた人のレポート [clock.org]が資料として参考になります。アクセスが殺到し始めて8万ヒット、そして倍倍で記録更新を重ねて111万ヒット/分というのは凄すぎる…
          親コメント
  • Playstationなど他の件はともかく「生茶」の場合、製品に貼付して
    出荷している「シールの枚数」は限られていますよね。

    同様の過去のキャンペーンでの実績値もあるだろうし、大まかに
    どのくらいのアクセスが見込まれるのか、くらいは算出できそうな
    気がするんですが…。
  • by TxG (7966) on 2003年07月16日 5時53分 (#359844)
    まだこの話題が出てませんね。

    日本に限定するとにちゃんねるで祭られたとかなんでしょうかね。

    サーバ管理者の皆様、ご苦労様です。。。
  • by yatobi (7117) on 2003年07月16日 15時16分 (#360118) 日記
    サーバーを一度飛ばしておけば、余計に見たがる人が…
    ニュースサイトなんかで、タダで宣伝してもらえるし

    かつて某大手ゲーム機器メーカーが自社製品の販売で散々使った手口だよね…焦らし
    --
    # 爆言のち漏電中… :D
  • by tantanntan (16964) on 2003年07月16日 19時13分 (#360218)
    予想も大事だけど、増強する基準を(アクセス数とかCPU利用率とか)決めておくに超したことはないですね。 アクセス過多でいざサーバ増強!となっても肝心なハードが、納品に1ヶ月だったりすると泣けてきます。
typodupeerror

長期的な見通しやビジョンはあえて持たないようにしてる -- Linus Torvalds

読み込み中...