ページ内ジャンプ:

アレゲなニュースと雑談サイト

hylomによる 2008年06月03日 13時38分の掲載
質より量部門より。

あるAnonymous Coward 曰く、

Googleのデータセンターは全世界に36あると言われているが、その一部を同社のJeff Dean氏がサンフランシスコで開催された同社のI/Oカンファレンスで明らかにしてくれた(本家/.記事より)。


Dean氏は「より信頼できるハードウェアを一定数揃えるより、それより信頼性は劣るかもしれないハードウェアを2倍の数揃える方がよいと我々は考えている」と発言し、「信頼性はソフトウェアのレベルで提供するべきである」との考えを明かした。「1万台のマシンが動いているとすれば、毎日何かがダウンするに決まっている」からである。


(つづく...)

ハードウェアを当てにできないのは、新規にクラスタを稼働させるときの状況をみれば明らかだそうで、Googleのクラスタはおよそ1800台のサーバから構成されているが、稼働開始年度の典型的なケースでは、1,000件の個別のマシン障害が発生し、ハードディスクドライブの障害は何千件という単位になるそうだ。もし配電ユニットが1つダウンすることにより500~1000台のマシンが6時間ほど落ち、20台のラックが駄目になり、40~80台程のマシンがダウン毎にネットワークから消える。5台程のラックは「不安定」になり、ネットワークパケットが半分ほど消滅したりする。クラスタを再配線する必要が1回は発生し、2日間に渡って5%のマシンに影響を及ぼす。また、約50%の可能性でクラスタのオーバーヒートが発生し、発生の際はほぼ全てのサーバが5分以内ダウン、リカバリに1~2日かかるという事態が発生するとのこと。


Googleはサーバのハードウェア・コンポーネントには汎用のものを使用しているが、パッケージに関しては独自なものを採用しているそうだ。回路基盤はIntelがGoogleのためにカスタム設計したものを使用しており、各サーバのケースは使用せず、サーバが40台設置されたラックを覆う独自のケースを設計・採用している。Cnet News Blogの元記事にてGoogleデータセンター内の写真が数点紹介されている。

この議論は賞味期限が過ぎたので、保存されている。 新たにコメントを書くことはできない。
表示オプション しきい値:
  • akiraani (24305) : 2008年06月03日 16時08分 (#1355514) 日記
    ためしに、信頼性の高いサーバ10台と信頼性の低いサーバ20台で、MTTR(平均修理時間)が固定の場合に、MTBFの差がどれくらい吸収されるのか簡単に試算してみました。

    ひとまず、MTTRがどちらも1日、信頼性の高いサーバのMTBFが300日であると仮定します。
    このとき、信頼性の高いサーバ10台の故障率は1.63808E-25となります。
    サーバ20台で上記と同等かそれ以下の故障率を実現する場合に、信頼性の低いサーバに必要なMBFTは

    16.4日

    になります。
    つまり、この場合、ハード台数が2倍確保できるのであれば、信頼度は1/18でよいということになりますね。

    #なお、同じ条件でMTTRが2日だったとすると、必要MTBFは22.5日に、逆にMTTRが0.5日だと、11.8日になりました。
    --

    //ソリッドファイター完全版 [fukkan.com]復刊賛同者募集中/

  • なるほど... (スコア:3, おもしろおかしい)

    Anonymous Coward : 2008年06月03日 13時56分 (#1355392)
    信頼性は劣るかもしれない"技術者"を餌で釣って2倍の数をそろえた方が、結果的に何かいいものが出来上がるのか...
    • Re:なるほど... (スコア:5, すばらしい洞察)

      Ryo.F (3896) : 2008年06月03日 14時01分 (#1355400) 日記
      一般にそうでないことは、人月だけそろえて突っ込んでもデスマーチが解決しないことで証明済みだ。
      • The Inelegance (29334) : 2008年06月03日 14時21分 (#1355419) ホームページ 日記
        Google自身の人員構成ピラミッドってどうなってるんでしょうね。
        人集めという点では成功している様に見えますけど、やっぱり化け物クラスの人間でも集めると怠け者と働き者に分かれるんでしょうか。
        (ついでにいうと怠け者が弾かれるかどうかについても)

        #知っている人に飛び込んでいったけど弾かれた人連れ去られた人飛び込もうとはしなかった人がいるけど、
        #あえて各個人の実際の能力がどうかは触れないでおこう…。
        ##Googleスゲェよ、やっぱり
        --
        =-=-= The Inelegance(無粋な人) =-=-=
      • Re:なるほど... (スコア:5, おもしろおかしい)

        Anonymous Coward : 2008年06月03日 16時56分 (#1355551)
        「船頭を増やせば、船を山に登らせる事だってできるんだ!」
      • 2個のコメント が現在のしきい値以下です。
    • Re:なるほど... (スコア:5, すばらしい洞察)

      ots556556 (34248) : 2008年06月03日 15時31分 (#1355480)
      ところがどっこい、クラスタを構成するサーバのうち10%が落ちてる状況のことは「90%のサーバが稼動しています」と言えるけど、
      ソフトウェアのソースコードのうち10%がバグだらけの状態は「このソフトウェアは使い物になりません」としか形容できないわけですよ。
    • Anonymous Coward : 2008年06月03日 14時19分 (#1355414)
      >「信頼性はソフトウェアのレベルで提供するべきである」

      って言ってるし、それらを束ねる上役の力量が問題になるんじゃないかな?

      #結論は非現実的
    • Re:なるほど... (スコア:4, おもしろおかしい)

      L.Entis (21733) : 2008年06月03日 15時46分 (#1355496) ホームページ 日記
      この場合の信頼性というのは、「技術者」に例えるなら、離職率(離職しない率)に相当する数量では?
      つまり、技能が同じで離職率の異なる(離職率に応じて初期投資も異なる前提で)技術者を用意するなら、離職率の高い技術者を安く大量に用意したほうがよい、という話になるのでは?

      というわけで、ハードほど技術者は離職率によってお値段が違うとは思えないので、あまり良い例えではないような気もします。
      (逆に、凄く良い例えだ、と思ってる人もいたりして…)

      --
      Leshade Entis
    • Re:なるほど... (スコア:2, すばらしい洞察)

      phenix (31258) : 2008年06月03日 14時19分 (#1355413) 日記
      コンピュータは思考しませんからね。
      ほかの業界だと、国内に量産工場を1棟建てるより、同じコストで中国に2棟建てた方が、
      不良品を除いてもたくさん作れますね。ってところでしょうか。
    • 4個のコメント が現在のしきい値以下です。
  • アプリに依るでしょ (スコア:2, すばらしい洞察)

    chu-chu (7456) : 2008年06月03日 15時06分 (#1355460)
    検索エンジンなんて、10台に1台壊れても結果に影響ないからなあ。
    そういう「ゆるい」アプリがGoogleのコアビジネスを占めているから、
    Googleはそれで成り立つし、他の業界ではそうはいかない。
  • 東郷平八郎 [togo.co.jp]提督は百発百中の砲一門 [php.co.jp]は百発一中の砲百門に勝るといっていました。
    • Anonymous Coward : 2008年06月03日 19時44分 (#1355722)
      いや、単にバカが一定数居ただけ。

      百発百中なんて未だにどこも実現出来てませんよ。

      ってか、そもそもは兵站で既にボロボロ状態で有るのを糊塗してただけだし。

      何となく司馬遼太郎がチハ車を褒めてたのを思い出した。
      機械としては天下一品で世界中の何処に出しても恥ずかしくない。
      問題はたった一つ「戦争に使えないだけ」ってのを。

      同様に日本陸軍自体も戦争さえしなきゃあ、それなりの物だとは思う。
      精神論もボーイスカウトだと思えば好ましい向上心とも思える。

    • 7個のコメント が現在のしきい値以下です。
  • スラド編集者曰く (スコア:2, おもしろおかしい)

    Anonymous Coward : 2008年06月03日 16時21分 (#1355529)
    「コメントの信頼性は劣るかもしれない人間を2倍の数揃えてもただただ面倒なだけだ」
  • 3の倍数だと阿保 [atsumu-watanabe.laff.jp]になるのが実証されたんだろうか?
  • より信頼できるハードウェアを一定数揃えるより、それより信頼性は劣るかもしれないハードウェアを2倍の数揃える方がよいと我々は考えている
    信頼性が1/2より大きいなら、そんなの当たり前じゃん…と思ったけど、実際はそうではない。

    1万台のマシンが動いているとすれば、毎日何かがダウンするに決まっている
    ので、障害が発生したら、おそらく人手でそれに対処しなければならない。高信頼性ハードウェアを使おうが、「それより信頼性は劣る」ハードウェアを使おうが、いずれにせよ結局障害対応要員が常駐している必要がある。
    障害対応要員が倍になるようでは話にならんでしょうけど、そんなことにはならない、ってことなんだろうね。
  • 液晶ディスプレイとか。
    信頼性というよりは性能の話ですが。
    --
    =-=-= The Inelegance(無粋な人) =-=-=
  • 人も・・ (スコア:1, おもしろおかしい)

    Anonymous Coward : 2008年06月03日 14時25分 (#1355423)
    「より信頼できる技術者を一定数揃えるより、それより信頼性は劣るかもしれない技術者を2倍の数揃える方がよいと我々は考えている」
    「○○人の技術者が働いているとすれば、毎日何人かがダウンするに決まっている」
  • ksiroi (24990) : 2008年06月03日 15時00分 (#1355453) 日記
    一番ベストなのは信頼できるハードウェアを一定数の二倍揃えることだと思いますけどね。
    現実はそう行かないのでしょうし、そうできるようにソフトウェアの改善も行っているでしょうけど^^;

    // 初期予算、だけでなく保管とか管理の問題があるんですね・・・(:>^
  • どっかで聞いたことがあるな~とおもったら・・・

    丸山先生のレクチャーシリーズ Podcasting
    http://satellite.wakhok.ac.jp/podcast/xml/maruyamalecture.xml [wakhok.ac.jp]

    ここでした。たしか「Googleの分散処理技術」とかのトピックだったとおもうのですが。
    上記のPodcastでは、その内容を時間を割いてわりと詳しく説明してました。

    Podcastなんで、写真とか現物を見たわけじゃないですし、話だけ出だと「?」な部分もありますけど。

    最初は「見える化」のトピックで聞き始めて、色々面白い内容があるので、たまに聞いてる。

    #すでに紹介されていたら失礼いたしました・・・
  • 「信頼性はソフトウェアで確保するべきもの」…この言葉は、身も蓋もない「ホントウのところ」を突いていると感じました。

    障害、エラー、誤操作などなど、こういった事象に対して対処することを避けていないソフトウェアを生産することに「対価」を支払わないことが問題の根源かもしれません。
    信頼や品質は作りこんでいくもので、なにか良さそうなものをカタログ閲覧して購入・配備すればすむ「保険」ではありませんし、大事なことについては昔と変わらずに作りこんでいくことでこそ利用者は満足を得るものでしょう(一番いいのは、利用者も作りこみのために手と頭を働かせるケースでしょうか)。
    企業や公共が使用しているシステムたちは、損失・損害を保険でカバーすれば許してもらえるような周辺的な存在ではなくなっていますよね?であるならば、利用者がまず作りこみの為に手を動かすのでなければ、ナニをもって「信頼に足る」とするのでしょうか?

    作りこむことの大事さ・高い価値を、ユーザに得心させる(教育する)ことが大切になってきているように思います。
    (そして、システム開発を土木工事同様のフォーマットやフローで管理したいなどという怠惰さ(思い上がりか?)を駆逐できれば…とも)
    • 障害、エラー、誤操作などなど、こういった事象に対して対処することを避けていないソフトウェアを生産することに「対価」を支払わないことが問題の根源かもしれません。

      はて、そうでしょうか??

      Googleはハードウェアを動かせる限り連続して動かしているとは思えません。各機械は、定期的に止めて、ヘルスチェックをかけているはずです。全体がいっせいに停止することはない、というだけで。

      と言うことは、ソフトウェアもその「一定期間」さえ動作すればよい、という風に作っているはずです。ジョブのtakeoverがきちんとデザインされているだけで。つまり長期間運用しないと発生しないようなエラーについては、最初からエラー処理など書いていないはずです。

      その分を分散処理と、冗長化を実装するのに割いているのだと思いますよ。
      --
      fjの教祖様
  • 信頼性が高いPCというのは故障発生率が低いPCの事を指していて、
    信頼性が低いというのはその逆です。

    信頼性と計算結果は何の関係も無いですが、
    コスト(要するに値段)は概ね桁違いになります。

    そしてPCはいつどの程度かは判りませんが、でも確実にどこかが故障します。
    なので台数が多くなるほど、全体としての稼働率はどんどん下がります。
    その稼働率をどうやったら高くできるか、というのが話の筋ですよね。

    日本ではまだまだ言葉だけで馴染みの無いリスクマネジメントの観点から言えば
    至極当然な事を言っているなあと思いましたが、
    あれ?と思うことをおっしゃる方が多いのに驚きました。

    製造業に関わった事がある方なら99.9%がどれだけ途方も無い数字なのか感覚的にわかると思いますが。
  • 信頼性はソフトウェアのレベルで提供するべきである
    巻き戻しを許容できるシステムならそれでいいけど、巻き戻し厳禁なシステムだと
    フェールオーバー仕込むの自体に四苦八苦してる局面を、あちらこちらで見かけるような・・・
  • 下手にラックマウントサーバ買わずに、
    ゲーム用デスクトップPC、インターネット/メール用PC、外出用PC、
    仕事用PC、OS検証用PC1,2,…、おもちゃ用Eee-PC。
    と言うことですね。わかります。

    クラスタ化すればそれなりの性能は出るかもしれません。
    …ラックマウントサーバをガンガン買ってる猛者もいますけど…。
  • んでもってソフトの方にこそ金掛けろと。
    でもそんな事改めて言われなくてもPCパーツの値段、及びそれらの
    ベンチマークスコアを照らし合わすのに慣れっこの聴衆ばかりでは・・・

    #そして解ってても高い方に惹かれてしまうのが僕等さ!
    #そしてハードにのみ金を掛けソフトには一切金を払わないのがDSゆーうわなにをするやめr
  • Ryo.F (3896) : 2008年06月03日 14時41分 (#1355436) 日記
    二二倍倍はは二二倍倍用用意意ししなないいのの??
  • >アホになるプログラム

    ぬるぽで落ちるとか?
    --
    Just a whisper. I hear it in my ghost.
  • Re:2の倍数でよくって (スコア:5, おもしろおかしい)

    shiroiwanisan (12855) : 2008年06月03日 15時33分 (#1355483) 日記
    printf("1\n2\nアホ\n4\n5\nアホ\n<途中省略>98\nアホ\n100\n");

    いえ、最近書いてるプログラムって、ほぼこれと同等なことばっかりやってるので、
    つい。

  • # 消耗品による安定稼動のキモは、こまめな交換ってことか。

    真空管時代の計算機みたいですなあ。

  • Re:2の倍数でよくって (スコア:2, おもしろおかしい)

    Anonymous Coward : 2008年06月03日 16時09分 (#1355517)
    >プログアムがアホになるんですか?

    4文字目でアホになってますが……?
  • Re:普遍化しすぎ (スコア:5, すばらしい洞察)

    tyuu (9154) : 2008年06月03日 17時07分 (#1355560) ホームページ 日記
    > 信頼性が1/2のものを倍搭載しようとしますか?

    なぜ、信頼性が 1/2 って話になったのでしょうか?

    信頼性が 99.99% のものを 1 個揃えるんだったら
    信頼性が 99.9% のものを 2 個揃えろって話でしょう。
    # 精度を求めれば、金額が跳ね上がります。

    そして、至らないところは、ソフトでカバーするという話だと思います。

    > たとえば銃器の場合に命中率で、狙撃用と制圧用ではそれぞれ要求されるレベルは違って当然と私は思いますが?

    下記のライフルがあるとして、
     命中精度が 90% のライフル A
     命中精度が 80% のライフル B

    命中精度が 80% のライフルを 2 倍揃え、
    命中精度が低い事を補える作戦を用意する方が、
    目的を達成し易いという事でしょう。
  • shiragaoyadi (27158) : 2008年06月03日 18時00分 (#1355599)
    日本の場合すぐ価格二分の一、故障率2倍という論理が生まれる。
    世の中には価格1/5故障率20%ダウンなんて代物は山のようにある。
    しかも重量が1/3だったりすると、安い方を2台付ける、というのはありだと思うのだが、
    日本ではこれが通らない。

    昔は、放送局もそうだった。
    12年ほど前に米国のNBC本社の見学に日本のプロダクションや放送局の
    ツアーで行った。
    入る前は、日本にないような最新の設備を期待して入ったのだが、
    副調整室の一部には驚くような機器もあるが、
    大半は日本ではもう見られなくなったような機器もごろごろ。
    同行の面々は、日本の機器は米国を超えている!と自信満々だったが・・・
    信頼性とコストをバランスにかけているだけだと思った。

    現在も日本の医療はそう。
    おかげで海外の数倍の価格の物が今だ横行している。
    もちろん定価はそのX倍。
    ここ数年でずいぶんまともになったが、
    商習慣の違いを割り引いても、日本の信頼性信仰は高すぎ。

    もちろん安かろう悪かろうが世の中には多いわけで、
    予め充分選別しての話だが。
  • moci (11748) : 2008年06月04日 2時08分 (#1355989) 日記

    メインフレームなんざとは違い、信頼性が売りになるようなPCサーバがあるわけじゃない、という現実に即した解だと思う。

    フォルトトレラントサーバというものがあります。中身にPCサーバ二個分の部品を抱え込んで、障害に備える仕組みがあらかじめ備わっているような代物だったりします。

    もちろん、値段は倍ではききませんし、Googleのようにそもそも膨大な台数でクラスタにする前提なら、そんなところにコストをかけるよりも、その分台数を増やして、自前で対処した方がよいというのは当然ですね。

  • パイロット(Googleではソフトウェア)の事が抜けてます。
    オールドタイプの乗ったガンダム一機より、ニュータイプの乗ったザク3機のほうが強いって事ですよ。
  • USH (8040) : 2009年08月11日 20時18分 (#1621110) 日記

    ># 神様も2倍ね
    昔々、やまとの人たちはその計算を重ねて、八百万にまでかさ上げしましたとさ。

    日本やギリシャ・ローマあたりだと安心して神はふやせますが、エルサレム近辺出身の神だと、ハルマゲドンになりかねないので、やめましょう。

  • 7個のコメント が現在のしきい値以下です。