ページ内ジャンプ:

アレゲなニュースと雑談サイト

hylomによる 2008年06月03日 13時38分の掲載
質より量部門より。

あるAnonymous Coward 曰く、

Googleのデータセンターは全世界に36あると言われているが、その一部を同社のJeff Dean氏がサンフランシスコで開催された同社のI/Oカンファレンスで明らかにしてくれた(本家/.記事より)。


Dean氏は「より信頼できるハードウェアを一定数揃えるより、それより信頼性は劣るかもしれないハードウェアを2倍の数揃える方がよいと我々は考えている」と発言し、「信頼性はソフトウェアのレベルで提供するべきである」との考えを明かした。「1万台のマシンが動いているとすれば、毎日何かがダウンするに決まっている」からである。


(つづく...)

ハードウェアを当てにできないのは、新規にクラスタを稼働させるときの状況をみれば明らかだそうで、Googleのクラスタはおよそ1800台のサーバから構成されているが、稼働開始年度の典型的なケースでは、1,000件の個別のマシン障害が発生し、ハードディスクドライブの障害は何千件という単位になるそうだ。もし配電ユニットが1つダウンすることにより500~1000台のマシンが6時間ほど落ち、20台のラックが駄目になり、40~80台程のマシンがダウン毎にネットワークから消える。5台程のラックは「不安定」になり、ネットワークパケットが半分ほど消滅したりする。クラスタを再配線する必要が1回は発生し、2日間に渡って5%のマシンに影響を及ぼす。また、約50%の可能性でクラスタのオーバーヒートが発生し、発生の際はほぼ全てのサーバが5分以内ダウン、リカバリに1~2日かかるという事態が発生するとのこと。


Googleはサーバのハードウェア・コンポーネントには汎用のものを使用しているが、パッケージに関しては独自なものを採用しているそうだ。回路基盤はIntelがGoogleのためにカスタム設計したものを使用しており、各サーバのケースは使用せず、サーバが40台設置されたラックを覆う独自のケースを設計・採用している。Cnet News Blogの元記事にてGoogleデータセンター内の写真が数点紹介されている。

関連ストーリー

この議論は賞味期限が過ぎたので、保存されている。 新たにコメントを書くことはできない。
表示オプション しきい値:
  • akiraani (24305) : 2008年06月03日 16時08分 (#1355514) 日記
    ためしに、信頼性の高いサーバ10台と信頼性の低いサーバ20台で、MTTR(平均修理時間)が固定の場合に、MTBFの差がどれくらい吸収されるのか簡単に試算してみました。

    ひとまず、MTTRがどちらも1日、信頼性の高いサーバのMTBFが300日であると仮定します。
    このとき、信頼性の高いサーバ10台の故障率は1.63808E-25となります。
    サーバ20台で上記と同等かそれ以下の故障率を実現する場合に、信頼性の低いサーバに必要なMBFTは

    16.4日

    になります。
    つまり、この場合、ハード台数が2倍確保できるのであれば、信頼度は1/18でよいということになりますね。

    #なお、同じ条件でMTTRが2日だったとすると、必要MTBFは22.5日に、逆にMTTRが0.5日だと、11.8日になりました。
    --

    //ソリッドファイター完全版 [fukkan.com]復刊賛同者募集中/

  • >信頼性の高いシングル構成より、信頼性の機械を冗長構成にしたほうが
    >信頼性は高くなると言うのならわかります。

    あー、さっきの計算は「信頼性の高いマシン10台による冗長構成と信頼性の低い20台のマシンによる冗長構成の比較」です。

    0.306ってのはMTBFが16.4日、MTTRが1日のマシン20台が同時にすべて稼動している確率で、私が計算してたのは20台すべてが故障している確率ですね。

    ついでに、平均稼働台数も出しておきましょうか。

     信頼性の高いサーバ10台:10×300/301=9.97
     信頼性の低いサーバ20台:20×16.4/17.4=18.85

    #元になる台数が倍違うわけですから、比較する意味はあんまりありませんが
    --

    //ソリッドファイター完全版 [fukkan.com]復刊賛同者募集中/

  • なるほど... (スコア:3, おもしろおかしい)

    Anonymous Coward : 2008年06月03日 13時56分 (#1355392)
    信頼性は劣るかもしれない"技術者"を餌で釣って2倍の数をそろえた方が、結果的に何かいいものが出来上がるのか...
  • Re:なるほど... (スコア:5, すばらしい洞察)

    Ryo.F (3896) : 2008年06月03日 14時01分 (#1355400) 日記
    一般にそうでないことは、人月だけそろえて突っ込んでもデスマーチが解決しないことで証明済みだ。
  • The Inelegance (29334) : 2008年06月03日 14時21分 (#1355419) ホームページ 日記
    Google自身の人員構成ピラミッドってどうなってるんでしょうね。
    人集めという点では成功している様に見えますけど、やっぱり化け物クラスの人間でも集めると怠け者と働き者に分かれるんでしょうか。
    (ついでにいうと怠け者が弾かれるかどうかについても)

    #知っている人に飛び込んでいったけど弾かれた人連れ去られた人飛び込もうとはしなかった人がいるけど、
    #あえて各個人の実際の能力がどうかは触れないでおこう…。
    ##Googleスゲェよ、やっぱり
    --
    =-=-= The Inelegance(無粋な人) =-=-=
  • むしろ、火に油
  • soramade (23252) : 2008年06月03日 14時24分 (#1355422)
    作業と開発を同列に考えちゃいけませんぜ、旦那。
  • Re:なるほど... (スコア:5, おもしろおかしい)

    Anonymous Coward : 2008年06月03日 16時56分 (#1355551)
    「船頭を増やせば、船を山に登らせる事だってできるんだ!」
  • メフメト2世乙
  • Re:なるほど... (スコア:5, すばらしい洞察)

    ots556556 (34248) : 2008年06月03日 15時31分 (#1355480)
    ところがどっこい、クラスタを構成するサーバのうち10%が落ちてる状況のことは「90%のサーバが稼動しています」と言えるけど、
    ソフトウェアのソースコードのうち10%がバグだらけの状態は「このソフトウェアは使い物になりません」としか形容できないわけですよ。
  • Anonymous Coward : 2008年06月03日 14時19分 (#1355414)
    >「信頼性はソフトウェアのレベルで提供するべきである」

    って言ってるし、それらを束ねる上役の力量が問題になるんじゃないかな?

    #結論は非現実的
  • Re:なるほど... (スコア:4, おもしろおかしい)

    L.Entis (21733) : 2008年06月03日 15時46分 (#1355496) ホームページ 日記
    この場合の信頼性というのは、「技術者」に例えるなら、離職率(離職しない率)に相当する数量では?
    つまり、技能が同じで離職率の異なる(離職率に応じて初期投資も異なる前提で)技術者を用意するなら、離職率の高い技術者を安く大量に用意したほうがよい、という話になるのでは?

    というわけで、ハードほど技術者は離職率によってお値段が違うとは思えないので、あまり良い例えではないような気もします。
    (逆に、凄く良い例えだ、と思ってる人もいたりして…)

    --
    Leshade Entis
  • Re:なるほど... (スコア:2, すばらしい洞察)

    phenix (31258) : 2008年06月03日 14時19分 (#1355413) 日記
    コンピュータは思考しませんからね。
    ほかの業界だと、国内に量産工場を1棟建てるより、同じコストで中国に2棟建てた方が、
    不良品を除いてもたくさん作れますね。ってところでしょうか。
  • 信頼性はソフトウェアのレベルで提供するべきである」

    とありますので、

    信頼性は劣るかもしれない"技術者"を餌で釣って2倍の数をそろえた方が、結果的に何かいいものが出来上がる
    というこれが実現するためには、技術者を釣った後、信頼性をもたらすような概念で洗脳する必要があるのです。

    # ちっ、セルゲイとブリンの奴、俺の戦略に気がついたな…
    --
    fjの教祖様
  • しまった、オチで名前を間違えてどうする…
    --
    fjの教祖様
  • yasudas (5610) : 2008年06月03日 15時03分 (#1355455) 日記
    >信頼性は劣るかもしれない"技術者"

    技術者の信頼性は測定が難しいし、時間もかかる。
    一人優秀なのがいれば、それにやらせたらよいので、多数揃えてアタリを引くまで使い倒す。

    しかし、アタリを引いても使い倒してしまうので、数を揃えても...

  • 開発の冗長化ということで二倍の人員を出せるなら、2チームそろえて同じ物を作らせるのが良いのではないかな。
  • nim (10479) : 2008年06月04日 0時36分 (#1355942)
    違います。
    1日に20時間働かせるよりも、10時間働かせる「技術者」を2人交代で使った方が
    効率がよいという意味です。
  • motamota (30138) : 2008年06月03日 15時25分 (#1355474)
    ちゃんとしたマネージャーを雇うべきでしょうね。

    優秀な技術者を2人以上は集められません、じゃ困ってしまいます。
  • 宗教論争を始めるだけで一向に作業なんか進みゃしない。

    優れた技術者を退屈させてはならない、ってだけでは??

    素直に作業に従事してくれます。

    「作業」に「従事」する段階ですでに優れた技術者は不要だと思う。彼らは「作業」なんぞという退屈なものに「従事」しないためならば死力を尽くすからこそ「優れている」のだから。
    --
    fjの教祖様
  • アプリに依るでしょ (スコア:2, すばらしい洞察)

    chu-chu (7456) : 2008年06月03日 15時06分 (#1355460)
    検索エンジンなんて、10台に1台壊れても結果に影響ないからなあ。
    そういう「ゆるい」アプリがGoogleのコアビジネスを占めているから、
    Googleはそれで成り立つし、他の業界ではそうはいかない。
  • attu (959) : 2008年06月03日 15時36分 (#1355487)
    なんで?
    確かにGoogleのサーバの10分の1が故障してもGoogleの検索結果には影響ないでしょう。
    でも10分の1壊れてても全数正常に動いてても出てくる検索結果は同じはずですよ。
    壊れた10分の1だけイイカゲンな結果出してもGoogleなら許されるよね、って言いたい?

    少々ハードウェアが壊れたぐらいでは処理の結果に影響が出ないようにシステムを作った
    方がよいですよ、って話だと思いますが。
  • 90 (35300) : 2008年06月03日 16時57分 (#1355553) 日記
    検索に使うDBは少なくとも国ごとにひとつまでしか分割できませんし、求められるサービスの
    信頼性は少なくとも内部では銀行並みでしょう。「Googleが落ちた」とか「検索が壊れた」と言う話は
    聞きませんし。
  • chu-chu (7456) : 2008年06月03日 18時11分 (#1355607)
    別に国ごとに一つのDBを持つ必要は無く、
    埼玉県と千葉県に、適当な頻度で同期する程度のDBを独立に立てても構わないですね。
    商取引のように常に一貫性を維持する必要がないのですから。
    埼玉県と千葉県で検索結果の50位と51位が引っ繰り返って目くじらを立てる人はそうはいませんし、
    インパクトのある1位や2位の結果なんて、同期の間の短い間でそうそう入れ替わるものじゃありません。
    たとえ入れ替わったとしてもその影響はたかが知れてます。

    内部で銀行並みの信頼性があるかなんて私は答えることはできませんが、
    銀行並みの信頼性を実現するのは過剰要求であり、予算の無駄だというのは想像できると思います。
  • Googleが検索だけやってたのはもう何年も前で、
    今は「データ消えちゃった、またクロールしてこよ」
    では済まないデータも抱えていると思います。
    Gmailのデータとか。
    --
    yppts.dyndns.orgが仮復旧しました。
    今後の見通しは非常に不透明です。
  • 東郷平八郎 [togo.co.jp]提督は百発百中の砲一門 [php.co.jp]は百発一中の砲百門に勝るといっていました。
  • その東郷さんは、百発二中の砲100門に新兵100人、百発一中の砲100門に経験豊かな兵士100人ではどちらを選ぶだろう。

  • 確率論が意味を持たない戦いの局面というのは存在しますから、
    百発百中の砲の価値というのは確かに存在すると思います。
    冗長性で担保できる問題との区別が戦略というものですよね。
  • >百発百中の砲一門は百発一中の砲百門に勝るといっていました。

    勝るではなく、対抗しえると言っていたと記憶している。

    東郷さん海軍だからね。
    艦砲射撃って、当時の技術では命中率は低かったらしいね。
    なので、連射性向上や多砲塔化で苦労したみたい。
    対馬海戦(日本海海戦)では、斉射戦術とか火薬とか信管とか色々と工夫していたらしい。
    命中精度をあげるのと同じく同時に多数砲弾を浴びせるということをやっていたね。

    つまりは持っている武器の精度の向上もしていたけど、一発の威力の向上、一斉に使って威力を増すという方法も彼は採用していたわけです。

    なんか、負荷分散しているサーバの一台ずつを高可用性にして、パフォーマンスもあげて、それを並べて対抗するってことみたいな...

  • 命中率1%の砲100門のうち少なくとも1門が目標に命中する確率は
    1-(0.99)^100=0.63
    と案外低いので、そううまくはいきません。所謂確率のトリックですね。

    氏の発言はあながち間違いではないかもしれません。

    もっとも100門で撃った後に99門で撃った場合の命中率は0.86、
    さらに98門で撃ったら0.95になるので、せいぜい2射か3射が限界ですが。

    あとは確率論でなく戦術・戦略しだいですかねぇ...

    #たとえば1射目が旗艦の艦橋を直撃したら...
  • Anonymous Coward : 2008年06月03日 19時44分 (#1355722)
    いや、単にバカが一定数居ただけ。

    百発百中なんて未だにどこも実現出来てませんよ。

    ってか、そもそもは兵站で既にボロボロ状態で有るのを糊塗してただけだし。

    何となく司馬遼太郎がチハ車を褒めてたのを思い出した。
    機械としては天下一品で世界中の何処に出しても恥ずかしくない。
    問題はたった一つ「戦争に使えないだけ」ってのを。

    同様に日本陸軍自体も戦争さえしなきゃあ、それなりの物だとは思う。
    精神論もボーイスカウトだと思えば好ましい向上心とも思える。

  • 別の流れでも投稿したことと重複するけどね。

    >最初の一斉射で百発百中の砲一門が百発一中の砲百門のどれかに破壊されて

    日本海海戦の時代、古き良き流れからか、砲撃のターゲットは相手艦船の司令塔なんです。
    当時は命中精度が低かったのですが、船の揺れで砲塔の上下誤差が大きいため、高い所を
    狙った方がよいという理由もあるそうです。
    砲塔部分は作りも頑強で(中には爆裂弾とか入っています)当時の砲(貫通能力主流)では、
    貫通できないため、狙わないというのもあったそうです。

    >二斉射以降フルボッコでおしまいということになります...

    砲の能力としては連射(速射)能力と遠方射撃能力も重要です。
    百発百中で遠方からバンバン撃って相手を殲滅、こちらは無傷ってのがありそう。
    大鑑巨砲主義のひとつの理想ですね。

  • スラド編集者曰く (スコア:2, おもしろおかしい)

    Anonymous Coward : 2008年06月03日 16時21分 (#1355529)
    「コメントの信頼性は劣るかもしれない人間を2倍の数揃えてもただただ面倒なだけだ」
  • 3の倍数だと阿保 [atsumu-watanabe.laff.jp]になるのが実証されたんだろうか?
  • より信頼できるハードウェアを一定数揃えるより、それより信頼性は劣るかもしれないハードウェアを2倍の数揃える方がよいと我々は考えている
    信頼性が1/2より大きいなら、そんなの当たり前じゃん…と思ったけど、実際はそうではない。

    1万台のマシンが動いているとすれば、毎日何かがダウンするに決まっている
    ので、障害が発生したら、おそらく人手でそれに対処しなければならない。高信頼性ハードウェアを使おうが、「それより信頼性は劣る」ハードウェアを使おうが、いずれにせよ結局障害対応要員が常駐している必要がある。
    障害対応要員が倍になるようでは話にならんでしょうけど、そんなことにはならない、ってことなんだろうね。
  • 障害対応要員が倍になるようでは話にならんでしょうけど

    どうなんでしょう?? Googleを支える技術 [amazon.co.jp]によると、何台かをまとめたクラスターを作っているようです。

    ざくざくと壊れるようならば、とりあえずの信頼性はクラスターで確保しておいて、クラスターが動けなくなったら、障害対策要員はどこが壊れているかなど無視してクラスター単位で生成・撤去すればよいだけ。

    結局、台数に物を言わせて、ソフトで信頼性を確保すると、障害対応要員はそんなに必要ないよ、必要な技術レベルも決して高くないよ…ということに落ち着くのかもしれません。

    .

    しまった。
    それってうちの商売からみて敵だ
    (大抵の大手計算機メーカーにとってもそうでしょうが)。
    --
    fjの教祖様
  • Anonymous Coward : 2008年06月03日 16時32分 (#1355538)
    18禁の警告に続いて、日本巨乳党 (コミック) [アダルト] が表示されたのですが、
    それこそが「Googleを支える技術」なんでしょうか?

    なんか色々なものが支えられそうな気もしますが・・・

    # 作者の知り合いなので AC
  • ご…ごめんなさい _o_

    http://www.amazon.co.jp/Google%E3%82%92%E6%94%AF%E3%81%88%E3%82%8B%E6%... [amazon.co.jp]

    こっちでした。

    しまった…これと巨乳平面説とを出して、アクセスの伸びを比較したときのページから持ってきて…あぁっ、最後の瞬間に間違ったところからコピペしているっ(T.T)。

    今日はなんか、いろんな所でこの手のポカミスが連発しているなぁ…厄日か?
    --
    fjの教祖様
  • 言い訳とは何とむなしいものであることよ(詠嘆)。
  • 結局、台数に物を言わせて、ソフトで信頼性を確保すると、障害対応要員はそんなに必要ないよ、必要な技術レベルも決して高くないよ…ということに落ち着くのかもしれません。

    テレビかカンファレンスか何かで言っていたっていう情報ですが、Googleって壊れたハードを自動で交換する仕組みも自作しようとしていましたよ。ホワイトボードのメモだったかも。

    --
    LIVE-GON(リベゴン)
  • 信頼性2倍の製品を2倍の価格で調達できるならいいけどね。価格で倍払っても信頼性2倍にはならないよ、ということだよね? 逆もしかり。信頼性1/2の製品を、1/2の価格で調達できても、管理コストが増える分だけ勿体無いわけで....。 あと、1台で済む用途の場合、無動の予備機と稼動機の2台用意するのと、高信頼性の装置1台用意するのとどっちが良いと思う? 故障する頻度と管理コストの兼ね合いでケースバイケースなんだけどさ。結局。
  • 液晶ディスプレイとか。
    信頼性というよりは性能の話ですが。
    --
    =-=-= The Inelegance(無粋な人) =-=-=
  • 人も・・ (スコア:1, おもしろおかしい)

    Anonymous Coward : 2008年06月03日 14時25分 (#1355423)
    「より信頼できる技術者を一定数揃えるより、それより信頼性は劣るかもしれない技術者を2倍の数揃える方がよいと我々は考えている」
    「○○人の技術者が働いているとすれば、毎日何人かがダウンするに決まっている」
  • ksiroi (24990) : 2008年06月03日 15時00分 (#1355453) 日記
    一番ベストなのは信頼できるハードウェアを一定数の二倍揃えることだと思いますけどね。
    現実はそう行かないのでしょうし、そうできるようにソフトウェアの改善も行っているでしょうけど^^;

    // 初期予算、だけでなく保管とか管理の問題があるんですね・・・(:>^
  • Ryo.F (3896) : 2008年06月03日 16時11分 (#1355520) 日記

    一番ベストなのは信頼できるハードウェアを一定数の二倍揃えること
    なんで「一番ベスト」なのか解らんぞ。どう言う判断基準なんだ?
  • yasudas (5610) : 2008年06月03日 22時43分 (#1355838) 日記
    >一番ベストなのは信頼できるハードウェアを一定数の二倍揃えることだと思いますけどね

    一番ベスト...ちょっと苦笑。
    信頼できるハードウェアなら二倍揃えるのは無駄だよね。
    信頼に限界があり、信頼できないから冗長にするんですよね。

    「一番でもベストでもないが、完璧な信頼は得られない現状では、冗長化等の対策は必要。
    信頼性が多少高いモノを選ぶとコストが倍以上になるので、冗長化とかやってらんない。
    なので、ちょっと安いのを倍揃えて有事に対処する様にしている。
    それで、なんとかGoogleはやっていけているぞ」
    ということを言っているのだと思う。
  • 都市およびその周辺部だとフロア(土地)代も馬鹿にならないです.

  • どっかで聞いたことがあるな~とおもったら・・・

    丸山先生のレクチャーシリーズ Podcasting
    http://satellite.wakhok.ac.jp/podcast/xml/maruyamalecture.xml [wakhok.ac.jp]

    ここでした。たしか「Googleの分散処理技術」とかのトピックだったとおもうのですが。
    上記のPodcastでは、その内容を時間を割いてわりと詳しく説明してました。

    Podcastなんで、写真とか現物を見たわけじゃないですし、話だけ出だと「?」な部分もありますけど。

    最初は「見える化」のトピックで聞き始めて、色々面白い内容があるので、たまに聞いてる。

    #すでに紹介されていたら失礼いたしました・・・
  • 「信頼性はソフトウェアで確保するべきもの」…この言葉は、身も蓋もない「ホントウのところ」を突いていると感じました。

    障害、エラー、誤操作などなど、こういった事象に対して対処することを避けていないソフトウェアを生産することに「対価」を支払わないことが問題の根源かもしれません。
    信頼や品質は作りこんでいくもので、なにか良さそうなものをカタログ閲覧して購入・配備すればすむ「保険」ではありませんし、大事なことについては昔と変わらずに作りこんでいくことでこそ利用者は満足を得るものでしょう(一番いいのは、利用者も作りこみのために手と頭を働かせるケースでしょうか)。
    企業や公共が使用しているシステムたちは、損失・損害を保険でカバーすれば許してもらえるような周辺的な存在ではなくなっていますよね?であるならば、利用者がまず作りこみの為に手を動かすのでなければ、ナニをもって「信頼に足る」とするのでしょうか?

    作りこむことの大事さ・高い価値を、ユーザに得心させる(教育する)ことが大切になってきているように思います。
    (そして、システム開発を土木工事同様のフォーマットやフローで管理したいなどという怠惰さ(思い上がりか?)を駆逐できれば…とも)
  • 障害、エラー、誤操作などなど、こういった事象に対して対処することを避けていないソフトウェアを生産することに「対価」を支払わないことが問題の根源かもしれません。

    はて、そうでしょうか??

    Googleはハードウェアを動かせる限り連続して動かしているとは思えません。各機械は、定期的に止めて、ヘルスチェックをかけているはずです。全体がいっせいに停止することはない、というだけで。

    と言うことは、ソフトウェアもその「一定期間」さえ動作すればよい、という風に作っているはずです。ジョブのtakeoverがきちんとデザインされているだけで。つまり長期間運用しないと発生しないようなエラーについては、最初からエラー処理など書いていないはずです。

    その分を分散処理と、冗長化を実装するのに割いているのだと思いますよ。
    --
    fjの教祖様
  • 信頼性が高いPCというのは故障発生率が低いPCの事を指していて、
    信頼性が低いというのはその逆です。

    信頼性と計算結果は何の関係も無いですが、
    コスト(要するに値段)は概ね桁違いになります。

    そしてPCはいつどの程度かは判りませんが、でも確実にどこかが故障します。
    なので台数が多くなるほど、全体としての稼働率はどんどん下がります。
    その稼働率をどうやったら高くできるか、というのが話の筋ですよね。

    日本ではまだまだ言葉だけで馴染みの無いリスクマネジメントの観点から言えば
    至極当然な事を言っているなあと思いましたが、
    あれ?と思うことをおっしゃる方が多いのに驚きました。

    製造業に関わった事がある方なら99.9%がどれだけ途方も無い数字なのか感覚的にわかると思いますが。
  • その稼働率をどうやったら高くできるか、というのが話の筋ですよね。

    そうなの?

    Google は「稼働率なんか低くてもいいよ、安いから」と言っているように見えますが…??
    --
    fjの教祖様
  • 信頼性はソフトウェアのレベルで提供するべきである
    巻き戻しを許容できるシステムならそれでいいけど、巻き戻し厳禁なシステムだと
    フェールオーバー仕込むの自体に四苦八苦してる局面を、あちらこちらで見かけるような・・・
  • 多分ほとんどの人が認識していないのは, ハードウェアには正常動作と完全停止の間にいくつもの段階があるってことじゃないかと.

    ここで厄介なのが, ソフトウェアから認識できない中途半端な障害ってやつですね. 一見正常に動いているように見えて, 実はデータが化けていたとか周辺とのやりとりが出来ていないとか. これがネットワークインターフェイスで起こったりすると, 当人は正常に動いているように思い込んでいてもサービスは提供できず, しかも共有ディスクは掴んで離さないからフェイルオーバも立ち上げられないなんて事態もありえますし, 逆にそれを考慮せずに無理やりフェイルオーバを立ち上げたことでデータを壊すってこともありえます. これがさらにリモート運用だったりすると, 外部から引導を渡すこともできずに立ち往生とか.

    こういった状況を考えると, 正常動作が不可能になる異常は確実に検知できることと, 生物のアポトーシスよろしく異常が発生したら(または発生しそうになったら)確実に自死することが, 大規模システムの運用を自動化する上では必要になると思われます. エンタープライズ向けのサーバやメインフレームあるいはファクトリ向けなんかだと, こうした要件を満たすためにハード側でサポートしています. でも一般のPCでは故障率の高いハードディスクでS.M.A.R.T.をサポートしているぐらいでしょうか.

    この様に考えていくと, 一般的な低価格のPCアーキテクチャにおいてソフトウェアレベルで対処しようとすると, 限定的なシステム要件に限るか, あるいは完全自動化はあきらめて人手による運用手順の簡略化に的を絞るかになると思います.

  • 下手にラックマウントサーバ買わずに、
    ゲーム用デスクトップPC、インターネット/メール用PC、外出用PC、
    仕事用PC、OS検証用PC1,2,…、おもちゃ用Eee-PC。
    と言うことですね。わかります。

    クラスタ化すればそれなりの性能は出るかもしれません。
    …ラックマウントサーバをガンガン買ってる猛者もいますけど…。
  • んでもってソフトの方にこそ金掛けろと。
    でもそんな事改めて言われなくてもPCパーツの値段、及びそれらの
    ベンチマークスコアを照らし合わすのに慣れっこの聴衆ばかりでは・・・

    #そして解ってても高い方に惹かれてしまうのが僕等さ!
    #そしてハードにのみ金を掛けソフトには一切金を払わないのがDSゆーうわなにをするやめr
  • Ryo.F (3896) : 2008年06月03日 14時41分 (#1355436) 日記
    二二倍倍はは二二倍倍用用意意ししなないいのの??
  • >アホになるプログラム

    ぬるぽで落ちるとか?
    --
    Just a whisper. I hear it in my ghost.
  • Re:2の倍数でよくって (スコア:5, おもしろおかしい)

    shiroiwanisan (12855) : 2008年06月03日 15時33分 (#1355483) 日記
    printf("1\n2\nアホ\n4\n5\nアホ\n<途中省略>98\nアホ\n100\n");

    いえ、最近書いてるプログラムって、ほぼこれと同等なことばっかりやってるので、
    つい。

  • Tsann (15931) : 2008年06月03日 19時23分 (#1355698)

    #include <boost/preprocessor/arithmetic/mod.hpp>
    #include <boost/preprocessor/control/if.hpp>
    #include <boost/preprocessor/repetition/repeat_from_to.hpp>
    #define AHO( z, n, d ) BOOST_PP_IF( BOOST_PP_MOD( n, 3 ), #n "\n", "アホ\n" )
    const char aho[] = BOOST_PP_REPEAT_FROM_TO( 1, 101, AHO, );
    あれっ?
  • # 消耗品による安定稼動のキモは、こまめな交換ってことか。

    真空管時代の計算機みたいですなあ。

  • Re:2の倍数でよくって (スコア:2, おもしろおかしい)

    Anonymous Coward : 2008年06月03日 16時09分 (#1355517)
    >プログアムがアホになるんですか?

    4文字目でアホになってますが……?
  • Re:普遍化しすぎ (スコア:5, すばらしい洞察)

    tyuu (9154) : 2008年06月03日 17時07分 (#1355560) ホームページ 日記
    > 信頼性が1/2のものを倍搭載しようとしますか?

    なぜ、信頼性が 1/2 って話になったのでしょうか?

    信頼性が 99.99% のものを 1 個揃えるんだったら
    信頼性が 99.9% のものを 2 個揃えろって話でしょう。
    # 精度を求めれば、金額が跳ね上がります。

    そして、至らないところは、ソフトでカバーするという話だと思います。

    > たとえば銃器の場合に命中率で、狙撃用と制圧用ではそれぞれ要求されるレベルは違って当然と私は思いますが?

    下記のライフルがあるとして、
     命中精度が 90% のライフル A
     命中精度が 80% のライフル B

    命中精度が 80% のライフルを 2 倍揃え、
    命中精度が低い事を補える作戦を用意する方が、
    目的を達成し易いという事でしょう。
  • shiragaoyadi (27158) : 2008年06月03日 18時00分 (#1355599)
    日本の場合すぐ価格二分の一、故障率2倍という論理が生まれる。
    世の中には価格1/5故障率20%ダウンなんて代物は山のようにある。
    しかも重量が1/3だったりすると、安い方を2台付ける、というのはありだと思うのだが、
    日本ではこれが通らない。

    昔は、放送局もそうだった。
    12年ほど前に米国のNBC本社の見学に日本のプロダクションや放送局の
    ツアーで行った。
    入る前は、日本にないような最新の設備を期待して入ったのだが、
    副調整室の一部には驚くような機器もあるが、
    大半は日本ではもう見られなくなったような機器もごろごろ。
    同行の面々は、日本の機器は米国を超えている!と自信満々だったが・・・
    信頼性とコストをバランスにかけているだけだと思った。

    現在も日本の医療はそう。
    おかげで海外の数倍の価格の物が今だ横行している。
    もちろん定価はそのX倍。
    ここ数年でずいぶんまともになったが、
    商習慣の違いを割り引いても、日本の信頼性信仰は高すぎ。

    もちろん安かろう悪かろうが世の中には多いわけで、
    予め充分選別しての話だが。
  • Ryo.F (3896) : 2008年06月04日 10時18分 (#1356096) 日記

    信頼性とコストをバランスにかけているだけだと思った。
    その通り。
    でも、それは国民性もさることながら、行政指導の賜物(?)だったりするんだよね。だって、無変調とか不体裁とかでいちいち監督官庁に報告書出せ、とかだから(→放送事故 [wikipedia.org])。
  • moci (11748) : 2008年06月04日 2時08分 (#1355989) 日記

    メインフレームなんざとは違い、信頼性が売りになるようなPCサーバがあるわけじゃない、という現実に即した解だと思う。

    フォルトトレラントサーバというものがあります。中身にPCサーバ二個分の部品を抱え込んで、障害に備える仕組みがあらかじめ備わっているような代物だったりします。

    もちろん、値段は倍ではききませんし、Googleのようにそもそも膨大な台数でクラスタにする前提なら、そんなところにコストをかけるよりも、その分台数を増やして、自前で対処した方がよいというのは当然ですね。

  • パイロット(Googleではソフトウェア)の事が抜けてます。
    オールドタイプの乗ったガンダム一機より、ニュータイプの乗ったザク3機のほうが強いって事ですよ。
  • USH (8040) : 2009年08月11日 20時18分 (#1621110) 日記

    ># 神様も2倍ね
    昔々、やまとの人たちはその計算を重ねて、八百万にまでかさ上げしましたとさ。

    日本やギリシャ・ローマあたりだと安心して神はふやせますが、エルサレム近辺出身の神だと、ハルマゲドンになりかねないので、やめましょう。