パスワードを忘れた? アカウント作成
14671 story

Googleが大量に使用しているHDDの故障率の分析 61

ストーリー by yourCat
S.M.A.R.T.≠スマート 部門より

maia 曰く

GIGAZINEの記事によれば、Googleが大量に使用している民生レベルのHDD (ATAあるいはSATA/80GB~400GB/5400~7200rpm) の故障率とS.M.A.R.T.値等の分析から、非常に興味深い結果が得られたようだ (Failure Trends in a Large Disk Drive Population [PDF])。
まず、温度やアクセス頻度と故障率に有意な関連性はなかった (50度以上となると話は別)。一方、スキャンエラー、リロケーションカウントなど、いくつかの指標は故障と強い関連性があった。しかし大半の故障は徴候を示さない突然死であり、S.M.A.R.T.値による故障予測日数は殆ど参考にならなかった。
なお、メーカーや機種ごとの統計は公開されていない。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by SAY (54) on 2007年02月19日 10時29分 (#1112328) 日記
    その信頼性がいつもそのままだとは限りませんからね。
    Googleとは比較になりませんが、2002年の4月頃から2006年の4月頃までその時点での最大容量のHDDを少なくとも2台毎月私は買っていたのですが、IBM(日立)、Seagate、Maxtor、Western Digitalをくまなく買っていたと(意識していたわけではないのである程度偏りはあるけど)思いますが、メーカー毎というよりシリーズ毎に壊れやすさに変動があるという印象です。

    あとランダムアクセス性能は1つ前のモデルより最新モデルのほうが悪いこともあったりして選択が難しいですよね。

    50度という温度はわかっていませんでしたが、自分の感覚で「多少熱い」を超えると壊れやすいというのはあったので、今ではCPU冷却用のヒートパイプ&大型ファン付きクーラーをHDDに直接密着させて冷却しています。
    これであとは風量を温度に応じて自動調整しようと思っていてまだ手を付けていません。
    市販のHDDケースはおまけ程度のファンしかついていないので、節電しようとエアコンを止めたりするとHDDの温度があっという間に上がっていくのが・・・ね。
    「HDDケースの冷却装置は好みのCPUクーラーを取り付けてください」なんて製品があれば光るファンを付けたり、エアコンが嫌いな人や静穏化を望む人が大型のヒートシンク付きのものを付けたりといった、それぞれの選択ができるのに。

    • >今ではCPU冷却用のヒートパイプ&大型ファン付きクーラーをHDDに直接密着させて冷却しています。

      以前、私も似たような事をしていました。

      私もHDDの上に余ったCPUクーラーをそのままポンと載せていました。
      VMwareで仮想マシンをフルタイム稼働させていましたが、よく冷えていました。

      うちはクーラーがないのですが、すきま風の入る家ですので…。

      こうして"PC筐体の上"に置いておくと、夏冬関係なくとても良く冷えました。
      もちろん冬は、PC前に座っている正座の私も冷え切ってorz

      なぜ外だしだったかと言いますと、ケースに2台入れると廃熱出来ずOSが止まるからで。
      今は筐体を買い換えて内臓させています。モツろんHDDの前に8センチファンx2が…。
      親コメント
      • by Anonymous Coward on 2007年02月19日 12時14分 (#1112415)
        >>今ではCPU冷却用のヒートパイプ&大型ファン付きクーラーをHDDに直接密着させて冷却しています。

        >以前、私も似たような事をしていました。

        >私もHDDの上に余ったCPUクーラーをそのままポンと載せていました。

        微振動がハードディスクに悪影響を及ぼすと思います。
        風を当てるだけにしたほうが良いです。

        市販されているハードディスクの底面を冷やすクーラーなども
        装着するとハードディスクの安全装置が作動することがあります。
        親コメント
        • >微振動がハードディスクに悪影響を及ぼすと思います。
          >風を当てるだけにしたほうが良いです。

          真剣に悩んでるので、どなたか回答を~
          # まず「冷さない」という選択は、ないです

          ・HDD用のファンをつける
          ・CPUの余ったファンをのせる
          とかで、「ファンの振動は悪影響なのでは?」と思ったのですが

          ・HDD自体も微振動してる・・・
          そうすると、ケースの中に2台入れてもお互いが干渉するし。

          一応今は、HDDマウンタとの間はネジではなくて、ゴム製のピン(?)を使ってるのですが。

          どうするのがベストなんでしょうね?

          # サーバラックとかだと、HDDマウンタごと「がっつり」はめ込んでるので
          # あんまり気にすることはないのか?とも思いますが。
          • >・HDD自体も微振動してる・・・
            >そうすると、ケースの中に2台入れてもお互いが干渉するし。

            実際に経験しました。
            同じメーカー、おなじ回転数のHDD2台をケースに設置したところ、
            両方同時に動かすと、ヴヴヴヴヴヴヴヴといかにも何か異常な音が発生。
            片方ずつなら問題なしだったのですが。

            結局、これ [ainex.jp]を購入して、片方を5インチベイに設置することで解決しました。
            --

            ψアレゲな事を真面目にやることこそアレゲだと思う。
            親コメント
          • そもそもゴムマウンタは静穏化のための商品であって安定稼動のために使うべきではありません 本来ならば静穏化のためにもがっちりしたケースに入れてマシン内のエアフローで何とかするしかないのです ……クーラー直当ては本末転倒な気がするんですが
      • >私もHDDの上に余ったCPUクーラーをそのままポンと載せていました。

        私の場合HDDに乗っているチップにGPUメモリ用のヒートシンクを貼り付けてその上からファンで冷却してます。
        ただほとんどの騒音がこのファンによるもので、
        温度に合わせてファン速度を自動調整できると良いと思う。
        親コメント
        • >>私もHDDの上に余ったCPUクーラーをそのままポンと載せていました。

          >私の場合HDDに乗っているチップにGPUメモリ用のヒートシンクを貼り付けてその上からファンで冷却してます。
          >ただほとんどの騒音がこのファンによるもので、
          >温度に合わせてファン速度を自動調整できると良いと思う。

          今も当時のディスクで動いてます。
          ソレハソレとして…。

          書き忘れましたが
          余ったCPUクーラーを上に載せていただけで、ファンは回しておりませんでした。
          むしろ、ファンが付いていない物だった為、バランスを崩し誤って上に手をつくと
          HDDは傷も付かないクセに、私の手は傷が…。

          ケースを変えて以来このHDDは内蔵させていますが、ファンはHDDに温度計をつけて
          温度によって回転する様なファンコントローラで回しています。
          親コメント
  • by shoji12 (14093) on 2007年02月19日 8時55分 (#1112265)
    a first scan errorが出ると故障するとみなしていいようですね。
    このerrorの原因や箇所が断定されていないので、もやっとしている。
    素直に考えれば、回転軸がぶれ出す--->回転軸の磨耗か、となってしまう。
    磁気流体軸受けは、磨耗しないのかな?
    それとも、軸受けはさらに複数の部品から構成されているから、故障解析は難しいのかな?
    磁性体が遠心力で動いてしまう?
    円盤の軸受けじゃなくて、ヘッドの軸受け?
    誰かスッキリさせてくれー
  • by from92714 (29890) on 2007年02月19日 9時47分 (#1112300)
    http://hardware.slashdot.org/article.pl?sid=07/02/18/0420247 [slashdot.org]

    コメント数はいっぱいあるけど内容自体はそれほど、見たいな感じですね。
    メーカーが知りたい、やせめてX社Y社とか匿名でもいいから知りたかったってコメントしていている人もいますね。

  • by Anonymous Coward on 2007年02月19日 10時12分 (#1112319)
    使用温度を守れば、年間5%の故障率を基準に考えておくと大体外れない
    というところかな? (5年で1/4が故障)
    • by SteppingWind (2654) on 2007年02月19日 10時40分 (#1112333)
      (5年で1/4が故障)

      ただ問題は, 故障のほとんどが最後の5年目に集中して起こることでしょう.

      Googleぐらい頻繁に設備を増設していれば故障の発生時期も平準化されるのかもしれませんが, 基幹業務用なんかで特定のタイミングでまとめて導入した場合には, ある時期を過ぎると故障対応で追いまくられるなんてことにもなりかねません. まあ, その時期にはディスクの方も新しい世代に入っているでしょうから, 設備を償却して入れ替え・データ移行ってのが総合的なコスト削減のためには良いのかもしれません.

      親コメント
      • >ただ問題は, 故障のほとんどが最後の5年目に集中して起こることでしょう.

        PDFのオリジナルの文書ではそういう傾向にはなっておりません。
        • by SteppingWind (2654) on 2007年02月19日 22時21分 (#1112760)

          グラフだけではなく本文も読んだほうがいいですよ. 例えば文書中の図2で3年目, 4年目あたりの故障が増加しているのは, その年代の特定のモデルによる効果が大きく, 加齢による損耗を示すものではないと明記されています. つまり「ある時期」を過ぎると故障対応で追いまくられるって言う場合の「ある時期」がディスクのモデルや製造年によって大きく違うってことです.

          いずれにせよ, この文書って全体的に注意して読まないと間違った結論に至りやすいです.

          親コメント
  • by Anonymous Coward on 2007年02月19日 17時48分 (#1112647)
    ここらへんの情報を元に smarttools とかもっと実情に添った進化をしてくれれば有り難い。
    温度を常にチェックして、運用年数を元に Figure5 に従って情報を表示とか、そもそも3年を越えると死にやすさ補正でもするとか。

    しかし、3年未満の間は35-40度が一番死ににくいという事は、冬は HDD クーラーをわざと止めて、ある程度温度が高くなるように調整した方がいいという事だろうか。
  • by Anonymous Coward on 2007年02月19日 22時58分 (#1112778)
    流通経路だったりして
    某**急便を使うのは保険目当てってのを聞いた事があります。

    # 元販売店員だったときの実感
    # いろいろ聞かれたくないのでAC
    • >流通経路だったりして
      >某**急便を使うのは保険目当てってのを聞いた事があります。
      ># 元販売店員だったときの実感
      ># いろいろ聞かれたくないのでAC

      伏字じゃつまらないので、私が15年程前に聞いた例を書いてしまおう。
      昔のことなので細かい表現は違っているかもしれないけど、
      要旨は以下のような感じ。

      「故障品を佐川急便で発送し輸送中に故障したことにして、
      保険で修理する。佐川急便は良く物を壊すのでこの様な手段が可能だ。」

      どう考えても保険金詐欺の手口ですが、
      現在もこの様なことが行われているのでしょうか?
      親コメント
  • by Anonymous Coward on 2007年02月19日 9時02分 (#1112268)
    Googleのような酷使されてる環境でのHDDの故障パターンと一般人の自宅でのHDDの故障パターンって同じ傾向だと考えていいんでしょうか? つまり自宅PCでもS.M.A.R.T値あてにならないのかどうかってのが自分的には知りたい。論文よんだエロい人教えて。
    • by saitoh (10803) on 2007年02月19日 11時29分 (#1112379)
      問題の論文の温度関係のところだけざっと読んでみました。googleのHDDは大半が25℃~35℃の温度範囲で稼動しているようです。 ≦45℃では温度に故障率は関係ないというのは、バスタブ曲線の底での偶発故障には高温は関係ないということのようです。 使い始めてからの年数ごとの解析のほうをみると、3年たったドライブでは温度に比例して故障率があがっています。 で、グラフは4年までしかありません。

      1. 50℃を超えると頓死する確率が高くなる
      2. 35℃を超える温度領域では、高温は寿命の短縮をもたらす。といっても3年~4年は持つ。
      面白いのは、総合故障率で35℃~40℃が最も低いところ。この温度帯では AFR (年間故障率: Annualized Failure Rate) で0.01%を切っています。

      で、これより低温の領域では 温度が低いほど確率確率が高いという結果が出ています。50℃のドライブより20℃のドライブが倍以上故障しやすい。

      親コメント
      • 3ヶ月目では15度から30度がもっとも故障率が高いのに対して、3年目では45度以降がもっとも故障率が高い。
        というか2年目と3年目で逆転してるのが話をややこしくしてる。
        時期に応じた故障率の低い最適温度に保つにはどうしたら良いのやら。
        親コメント
        • >時期に応じた故障率の低い最適温度に保つにはどうしたら良いのやら。

          これが自動車やクーラーなどだと清掃したり弱ったパーツを交換したりといったメンテができますが、HDDの場合は買ってから何ひとついじらないってとこに難しさがありそうですね。
          パッケージを開けることさえできない(おそらく開けた方が壊れやすい)し、もちろん油を差すなんて事もしない。埃と振動を避けるのは当然としても、それこそ後は温度・湿度くらいしか要因をいじれない。それに加えて当たりと外れのロットもあるでしょうから、それらも故障率に影響するでしょうし。(そういえば最適湿度って分かりませんね。サーバールームは一定範囲でしょうけど、各家庭では国や地域で違いが出ますし。)
          業務用としては「当たりのロット(丈夫で長寿命)」が選別できれば高くてもそれを使うという事ができましょうが、CPUの選別品などと違ってそれこそHDDでは長時間ブン回してみるしか確認しようがない気がするので「運を天に任せる」というアナクロな手法に頼るしかないのでしょうか…。

          #神はサイコロを振らない。でもギリシャの神は、よく下界の人間でチェスをする。
          親コメント
      • 水風呂と熱湯好きは早死、ぬるま湯は長生き、ってことですかね
      • by Anonymous Coward
        同じく論文の温度関係を読んでみましたが、30℃から45℃までは5℃区切りなのに、30℃以下と45℃以上は15℃区切りなんですよね。
        レンジの取り方次第でこの結論は変わってきそう。30℃から45℃の範囲をまとめると、この温度で動かしたときに故障率が最大になるし。
    • by Anonymous Coward on 2007年02月19日 9時13分 (#1112277)
      HDDの温度が50度を超えると故障率が上がるという話で、Googleは
      50度を超えないようにクーリングしているんだと思います。
      普通に使っていればHDDの温度なんて軽く50度を突破すると思うので、
      全然参考にはならないんじゃないでしょうか。

      耐久性のあるメーカー・HDDという指標であれば非常に参考になると
      思われますけど、その情報は出さないということなので、参考にしたい
      情報が無い情報は参考にならない、でいいんじゃないでしょうか。

      親コメント
      • 実際に何度かは見てないけど、HDD には必ず吸気ファンの
        風を当てています。

        HDD 密着タイプのファンって、大抵下面の電子基板冷やすけど、
        故障に影響するのって、上面と下面どっちが影響大きいんでしょうね?
        --
        TomOne
        親コメント
      • メーカー、機種名が出ても本質的には参考にならん
        (本人はなったつもりでも実は外してる)
        ケースが多いと思いますよ。

        他の人も一部言われてますが、
        24h連続稼動に強いものと電源ON/OFFに強いもの、
        稼働時間に支配されるものとアクセス数に支配されるもの、
        温度変化に強いものと安定してれば温度によらず強いもの、
        物理的に強いものと酷使に強いもの、
        読み出しだけだと強いものと読み書き双方が続いても強いもの、
        多数の小さいアクセスに強いものと連続アクセスに強いもの、
        電源変動に強いものと安定してさえすれば強いもの、
        ってのはたぶんまったく同じではないですから。
        • by Anonymous Coward on 2007年02月19日 12時57分 (#1112456)
          >メーカー、機種名が出ても本質的には参考にならん
          >(本人はなったつもりでも実は外してる)
          >ケースが多いと思いますよ。

          もの凄く参考になります。
          かつて、特定のメーカーの特定のHDDを大量導入したところ、
          非常に高い頻度で故障が連発しました。
          サーバによってはアクセス頻度が高かったり、アクセスは少なかったり、
          温度条件も良好だったりと使用条件はバラバラですが、ただ同じだった
          条件というのが特定のメーカーの特定の機種だったということだけです。

          新品で取り付けたばかりの時点でセクタエラーが大量に出るという
          パターンさえ多数ありました。

          >他の人も一部言われてますが、
          >24h連続稼動に強いものと電源ON/OFFに強いもの、
              <<面倒なのでさくっとsnip>>
          >電源変動に強いものと安定してさえすれば強いもの、
          >ってのはたぶんまったく同じではないですから。

          どこでどのように使われるかわからない商品を作るとき、
          動作条件を定めてからその尺度内で機能するように作ります。
          動作条件もそれほど特殊なものはないでしょう。
          その範囲内で同じように使っても差が出る以上、メーカーや
          機種の情報は非常に重要です。

          親コメント
          • by Anonymous Coward on 2007年02月19日 13時17分 (#1112473)
            > かつて、特定のメーカーの特定のHDDを大量導入したところ、
            > 非常に高い頻度で故障が連発しました。

            そういうトラブルを避けるには、「壊れやすいメーカを知る」よりも、「できるかぎりメーカ、機種をばらばらに揃える」ほうが対策として有効だと思います。Googleのデータ集計時の品質管理の順位が不動だって保証はないですから。

            親コメント
          • >かつて、特定のメーカーの特定のHDDを大量導入したところ、
            >非常に高い頻度で故障が連発しました。

            製造ロットによる当たりハズレってのは、大量導入にあたっては実際深刻な問題ですからね。
            一概にそのメーカーのその機種の品質が悪いとは言い切れませんよ。

            もしかしたらその辺りのことも考慮されていたかもですが、そうでないならやはり他の方の返信にもあるように、メーカーや型番、製造時期をできるだけバラバラにして集めるべきかと。
            親コメント
            • 型番バラバラで主要メーカーコンプしてますが、気まぐれでRAID構成にしたくなったときに
              少し古い型のHDDが手に入らなくて悔しい思いをしたことがあります。
              最低同じ型番のものを2個ぐらいづつ買っておくと幸せになれるかも。

              # 同じメモリ基板メーカーでも時期によってチップが違うのと同じで、
              # hpとかから純正ハードディスク買っても時期によって不治痛だったりSeagateだったりなのが困る。
              # あれ中身指定して買えるんですかね?
          • > もの凄く参考になります。
            > かつて、特定のメーカーの特定のHDDを大量導入したところ、
            > 非常に高い頻度で故障が連発しました。

            もの凄く参考にしたいので公開してみてください。
      • > 普通に使っていればHDDの温度なんて軽く50度を突破すると思うので、
        > 全然参考にはならないんじゃないでしょうか。

        突破しますか?
        普通のPCショップで買った普通のミニタワー筐体に、ハードディスクを2台
        入れてオフィスで24時間稼働させてますが、SMARTによると、空調が効いて
        いれば、最高で47度くらいです。

        ただし、夏場は空調が切れた時間帯に54度まで上がった記録があります。

        従って、空調さえ効いていれば、50度を突破はしないのでは?
        • by Anonymous Coward on 2007年02月19日 21時56分 (#1112748)
          HDDのために空調を効かせるのは、普通の使い方なのかな?
          世間一般的に、そこまでHDDに気を回すかなあ。
          親コメント
          • この人が言ってるのは、「空調が効いていれば50度を超えない」ということですが、
            一方、24時間稼働させているのは正直「普通の使い方」とはいえないと思います。

            人が使うときだけ電源をいれるのであれば、その時には空調が入っているでしょうから、
            「普通の使い方」ではやはり50度を超えないのではないでしょうか。
            親コメント
          • HDDに限らず、電子部品は一般に高温だと故障率が上がります。
            このため、マシンルームに空調を効かすのは極めて一般的です。
            というか、空調の効いてないマシンルームはありえないと思いますが…

            オフィスの場合、夜間は空調が効いてない方が普通ですが、24時間稼働の
            マシンはオフィスとは別の常時空調の効いた部屋に置くのが常識では?

            問題なのは、家庭にサーバを置いて夏場に24時間稼働させる場合とかですかね。
            このような利用方法をした場合、故障率が上がることを覚悟しておくべきでしょう。

    • 家庭でも24通の人しか参考にならないのでは?

      >Googleのような酷使されてる環境
      家庭で毎日通電を入切してるほうが酷使しているのかも。
  • by Anonymous Coward on 2007年02月19日 11時16分 (#1112364)
    Googleだと24時間稼動ですよね。
    1日に1回以上電源on/offするようなパーソナルユースだとやっぱりもっと寿命短いんだろうなあ。
    • Re:電源on/offは (スコア:1, 参考になる)

      by Anonymous Coward on 2007年02月19日 14時51分 (#1112541)
      HDDメーカーの中の人とお話をしたところでは「CSSが5万回あるので止めてたほうがよい」という話でした。

      #スタート/ストップが5万回!サバ読むな!
      親コメント
      • Re:電源on/offは (スコア:0, 余計なもの)

        by Anonymous Coward
        メーカーの人間がそう言うんなら、きっと動かしっぱなしの方がいいんだろう。
  • by Anonymous Coward on 2007年02月19日 15時24分 (#1112566)
    何処にぶらさげれば良いか悩んだので新規に。 三ヶ月から六ヶ月での故障→初期不良に起因と推定 三年から四年での故障→劣化によるものと推定 五年(或いはそれ以上)での故障→どう見ても寿命です、本当に(ry

    せめてSMARTのどの値がどれくらいの個数でどの程度まで悪化してます、みたいなもん欲しかったかも。
  • by Anonymous Coward on 2007年02月19日 16時29分 (#1112605)
    24時間つかってるのは、祭りの縁日の亀と同じって結論?

    回すの止めると壊れる傾向はあるなぁ。
  • サービスを稼動させるため終日運用をさせると
    温度が非常に高くてもぜんぜん壊れない。

    逆に、一般人が使うPCはほんの些細なことでも
    HDDは壊れやすいです。

    人間がうなるほど高い室温の中
    手で触れ状態まで発熱した3台のHDDが
    まる4年も正常に動きつづけたのには恐れ入りました<システム入れ替えで引退
typodupeerror

人生unstable -- あるハッカー

読み込み中...