ページ内ジャンプ:

アレゲなニュースと雑談サイト

yourCatによる 2007年02月19日 7時45分の掲載
S.M.A.R.T.≠スマート部門より

maia 曰く

GIGAZINEの記事によれば、Googleが大量に使用している民生レベルのHDD (ATAあるいはSATA/80GB~400GB/5400~7200rpm) の故障率とS.M.A.R.T.値等の分析から、非常に興味深い結果が得られたようだ (Failure Trends in a Large Disk Drive Population [PDF])。
まず、温度やアクセス頻度と故障率に有意な関連性はなかった (50度以上となると話は別)。一方、スキャンエラー、リロケーションカウントなど、いくつかの指標は故障と強い関連性があった。しかし大半の故障は徴候を示さない突然死であり、S.M.A.R.T.値による故障予測日数は殆ど参考にならなかった。
なお、メーカーや機種ごとの統計は公開されていない。

この議論は賞味期限が過ぎたので、保存されている。 新たにコメントを書くことはできない。
表示オプション しきい値:
  • SAY (54) : 2007年02月19日 10時29分 (#1112328) 日記
    その信頼性がいつもそのままだとは限りませんからね。
    Googleとは比較になりませんが、2002年の4月頃から2006年の4月頃までその時点での最大容量のHDDを少なくとも2台毎月私は買っていたのですが、IBM(日立)、Seagate、Maxtor、Western Digitalをくまなく買っていたと(意識していたわけではないのである程度偏りはあるけど)思いますが、メーカー毎というよりシリーズ毎に壊れやすさに変動があるという印象です。

    あとランダムアクセス性能は1つ前のモデルより最新モデルのほうが悪いこともあったりして選択が難しいですよね。

    50度という温度はわかっていませんでしたが、自分の感覚で「多少熱い」を超えると壊れやすいというのはあったので、今ではCPU冷却用のヒートパイプ&大型ファン付きクーラーをHDDに直接密着させて冷却しています。
    これであとは風量を温度に応じて自動調整しようと思っていてまだ手を付けていません。
    市販のHDDケースはおまけ程度のファンしかついていないので、節電しようとエアコンを止めたりするとHDDの温度があっという間に上がっていくのが・・・ね。
    「HDDケースの冷却装置は好みのCPUクーラーを取り付けてください」なんて製品があれば光るファンを付けたり、エアコンが嫌いな人や静穏化を望む人が大型のヒートシンク付きのものを付けたりといった、それぞれの選択ができるのに。

    • >今ではCPU冷却用のヒートパイプ&大型ファン付きクーラーをHDDに直接密着させて冷却しています。

      以前、私も似たような事をしていました。

      私もHDDの上に余ったCPUクーラーをそのままポンと載せていました。
      VMwareで仮想マシンをフルタイム稼働させていましたが、よく冷えていました。

      うちはクーラーがないのですが、すきま風の入る家ですので…。

      こうして"PC筐体の上"に置いておくと、夏冬関係なくとても良く冷えました。
      もちろん冬は、PC前に座っている正座の私も冷え切ってorz

      なぜ外だしだったかと言いますと、ケースに2台入れると廃熱出来ずOSが止まるからで。
      今は筐体を買い換えて内臓させています。モツろんHDDの前に8センチファンx2が…。
      • Anonymous Coward : 2007年02月19日 12時14分 (#1112415)
        >>今ではCPU冷却用のヒートパイプ&大型ファン付きクーラーをHDDに直接密着させて冷却しています。

        >以前、私も似たような事をしていました。

        >私もHDDの上に余ったCPUクーラーをそのままポンと載せていました。

        微振動がハードディスクに悪影響を及ぼすと思います。
        風を当てるだけにしたほうが良いです。

        市販されているハードディスクの底面を冷やすクーラーなども
        装着するとハードディスクの安全装置が作動することがあります。
        • >・HDD自体も微振動してる・・・
          >そうすると、ケースの中に2台入れてもお互いが干渉するし。

          実際に経験しました。
          同じメーカー、おなじ回転数のHDD2台をケースに設置したところ、
          両方同時に動かすと、ヴヴヴヴヴヴヴヴといかにも何か異常な音が発生。
          片方ずつなら問題なしだったのですが。

          結局、これ [ainex.jp]を購入して、片方を5インチベイに設置することで解決しました。
          --

          ψアレゲな事を真面目にやることこそアレゲだと思う。
        • 2個のコメント が現在のしきい値以下です。
      • >私もHDDの上に余ったCPUクーラーをそのままポンと載せていました。

        私の場合HDDに乗っているチップにGPUメモリ用のヒートシンクを貼り付けてその上からファンで冷却してます。
        ただほとんどの騒音がこのファンによるもので、
        温度に合わせてファン速度を自動調整できると良いと思う。
        • >>私もHDDの上に余ったCPUクーラーをそのままポンと載せていました。

          >私の場合HDDに乗っているチップにGPUメモリ用のヒートシンクを貼り付けてその上からファンで冷却してます。
          >ただほとんどの騒音がこのファンによるもので、
          >温度に合わせてファン速度を自動調整できると良いと思う。

          今も当時のディスクで動いてます。
          ソレハソレとして…。

          書き忘れましたが
          余ったCPUクーラーを上に載せていただけで、ファンは回しておりませんでした。
          むしろ、ファンが付いていない物だった為、バランスを崩し誤って上に手をつくと
          HDDは傷も付かないクセに、私の手は傷が…。

          ケースを変えて以来このHDDは内蔵させていますが、ファンはHDDに温度計をつけて
          温度によって回転する様なファンコントローラで回しています。
      • >X68000時代には、モニタを抱きながら暖を取っていた

        PC9801のモニターとか、サーバーモニターで手を温めたのが懐かしく思います。

        今は、サーバーラックの裏に回って温風であたたま(略)。

      • >>なぜ外だしだったかと言いますと、
        >あれ?妊娠させたらヤバいからじゃないの?

        いやぁ、バッテリ内蔵のサーバー向けとか買う金あればグラボを買い換え(略)
      • 2個のコメント が現在のしきい値以下です。
    • 1個のコメント が現在のしきい値以下です。
  • shoji12 (14093) : 2007年02月19日 8時55分 (#1112265)
    a first scan errorが出ると故障するとみなしていいようですね。
    このerrorの原因や箇所が断定されていないので、もやっとしている。
    素直に考えれば、回転軸がぶれ出す--->回転軸の磨耗か、となってしまう。
    磁気流体軸受けは、磨耗しないのかな?
    それとも、軸受けはさらに複数の部品から構成されているから、故障解析は難しいのかな?
    磁性体が遠心力で動いてしまう?
    円盤の軸受けじゃなくて、ヘッドの軸受け?
    誰かスッキリさせてくれー
  • from92714 (29890) : 2007年02月19日 9時47分 (#1112300)
    http://hardware.slashdot.org/article.pl?sid=07/02/18/0420247 [slashdot.org]

    コメント数はいっぱいあるけど内容自体はそれほど、見たいな感じですね。
    メーカーが知りたい、やせめてX社Y社とか匿名でもいいから知りたかったってコメントしていている人もいますね。

  • Anonymous Coward : 2007年02月19日 10時12分 (#1112319)
    使用温度を守れば、年間5%の故障率を基準に考えておくと大体外れない
    というところかな? (5年で1/4が故障)
    • SteppingWind (2654) : 2007年02月19日 10時40分 (#1112333)
      (5年で1/4が故障)

      ただ問題は, 故障のほとんどが最後の5年目に集中して起こることでしょう.

      Googleぐらい頻繁に設備を増設していれば故障の発生時期も平準化されるのかもしれませんが, 基幹業務用なんかで特定のタイミングでまとめて導入した場合には, ある時期を過ぎると故障対応で追いまくられるなんてことにもなりかねません. まあ, その時期にはディスクの方も新しい世代に入っているでしょうから, 設備を償却して入れ替え・データ移行ってのが総合的なコスト削減のためには良いのかもしれません.

      • SteppingWind (2654) : 2007年02月19日 22時21分 (#1112760)

        グラフだけではなく本文も読んだほうがいいですよ. 例えば文書中の図2で3年目, 4年目あたりの故障が増加しているのは, その年代の特定のモデルによる効果が大きく, 加齢による損耗を示すものではないと明記されています. つまり「ある時期」を過ぎると故障対応で追いまくられるって言う場合の「ある時期」がディスクのモデルや製造年によって大きく違うってことです.

        いずれにせよ, この文書って全体的に注意して読まないと間違った結論に至りやすいです.

      • 1個のコメント が現在のしきい値以下です。
  • Anonymous Coward : 2007年02月19日 17時48分 (#1112647)
    ここらへんの情報を元に smarttools とかもっと実情に添った進化をしてくれれば有り難い。
    温度を常にチェックして、運用年数を元に Figure5 に従って情報を表示とか、そもそも3年を越えると死にやすさ補正でもするとか。

    しかし、3年未満の間は35-40度が一番死ににくいという事は、冬は HDD クーラーをわざと止めて、ある程度温度が高くなるように調整した方がいいという事だろうか。
  • Anonymous Coward : 2007年02月19日 22時58分 (#1112778)
    流通経路だったりして
    某**急便を使うのは保険目当てってのを聞いた事があります。

    # 元販売店員だったときの実感
    # いろいろ聞かれたくないのでAC
    • >流通経路だったりして
      >某**急便を使うのは保険目当てってのを聞いた事があります。
      ># 元販売店員だったときの実感
      ># いろいろ聞かれたくないのでAC

      伏字じゃつまらないので、私が15年程前に聞いた例を書いてしまおう。
      昔のことなので細かい表現は違っているかもしれないけど、
      要旨は以下のような感じ。

      「故障品を佐川急便で発送し輸送中に故障したことにして、
      保険で修理する。佐川急便は良く物を壊すのでこの様な手段が可能だ。」

      どう考えても保険金詐欺の手口ですが、
      現在もこの様なことが行われているのでしょうか?
  • Anonymous Coward : 2007年02月19日 9時13分 (#1112277)
    HDDの温度が50度を超えると故障率が上がるという話で、Googleは
    50度を超えないようにクーリングしているんだと思います。
    普通に使っていればHDDの温度なんて軽く50度を突破すると思うので、
    全然参考にはならないんじゃないでしょうか。

    耐久性のあるメーカー・HDDという指標であれば非常に参考になると
    思われますけど、その情報は出さないということなので、参考にしたい
    情報が無い情報は参考にならない、でいいんじゃないでしょうか。

    • 実際に何度かは見てないけど、HDD には必ず吸気ファンの
      風を当てています。

      HDD 密着タイプのファンって、大抵下面の電子基板冷やすけど、
      故障に影響するのって、上面と下面どっちが影響大きいんでしょうね?
      --
      TomOne
    • Anonymous Coward : 2007年02月19日 12時57分 (#1112456)
      >メーカー、機種名が出ても本質的には参考にならん
      >(本人はなったつもりでも実は外してる)
      >ケースが多いと思いますよ。

      もの凄く参考になります。
      かつて、特定のメーカーの特定のHDDを大量導入したところ、
      非常に高い頻度で故障が連発しました。
      サーバによってはアクセス頻度が高かったり、アクセスは少なかったり、
      温度条件も良好だったりと使用条件はバラバラですが、ただ同じだった
      条件というのが特定のメーカーの特定の機種だったということだけです。

      新品で取り付けたばかりの時点でセクタエラーが大量に出るという
      パターンさえ多数ありました。

      >他の人も一部言われてますが、
      >24h連続稼動に強いものと電源ON/OFFに強いもの、
          <<面倒なのでさくっとsnip>>
      >電源変動に強いものと安定してさえすれば強いもの、
      >ってのはたぶんまったく同じではないですから。

      どこでどのように使われるかわからない商品を作るとき、
      動作条件を定めてからその尺度内で機能するように作ります。
      動作条件もそれほど特殊なものはないでしょう。
      その範囲内で同じように使っても差が出る以上、メーカーや
      機種の情報は非常に重要です。

      • Anonymous Coward : 2007年02月19日 13時17分 (#1112473)
        > かつて、特定のメーカーの特定のHDDを大量導入したところ、
        > 非常に高い頻度で故障が連発しました。

        そういうトラブルを避けるには、「壊れやすいメーカを知る」よりも、「できるかぎりメーカ、機種をばらばらに揃える」ほうが対策として有効だと思います。Googleのデータ集計時の品質管理の順位が不動だって保証はないですから。

      • >かつて、特定のメーカーの特定のHDDを大量導入したところ、
        >非常に高い頻度で故障が連発しました。

        製造ロットによる当たりハズレってのは、大量導入にあたっては実際深刻な問題ですからね。
        一概にそのメーカーのその機種の品質が悪いとは言い切れませんよ。

        もしかしたらその辺りのことも考慮されていたかもですが、そうでないならやはり他の方の返信にもあるように、メーカーや型番、製造時期をできるだけバラバラにして集めるべきかと。
      • IBMのDTLAだったりして...。
        註:IBMがHDD辞めるきっかけになったと目される大ハズレ機種
        • T-D (31865) : 2007年02月19日 18時40分 (#1112666)
          >IBMのDTLAだったりして...。
          初のガラスプラッタで話題性も人気が高かっただけに、突然死のときも騒ぎは大きいことになりましたね。
          OEM供給元はファームウェアを公開したのに、IBMからは供給されなかったと記憶しています。
          あのときに配布していれば何かが変わったのかも知れないと個人的には思っています。

          例えば、こんな風に [hp.com]今でもファームは公開されているのですけれど。

          そういう私もまだDTLAは使っています。いつ破損しても困らない用途にですが。
      • 1個のコメント が現在のしきい値以下です。
    • Anonymous Coward : 2007年02月19日 21時56分 (#1112748)
      HDDのために空調を効かせるのは、普通の使い方なのかな?
      世間一般的に、そこまでHDDに気を回すかなあ。
      • この人が言ってるのは、「空調が効いていれば50度を超えない」ということですが、
        一方、24時間稼働させているのは正直「普通の使い方」とはいえないと思います。

        人が使うときだけ電源をいれるのであれば、その時には空調が入っているでしょうから、
        「普通の使い方」ではやはり50度を超えないのではないでしょうか。
      • 運用上熱暴走ぐらいですむならどれだけ楽か・・・
        24時間商用系で運用しているサーバーで一番困るのはデータが完全に飛ぶことです
        CPUなんざいくらでも交換できますよ、でもデータはどうしようもないんですよね

        とっても困る順位は 
        データ破損(HDD)>運用停止(ダウンタイム)>その他リカバリ可能な障害
        になりますね
        CPUが飛んでも予備系が動きゃ何とかなるけどHDDがとびゃもう大変です

        #ま、RAID組んで多少は平気でも環境が悪けりゃいっせいに死ぬ率も高くなるわけで
      • 1個のコメント が現在のしきい値以下です。
    • 2個のコメント が現在のしきい値以下です。
  • saitoh (10803) : 2007年02月19日 11時29分 (#1112379)
    問題の論文の温度関係のところだけざっと読んでみました。googleのHDDは大半が25℃~35℃の温度範囲で稼動しているようです。 ≦45℃では温度に故障率は関係ないというのは、バスタブ曲線の底での偶発故障には高温は関係ないということのようです。 使い始めてからの年数ごとの解析のほうをみると、3年たったドライブでは温度に比例して故障率があがっています。 で、グラフは4年までしかありません。

    1. 50℃を超えると頓死する確率が高くなる
    2. 35℃を超える温度領域では、高温は寿命の短縮をもたらす。といっても3年~4年は持つ。
    面白いのは、総合故障率で35℃~40℃が最も低いところ。この温度帯では AFR (年間故障率: Annualized Failure Rate) で0.01%を切っています。

    で、これより低温の領域では 温度が低いほど確率確率が高いという結果が出ています。50℃のドライブより20℃のドライブが倍以上故障しやすい。

    • 3ヶ月目では15度から30度がもっとも故障率が高いのに対して、3年目では45度以降がもっとも故障率が高い。
      というか2年目と3年目で逆転してるのが話をややこしくしてる。
      時期に応じた故障率の低い最適温度に保つにはどうしたら良いのやら。
      • >時期に応じた故障率の低い最適温度に保つにはどうしたら良いのやら。

        これが自動車やクーラーなどだと清掃したり弱ったパーツを交換したりといったメンテができますが、HDDの場合は買ってから何ひとついじらないってとこに難しさがありそうですね。
        パッケージを開けることさえできない(おそらく開けた方が壊れやすい)し、もちろん油を差すなんて事もしない。埃と振動を避けるのは当然としても、それこそ後は温度・湿度くらいしか要因をいじれない。それに加えて当たりと外れのロットもあるでしょうから、それらも故障率に影響するでしょうし。(そういえば最適湿度って分かりませんね。サーバールームは一定範囲でしょうけど、各家庭では国や地域で違いが出ますし。)
        業務用としては「当たりのロット(丈夫で長寿命)」が選別できれば高くてもそれを使うという事ができましょうが、CPUの選別品などと違ってそれこそHDDでは長時間ブン回してみるしか確認しようがない気がするので「運を天に任せる」というアナクロな手法に頼るしかないのでしょうか…。

        #神はサイコロを振らない。でもギリシャの神は、よく下界の人間でチェスをする。
    • 2個のコメント が現在のしきい値以下です。
  • Re:電源on/offは (スコア:1, 参考になる)

    Anonymous Coward : 2007年02月19日 14時51分 (#1112541)
    HDDメーカーの中の人とお話をしたところでは「CSSが5万回あるので止めてたほうがよい」という話でした。

    #スタート/ストップが5万回!サバ読むな!
  • 6個のコメント が現在のしきい値以下です。