Googleが大量に使用しているHDDの故障率の分析 61
ストーリー by yourCat
S.M.A.R.T.≠スマート 部門より
S.M.A.R.T.≠スマート 部門より
GIGAZINEの記事によれば、Googleが大量に使用している民生レベルのHDD (ATAあるいはSATA/80GB~400GB/5400~7200rpm) の故障率とS.M.A.R.T.値等の分析から、非常に興味深い結果が得られたようだ (Failure Trends in a Large Disk Drive Population [PDF])。
まず、温度やアクセス頻度と故障率に有意な関連性はなかった (50度以上となると話は別)。一方、スキャンエラー、リロケーションカウントなど、いくつかの指標は故障と強い関連性があった。しかし大半の故障は徴候を示さない突然死であり、S.M.A.R.T.値による故障予測日数は殆ど参考にならなかった。
なお、メーカーや機種ごとの統計は公開されていない。
メーカーがわかっても (スコア:3, 参考になる)
Googleとは比較になりませんが、2002年の4月頃から2006年の4月頃までその時点での最大容量のHDDを少なくとも2台毎月私は買っていたのですが、IBM(日立)、Seagate、Maxtor、Western Digitalをくまなく買っていたと(意識していたわけではないのである程度偏りはあるけど)思いますが、メーカー毎というよりシリーズ毎に壊れやすさに変動があるという印象です。
あとランダムアクセス性能は1つ前のモデルより最新モデルのほうが悪いこともあったりして選択が難しいですよね。
50度という温度はわかっていませんでしたが、自分の感覚で「多少熱い」を超えると壊れやすいというのはあったので、今ではCPU冷却用のヒートパイプ&大型ファン付きクーラーをHDDに直接密着させて冷却しています。
これであとは風量を温度に応じて自動調整しようと思っていてまだ手を付けていません。
市販のHDDケースはおまけ程度のファンしかついていないので、節電しようとエアコンを止めたりするとHDDの温度があっという間に上がっていくのが・・・ね。
「HDDケースの冷却装置は好みのCPUクーラーを取り付けてください」なんて製品があれば光るファンを付けたり、エアコンが嫌いな人や静穏化を望む人が大型のヒートシンク付きのものを付けたりといった、それぞれの選択ができるのに。
Re:メーカーがわかっても (スコア:1)
以前、私も似たような事をしていました。
私もHDDの上に余ったCPUクーラーをそのままポンと載せていました。
VMwareで仮想マシンをフルタイム稼働させていましたが、よく冷えていました。
うちはクーラーがないのですが、すきま風の入る家ですので…。
こうして"PC筐体の上"に置いておくと、夏冬関係なくとても良く冷えました。
もちろん冬は、PC前に座っている正座の私も冷え切ってorz
なぜ外だしだったかと言いますと、ケースに2台入れると廃熱出来ずOSが止まるからで。
今は筐体を買い換えて内臓させています。モツろんHDDの前に8センチファンx2が…。
Re:メーカーがわかっても (スコア:1, 参考になる)
>
>以前、私も似たような事をしていました。
>
>私もHDDの上に余ったCPUクーラーをそのままポンと載せていました。
微振動がハードディスクに悪影響を及ぼすと思います。
風を当てるだけにしたほうが良いです。
市販されているハードディスクの底面を冷やすクーラーなども
装着するとハードディスクの安全装置が作動することがあります。
Re:メーカーがわかっても (スコア:0)
>風を当てるだけにしたほうが良いです。
真剣に悩んでるので、どなたか回答を~
# まず「冷さない」という選択は、ないです
・HDD用のファンをつける
・CPUの余ったファンをのせる
とかで、「ファンの振動は悪影響なのでは?」と思ったのですが
・HDD自体も微振動してる・・・
そうすると、ケースの中に2台入れてもお互いが干渉するし。
一応今は、HDDマウンタとの間はネジではなくて、ゴム製のピン(?)を使ってるのですが。
どうするのがベストなんでしょうね?
# サーバラックとかだと、HDDマウンタごと「がっつり」はめ込んでるので
# あんまり気にすることはないのか?とも思いますが。
Re:メーカーがわかっても (スコア:1)
>そうすると、ケースの中に2台入れてもお互いが干渉するし。
実際に経験しました。
同じメーカー、おなじ回転数のHDD2台をケースに設置したところ、
両方同時に動かすと、ヴヴヴヴヴヴヴヴといかにも何か異常な音が発生。
片方ずつなら問題なしだったのですが。
結局、これ [ainex.jp]を購入して、片方を5インチベイに設置することで解決しました。
ψアレゲな事を真面目にやることこそアレゲだと思う。
Re:メーカーがわかっても (スコア:0)
Re:メーカーがわかっても (スコア:1)
私の場合HDDに乗っているチップにGPUメモリ用のヒートシンクを貼り付けてその上からファンで冷却してます。
ただほとんどの騒音がこのファンによるもので、
温度に合わせてファン速度を自動調整できると良いと思う。
Re:メーカーがわかっても (スコア:1)
>私の場合HDDに乗っているチップにGPUメモリ用のヒートシンクを貼り付けてその上からファンで冷却してます。
>ただほとんどの騒音がこのファンによるもので、
>温度に合わせてファン速度を自動調整できると良いと思う。
今も当時のディスクで動いてます。
ソレハソレとして…。
書き忘れましたが
余ったCPUクーラーを上に載せていただけで、ファンは回しておりませんでした。
むしろ、ファンが付いていない物だった為、バランスを崩し誤って上に手をつくと
HDDは傷も付かないクセに、私の手は傷が…。
ケースを変えて以来このHDDは内蔵させていますが、ファンはHDDに温度計をつけて
温度によって回転する様なファンコントローラで回しています。
Re:メーカーがわかっても (スコア:1)
PC9801のモニターとか、サーバーモニターで手を温めたのが懐かしく思います。
今は、サーバーラックの裏に回って温風であたたま(略)。
Re:メーカーがわかっても (スコア:1)
Re:メーカーがわかっても (スコア:1)
>PC9801のモニターとか、サーバーモニターで手を温めたのが懐かしく思います。
コレは自宅です。
サーバーモニターは今は亡きロビン電子で購入。後にドリキャス用モニター(VGA)に転職。
>今は、サーバーラックの裏に回って温風であたたま(略)。
こっちは客先のサーバールームです。
コートを来てても寒いです(汗)
Re:メーカーがわかっても (スコア:1)
>あれ?妊娠させたらヤバいからじゃないの?
いやぁ、バッテリ内蔵のサーバー向けとか買う金あればグラボを買い換え(略)
故障原因や故障箇所が知りたい (スコア:2, 興味深い)
このerrorの原因や箇所が断定されていないので、もやっとしている。
素直に考えれば、回転軸がぶれ出す--->回転軸の磨耗か、となってしまう。
磁気流体軸受けは、磨耗しないのかな?
それとも、軸受けはさらに複数の部品から構成されているから、故障解析は難しいのかな?
磁性体が遠心力で動いてしまう?
円盤の軸受けじゃなくて、ヘッドの軸受け?
誰かスッキリさせてくれー
本家の方 (スコア:1)
コメント数はいっぱいあるけど内容自体はそれほど、見たいな感じですね。
メーカーが知りたい、やせめてX社Y社とか匿名でもいいから知りたかったってコメントしていている人もいますね。
細かいことはさておき (スコア:1, 興味深い)
というところかな? (5年で1/4が故障)
Re:細かいことはさておき (スコア:3, 参考になる)
ただ問題は, 故障のほとんどが最後の5年目に集中して起こることでしょう.
Googleぐらい頻繁に設備を増設していれば故障の発生時期も平準化されるのかもしれませんが, 基幹業務用なんかで特定のタイミングでまとめて導入した場合には, ある時期を過ぎると故障対応で追いまくられるなんてことにもなりかねません. まあ, その時期にはディスクの方も新しい世代に入っているでしょうから, 設備を償却して入れ替え・データ移行ってのが総合的なコスト削減のためには良いのかもしれません.
Re:細かいことはさておき (スコア:0)
PDFのオリジナルの文書ではそういう傾向にはなっておりません。
Re:細かいことはさておき (スコア:4, 興味深い)
グラフだけではなく本文も読んだほうがいいですよ. 例えば文書中の図2で3年目, 4年目あたりの故障が増加しているのは, その年代の特定のモデルによる効果が大きく, 加齢による損耗を示すものではないと明記されています. つまり「ある時期」を過ぎると故障対応で追いまくられるって言う場合の「ある時期」がディスクのモデルや製造年によって大きく違うってことです.
いずれにせよ, この文書って全体的に注意して読まないと間違った結論に至りやすいです.
smarttools の進化を望む (スコア:1, 興味深い)
温度を常にチェックして、運用年数を元に Figure5 に従って情報を表示とか、そもそも3年を越えると死にやすさ補正でもするとか。
しかし、3年未満の間は35-40度が一番死ににくいという事は、冬は HDD クーラーをわざと止めて、ある程度温度が高くなるように調整した方がいいという事だろうか。
実は故障率を左右する要因で一番大きいのは (スコア:1, 興味深い)
某**急便を使うのは保険目当てってのを聞いた事があります。
# 元販売店員だったときの実感
# いろいろ聞かれたくないのでAC
Re:実は故障率を左右する要因で一番大きいのは (スコア:2, 興味深い)
>某**急便を使うのは保険目当てってのを聞いた事があります。
># 元販売店員だったときの実感
># いろいろ聞かれたくないのでAC
伏字じゃつまらないので、私が15年程前に聞いた例を書いてしまおう。
昔のことなので細かい表現は違っているかもしれないけど、
要旨は以下のような感じ。
「故障品を佐川急便で発送し輸送中に故障したことにして、
保険で修理する。佐川急便は良く物を壊すのでこの様な手段が可能だ。」
どう考えても保険金詐欺の手口ですが、
現在もこの様なことが行われているのでしょうか?
我々の参考になる?ならない? (スコア:0)
Re:我々の参考になる?ならない? (スコア:5, 参考になる)
- 50℃を超えると頓死する確率が高くなる
- 35℃を超える温度領域では、高温は寿命の短縮をもたらす。といっても3年~4年は持つ。
面白いのは、総合故障率で35℃~40℃が最も低いところ。この温度帯では AFR (年間故障率: Annualized Failure Rate) で0.01%を切っています。で、これより低温の領域では 温度が低いほど確率確率が高いという結果が出ています。50℃のドライブより20℃のドライブが倍以上故障しやすい。
Re:我々の参考になる?ならない? (スコア:1)
というか2年目と3年目で逆転してるのが話をややこしくしてる。
時期に応じた故障率の低い最適温度に保つにはどうしたら良いのやら。
Re:我々の参考になる?ならない? (スコア:1)
これが自動車やクーラーなどだと清掃したり弱ったパーツを交換したりといったメンテができますが、HDDの場合は買ってから何ひとついじらないってとこに難しさがありそうですね。
パッケージを開けることさえできない(おそらく開けた方が壊れやすい)し、もちろん油を差すなんて事もしない。埃と振動を避けるのは当然としても、それこそ後は温度・湿度くらいしか要因をいじれない。それに加えて当たりと外れのロットもあるでしょうから、それらも故障率に影響するでしょうし。(そういえば最適湿度って分かりませんね。サーバールームは一定範囲でしょうけど、各家庭では国や地域で違いが出ますし。)
業務用としては「当たりのロット(丈夫で長寿命)」が選別できれば高くてもそれを使うという事ができましょうが、CPUの選別品などと違ってそれこそHDDでは長時間ブン回してみるしか確認しようがない気がするので「運を天に任せる」というアナクロな手法に頼るしかないのでしょうか…。
#神はサイコロを振らない。でもギリシャの神は、よく下界の人間でチェスをする。
風呂の温度に例えると (スコア:0)
グラフのマジック (スコア:0)
レンジの取り方次第でこの結論は変わってきそう。30℃から45℃の範囲をまとめると、この温度で動かしたときに故障率が最大になるし。
Re:我々の参考になる?ならない? (スコア:2, すばらしい洞察)
50度を超えないようにクーリングしているんだと思います。
普通に使っていればHDDの温度なんて軽く50度を突破すると思うので、
全然参考にはならないんじゃないでしょうか。
耐久性のあるメーカー・HDDという指標であれば非常に参考になると
思われますけど、その情報は出さないということなので、参考にしたい
情報が無い情報は参考にならない、でいいんじゃないでしょうか。
Re:我々の参考になる?ならない? (スコア:1)
風を当てています。
HDD 密着タイプのファンって、大抵下面の電子基板冷やすけど、
故障に影響するのって、上面と下面どっちが影響大きいんでしょうね?
TomOne
Re:我々の参考になる?ならない? (スコア:0)
(本人はなったつもりでも実は外してる)
ケースが多いと思いますよ。
他の人も一部言われてますが、
24h連続稼動に強いものと電源ON/OFFに強いもの、
稼働時間に支配されるものとアクセス数に支配されるもの、
温度変化に強いものと安定してれば温度によらず強いもの、
物理的に強いものと酷使に強いもの、
読み出しだけだと強いものと読み書き双方が続いても強いもの、
多数の小さいアクセスに強いものと連続アクセスに強いもの、
電源変動に強いものと安定してさえすれば強いもの、
ってのはたぶんまったく同じではないですから。
Re:我々の参考になる?ならない? (スコア:2, 参考になる)
>(本人はなったつもりでも実は外してる)
>ケースが多いと思いますよ。
もの凄く参考になります。
かつて、特定のメーカーの特定のHDDを大量導入したところ、
非常に高い頻度で故障が連発しました。
サーバによってはアクセス頻度が高かったり、アクセスは少なかったり、
温度条件も良好だったりと使用条件はバラバラですが、ただ同じだった
条件というのが特定のメーカーの特定の機種だったということだけです。
新品で取り付けたばかりの時点でセクタエラーが大量に出るという
パターンさえ多数ありました。
>他の人も一部言われてますが、
>24h連続稼動に強いものと電源ON/OFFに強いもの、
<<面倒なのでさくっとsnip>>
>電源変動に強いものと安定してさえすれば強いもの、
>ってのはたぶんまったく同じではないですから。
どこでどのように使われるかわからない商品を作るとき、
動作条件を定めてからその尺度内で機能するように作ります。
動作条件もそれほど特殊なものはないでしょう。
その範囲内で同じように使っても差が出る以上、メーカーや
機種の情報は非常に重要です。
Re:我々の参考になる?ならない? (スコア:2, 興味深い)
> 非常に高い頻度で故障が連発しました。
そういうトラブルを避けるには、「壊れやすいメーカを知る」よりも、「できるかぎりメーカ、機種をばらばらに揃える」ほうが対策として有効だと思います。Googleのデータ集計時の品質管理の順位が不動だって保証はないですから。
Re:我々の参考になる?ならない? (スコア:1)
>非常に高い頻度で故障が連発しました。
製造ロットによる当たりハズレってのは、大量導入にあたっては実際深刻な問題ですからね。
一概にそのメーカーのその機種の品質が悪いとは言い切れませんよ。
もしかしたらその辺りのことも考慮されていたかもですが、そうでないならやはり他の方の返信にもあるように、メーカーや型番、製造時期をできるだけバラバラにして集めるべきかと。
Re:我々の参考になる?ならない? (スコア:0)
少し古い型のHDDが手に入らなくて悔しい思いをしたことがあります。
最低同じ型番のものを2個ぐらいづつ買っておくと幸せになれるかも。
# 同じメモリ基板メーカーでも時期によってチップが違うのと同じで、
# hpとかから純正ハードディスク買っても時期によって不治痛だったりSeagateだったりなのが困る。
# あれ中身指定して買えるんですかね?
Re:我々の参考になる?ならない? (スコア:0)
> かつて、特定のメーカーの特定のHDDを大量導入したところ、
> 非常に高い頻度で故障が連発しました。
もの凄く参考にしたいので公開してみてください。
Re:我々の参考になる?ならない? (スコア:1)
註:IBMがHDD辞めるきっかけになったと目される大ハズレ機種
それでもDTLAを使用中 (スコア:1)
初のガラスプラッタで話題性も人気が高かっただけに、突然死のときも騒ぎは大きいことになりましたね。
OEM供給元はファームウェアを公開したのに、IBMからは供給されなかったと記憶しています。
あのときに配布していれば何かが変わったのかも知れないと個人的には思っています。
例えば、こんな風に [hp.com]今でもファームは公開されているのですけれど。
そういう私もまだDTLAは使っています。いつ破損しても困らない用途にですが。
Re:それでもDTLAを使用中 (スコア:1)
# てかSMART止めるだけじゃダメなのかなー。
Re:我々の参考になる?ならない? (スコア:0)
> 全然参考にはならないんじゃないでしょうか。
突破しますか?
普通のPCショップで買った普通のミニタワー筐体に、ハードディスクを2台
入れてオフィスで24時間稼働させてますが、SMARTによると、空調が効いて
いれば、最高で47度くらいです。
ただし、夏場は空調が切れた時間帯に54度まで上がった記録があります。
従って、空調さえ効いていれば、50度を突破はしないのでは?
Re:我々の参考になる?ならない? (スコア:1, すばらしい洞察)
世間一般的に、そこまでHDDに気を回すかなあ。
Re:我々の参考になる?ならない? (スコア:1)
一方、24時間稼働させているのは正直「普通の使い方」とはいえないと思います。
人が使うときだけ電源をいれるのであれば、その時には空調が入っているでしょうから、
「普通の使い方」ではやはり50度を超えないのではないでしょうか。
Re:我々の参考になる?ならない? (スコア:0)
このため、マシンルームに空調を効かすのは極めて一般的です。
というか、空調の効いてないマシンルームはありえないと思いますが…
オフィスの場合、夜間は空調が効いてない方が普通ですが、24時間稼働の
マシンはオフィスとは別の常時空調の効いた部屋に置くのが常識では?
問題なのは、家庭にサーバを置いて夏場に24時間稼働させる場合とかですかね。
このような利用方法をした場合、故障率が上がることを覚悟しておくべきでしょう。
Re:我々の参考になる?ならない? (スコア:1)
24時間商用系で運用しているサーバーで一番困るのはデータが完全に飛ぶことです
CPUなんざいくらでも交換できますよ、でもデータはどうしようもないんですよね
とっても困る順位は
データ破損(HDD)>運用停止(ダウンタイム)>その他リカバリ可能な障害
になりますね
CPUが飛んでも予備系が動きゃ何とかなるけどHDDがとびゃもう大変です
#ま、RAID組んで多少は平気でも環境が悪けりゃいっせいに死ぬ率も高くなるわけで
Re:我々の参考になる?ならない? (スコア:0)
>Googleのような酷使されてる環境
家庭で毎日通電を入切してるほうが酷使しているのかも。
電源on/offは (スコア:0)
1日に1回以上電源on/offするようなパーソナルユースだとやっぱりもっと寿命短いんだろうなあ。
Re:電源on/offは (スコア:1, 参考になる)
#スタート/ストップが5万回!サバ読むな!
Re:電源on/offは (スコア:0, 余計なもの)
図だけ斜め読み (スコア:0)
せめてSMARTのどの値がどれくらいの個数でどの程度まで悪化してます、みたいなもん欲しかったかも。
細かい数字はともかく (スコア:0)
回すの止めると壊れる傾向はあるなぁ。
温度やアクセス頻度と故障率に有意な関連性はなかった (スコア:0)
温度が非常に高くてもぜんぜん壊れない。
逆に、一般人が使うPCはほんの些細なことでも
HDDは壊れやすいです。
人間がうなるほど高い室温の中
手で触れ状態まで発熱した3台のHDDが
まる4年も正常に動きつづけたのには恐れ入りました<システム入れ替えで引退