DRAM のエラー発生率は従来考えられていたよりずっと高い? 44
ストーリー by reo
good-news-for-users-of-smaller-systems 部門より
good-news-for-users-of-smaller-systems 部門より
ある Anonymous Coward 曰く、
Google のエンジニアとトロント大学の研究者らが行った研究によると、DRAM のエラーは従来考えられていたより 100 倍から 1000 倍の高確率で発生しているそうだ (本家 /. 記事、ZDNet.com の記事より)。
この研究では Google のデータセンターにて 2 年半に渡り、ベンダーやキャパシティ、また技術も異なる様々な DRAM のデータを収集したとのこと。これによるとエラー率は Mbit あたり 10 億デバイス時間で 25,000 ~ 70,000 エラーであり、DIMM の 8 % 以上で毎年 1 回以上のエラーが発生しているという結果となったそうだ。
エラーの原因はソフトウェアよりもハードウェアエラーに因ることが多いとのことで、DIMM エラー率に大きな影響があると考えられている温度は実際の運用でエラーの原因となっていることは少なかったとのこと。また、新世代の DIMM の方がエラー率が高いと言われているが、そのような兆候はみられなかったとのことだ。
なお、論文はトロント大学のサイトにて全文閲覧可能。
ソフトエラー (スコア:4, 参考になる)
> エラーの原因はソフトウェアよりもハードウェアエラーに因ることが多い
DIMMのエラーの話で何を意味不明なことを言っているのかと思って原文を読んでみれば、
タレこみ主はsoft errorとhard errorの意味を知らなかったようだ。
参考までに:ソフトエラーとは [e-words.jp]
Re:ソフトエラー (スコア:2)
ハード屋曰く「今回の事象はメモリのソフトエラーが原因でして…」
それを聞きてソフト屋曰く「ハードの不具合を我々ソフトのせいにするな!」
# 実話かどうかは知らない。
Re:ソフトエラー (スコア:2, 興味深い)
なんで「ソフトエラー」って言うようになったんですかね。
なんかプログラムのバグによるエラーの話かと思っちゃうよね…
本当にメモリセルが死んで、ビットが常に'1'になっちゃうようなエラーと
区別する必要があるからなんでしょうが、もうちょっと名前の付けようがなかったのかと…
Re:ソフトエラー (スコア:2, 興味深い)
だから
×フリーソフト
○フリーソフトウェア
だとあれほど…
こほん。
「ソフトエラー」であって「ソフトウェアエラー」じゃないんだから、
ソフトというはべつにソフトウェアの専売じゃないだろ。
さもないとPCにこぼしたソフトクリームまで突っ込みの対象になりかねん。
Re: (スコア:0)
という知ったかな書き方はしないほうが良いよ。
自分を賢く見せたい意図が(その有無に関わらず)見えちゃうから。
soft error (スコア:3, 参考になる)
>ソフトウェアよりもハードウェアエラーに因ることが多いとのことで
いや,そうではなくて.
「(信じられていたのとは逆に)soft errorが多いのではなく,hard errorが多いよ」,ということです.
でもってsoft errorってのはソフトウェアは関係なしに,ランダムにたまに起きるビット反転.主に放射線等によると言われている偶発的で一過性(いや,データは訂正が入らなければ壊れたままだけど)のエラーです.
一方のhard errorはいわゆる物理的な故障.どこかの回路が焼き切れただとかそういう回復不能なエラー.
Re: (スコア:0)
論文読む暇がなくて申し訳ないが以下のサイトでの説明で、ソフトエラーの広義と狭義の2種類
あるといっています。
狭義は、中性子線やα線等の外部放射の擾乱によるエラー
広義は、狭義+電圧変動等によるエラー
ここでは、
ソフトエラーは、狭義のソフトエラー=中性子線やα線等の外部放射の擾乱によるエラー
ハードエラーは、広義ソフトエラー-(マイナス)狭義ソフトエラー=電圧変動等によるエラー
ではないのかな?
http://techon.nikkeibp.co.jp/article/WORD/20060314/114813/ [nikkeibp.co.jp]
それに加え (スコア:2)
Re: (スコア:0)
ちゃんと作ったように正しく動いています。
期待した動きかどうかはまた別の問題ですけど…
DDR3世代に入ってから (スコア:2, 興味深い)
で、そんな中、IntelはCore i7シリーズでECCを無効化した、と。
まぁ、X48チップセットで既に無効化されてたけどねー。
XEON売りたいのは解るけどえげつねえよなぁ・・・
それでも価格差があんま無いのは良い事だが、なにしろ入手性が悪すぎる。
ハードエラー(チップの故障など、再現性のあるもの)が激増してるとの事だが、
それでも増えてるのが主にコレクタブルエラー(修正可能なエラー。CE)ならまだECCの意味はある。
Re:DDR3世代に入ってから (スコア:1)
ECCのEnable/DisableオプションをBIOSメニューで見たことがありません。
もしかしたらECCメモリを刺せば使えるのかも知れませんが、
OCメモリにはECC付きが無いんですよね。
まぁ、OCメモリとECCメモリは対極の存在なので、仕方ないと思いますが…。
# そもそもOpteronをOCして使うのが間違い。
Re:DDR3世代に入ってから (スコア:2, 参考になる)
理屈ではECCメモリはCPUというかメモリコントローラ側でエラー修正ができるので, 特にOCでダレたデータには効果的なはずです. 実際, リンク先の記事には, エラーの原因となっているのはメモリチップ自体のエラーよりも, マザーボードのメモリ信号線に乗るノイズが原因になる例が多い(設計がまずくてノイズを撒き散らす信号線が近接しているとか, グランド層が貧弱だとか)らしいので, そこをカバーできるというのは大きなアドバンテージになるはずです.
PhenomIIなんかだと, BEだと半ばOC公認(もちろん無保証)みたいなものだし, 対応マザーもECC対応の物が多いみたいだから, OCかけても安定させたいなんて場合にはECCメモリの利用が効果が大きいかもしれないです. まあそれでソフトエラーは減って安定しても, ハードエラーで寿命がくるのは早くなりそうですが.
Re:DDR3世代に入ってから (スコア:1)
レギュレーターにかかる負荷が1.3割多いからECCメモリのOCはやめた方が・・・
X48チップセットでECC駄目にされたのもそんな理由だったし。
なお、ECCが動いてようが動いていまいが、
チップが付いてる以上、電気はしっかり定格で食ってるらしい。
Re: (スコア:0)
PCにECC Unbufferメモリの利用を推奨します。の人~ (スコア:0)
Re:PCにECC Unbufferメモリの利用を推奨します。の人~ (スコア:2, 興味深い)
呼んだ?
意味もないのに自己弁護しておくと、
発生頻度やパソコンにおけるメモリの扱い方からして、
コンシューマーユースにはあんま関係無いし、
MEMTESTとかでモジュールの故障に気付いちゃうようなオタクは
ECCなんか無くてもメモリ故障に気付くからいよいよ不要とか言われると反論しようが無い。
宗教のようなものと理解してもらえれば一番自然かと思うんだ。
Re:PCにECC Unbufferメモリの利用を推奨します。の人~ (スコア:2)
え?呼んだ?
自宅のメインマシンはECC Registeredメモリーを使っています。
サブマシンもECC Registeredメモリー、サードマシンがやっとECC Unbufferedメモリー。
ノートPCは仕方がなくECCなしですが。
PCにECC Registeredメモリの利用を推奨します。
Re:ぱんつにウンコがついても恥ずかしくないもん (スコア:0)
NON-ECCメモリーでのメモリーエラーの発生頻度を複数台の端末で調べると
1週間以上経過したあたりからメモリーエラーが発生する端末が増え
1ヵ月後ではほぼすべての端末で発生したとか。
逆に言えば1週間も連続して起動させることがないなら
ECCは必要ないともいえるかと
まぁこれも回避可能なエラーな話しなのでECCでの修正が効かない
エラーでCPU側でも回避不能ならシステムエラーになる運命ですが・・・
Re: (スコア:0)
> ECCは必要ないともいえるかと
スリープ中でもメモリは化けるでしょうから、再起動させずに
1ヶ月以上もスリープと復帰を繰り返している人は引っ掛かりますね。
そのような状態でメーラーなんかを立ち上げっぱなしの人とかとかいませんか?
Re: (スコア:0)
スリープと復帰だけでは一週間がやっとかな。
メモリエラーよりメモリリークの方が問題な希ガス。
鬱陶しくなってきて再起動。
Re: (スコア:0)
ひまわりさん!
Re: (スコア:0)
よくわかんね (スコア:0)
10億デバイス時間ってどれくらいですか…。
Re: (スコア:0)
・「デバイス」=複数の石(チップ)や部品を基板などで集約したもの
っぽいので、
「製品としてのDIMM 1枚あたりの故障確率は 10億時間に1回の確率」
って意味じゃないかな?
コレ、DIMMの枚数が増えるとそれに比例して発生確率が増えるので
今日日のPCみたいに「DIMMは2枚入ってます」というと、そのPC内でDIMMのエラーが
出る確率は5億時間に1回って感じでしょうか?
Googleが何枚のDIMMを稼働させているのかは知りませんが、仮に10万枚使っているとすると
Google全体では1000時間に1回の割合でDIMMエラーが起きている事になります。
(1000時間=約42日)
# 原文読んでないしハードの専門家でもないのでAC
Re:よくわかんね (スコア:3, 参考になる)
論文(PDF)にあるDIMM1枚あたりのエラー発生回数の測定結果を、おおまかに訳しましたので参考にしてみてください。
この実験は、Googleにある6台のマシンを用いて統計がとられています(期間は2006年1月~2008年6月)。
マシンに使われているメモリは、複数メーカー(6社)でモデルも異なる1GB、2GB、4GBの3種類が用いられました。
その結果DIMM1枚あたり年間
(Table 1: Memory errors per year:)
マシンA(DDR1) 4,530
マシンB(DDR1) 4,086
マシンC(DDR1) 3,351
マシンD(DDR2) 3,918
マシンE(FBD) - (データ収集不足)
マシンF(DDR2) 3,408
平均3,751回のコレクタブルエラーが観測されました。
マシン/メモリの容量/メモリのメーカー別の結果はPDFのグラフ2(Table 2: Errors per DIMM by DIMM type/manufacturer)
で見ることができます。
(転載するには大きすぎるので実際のグラフを参照してください)。
# グラフ2の見方
# Pf:マシン、Mfg:メーカ番号、GB:容量、Mean CE rate:発生したエラーの回数 です。
思うにこれさ、 (スコア:0)
データの「書き換え」と「保持」のうち
どちらのエラーが支配的なのかによって、
数値の意味がえらく変わるよね。
Re: (スコア:0)
書き換え、読み込み、保持にまでは言及してないみたいですね
さすがにその領域は半導体メーカーの仕事じゃないですかね。
コレクタブルエラーとアンコレクタブルエラー(CE/UE)がどういうものか知らなかったんですが
ECCなサーバ機にはメモリーエラーカウンタやコレクタブルエラーカウンタというのがあるそうです(BIOSから読むのかな?)。
この研究ではその結果(CE/UE)を元にメモリの種類/容量/メーカ/動作温度の関係を分析しているようですから、どのタイミングでエラーが発生しているかまではわからないと思います。
/.Jにサーバ管理者は多いと思ので、年間どの程度エラーカンウントされるものなのか一例の報告が欲しいところですね。
Re: (スコア:0)
>コレクタブルエラーとアンコレクタブルエラー(CE/UE)がどういうものか知らなかったんですが
なんだか心配になってきた。変な宗教家に騙されたりした経験はありませんか?
近くに「最高ですか~」なんて叫んでいる人は居ませんか?
Re:よくわかんね (スコア:1)
英語読めないからタレコミから計算してみるけど、
メモリ一本当たり10億時間に2.5万~7万回エラーが起こるって事は、
4.5年から1.6年に1回のペースでエラーが起きてるって事かな?
DIMM4本刺してりゃ半年から1年ちょいに1回。
あれ? 計算間違ったかな? 結構多い印象が。
Re: (スコア:0)
10億時間に7万回だとして、1時間あたりの故障率は7/100,000、
10億時間に2.5万回だと、2.5/100,000、
DIMM4本なので故障率は、1 - (1 - 7/100,000) ^ 4 ~ 1 - (1 - 2.5/100,000) ^ 4
エラーが1回起きるのは 1 / (1 - (1 - 7/100,000) ^ 4) ~ 1 / (1 - (1 - 2.5/100,000) ^ 4)
で計算すると約 5ヶ月~14ヶ月(3572時間、10000時間)に一回起きる計算になります。
ん?あってるかな?
Re: (スコア:0)
>>メモリ一本当たり
「Mbit あたり」って書いてあるでしょ。
# どこからメモリ1本なんて単位が沸いてきたんだか
ここからですよ>1本 (スコア:1)
ψアレゲな事を真面目にやることこそアレゲだと思う。
Re:よくわかんね (スコア:1)
なんか自分は文盲なのではないかという気がしてきた。
・・・はともかく、計算しなおしたら凄いことにならないか?
512MB 3.5~9.8時間に1回
1GB 1.7~4.9時間に1回
2GB 0.9~2.4時間に1回
3GB 35~98分に1回
6GB 26~73分に1回
8GB 13~37分に1回
12GB 9~24分に1回
訂正可能とはいえエラー起きすぎだろ・・・ そんなもんなの?
アブストラクトからコピペ (スコア:0, 既出)
そのうちタレこみ分の「ソフトウェア」のところも修正されると思うけど,とりあえずアブストラクトから.
屍体メモ [windy.cx]
Re:アブストラクトからコピペ (スコア:1)
英語読めねえ・・・
英語が出来る事前提で書き込むインテリ様には頭が下がるぜHehehe・・・
エラー訂正において、これまで注目されてたソフトエラーよりもハードエラーの方が深刻で、
そのハードエラーは温度による影響が大きい事が解りました。
一般的に新しい世代になるほどエラーが増えると恐れられていますが、
そういった傾向は観察できませんでした。
・・・つまり、熱いメモリはとっとと冷やせって事か。
Re: (スコア:0)
(中略)
> ・・・つまり、熱いメモリはとっとと冷やせって事か。
逆です.(タレコミに書いてありますが)
temperature has a surprisingly small effect
→ 温度は意外と小さな影響しかなかった
Re:アブストラクトからコピペ (スコア:1)
うん。?sid=470133&cid=1651596 [slashdot.jp]にも書いたけど、間違いに気付いた頃にはもう手遅れで。orz
Re:アブストラクトからコピペ (スコア:1, おもしろおかしい)
Re: (スコア:0, オフトピック)
うん。一生懸命読んでタレコミの文と同様の内容だったのが解った瞬間、空しくなった。
しかも読み間違いに気付いた瞬間に誤操作で投稿してああああぁぁぁぁ
米欄に直接書かずにメモ帳使った方が良いのかな orz
温度は関係無い? (スコア:0)
Re:温度は関係無い? (スコア:3, 興味深い)
キミ、古いよ。
今のGoogleのデータセンターには冷房すらない [publickey.jp]んだよ。
よくあるので放置してます (スコア:0)