DRAM　のエラー発生率は従来考えられていたよりずっと高い?

DRAM　のエラー発生率は従来考えられていたよりずっと高い? 44

ストーリー by reo 2009年10月09日 11時30分
good-news-for-users-of-smaller-systems 部門より

ある Anonymous Coward 曰く、

Google のエンジニアとトロント大学の研究者らが行った研究によると、DRAM のエラーは従来考えられていたより 100 倍から 1000 倍の高確率で発生しているそうだ (本家 /. 記事、ZDNet.com の記事より)。
この研究では Google のデータセンターにて 2 年半に渡り、ベンダーやキャパシティ、また技術も異なる様々な DRAM のデータを収集したとのこと。これによるとエラー率は Mbit あたり 10 億デバイス時間で 25,000 ～ 70,000 エラーであり、DIMM の 8 % 以上で毎年 1 回以上のエラーが発生しているという結果となったそうだ。
エラーの原因はソフトウェアよりもハードウェアエラーに因ることが多いとのことで、DIMM エラー率に大きな影響があると考えられている温度は実際の運用でエラーの原因となっていることは少なかったとのこと。また、新世代の DIMM の方がエラー率が高いと言われているが、そのような兆候はみられなかったとのことだ。
なお、論文はトロント大学のサイトにて全文閲覧可能。

この議論は賞味期限が切れたので、アーカイブ化されています。新たにコメントを付けることはできません。

記事ページを表示すべてのコメント取得

検索44コメント Log In/Create an Account

ソフトエラー (スコア:4, 参考になる)

by chu-chu (7456) on 2009年10月09日 11時45分 (#1651513)

> エラーの原因はソフトウェアよりもハードウェアエラーに因ることが多い
DIMMのエラーの話で何を意味不明なことを言っているのかと思って原文を読んでみれば、
タレこみ主はsoft errorとhard errorの意味を知らなかったようだ。
参考までに：ソフトエラーとは [e-words.jp]
- Re:ソフトエラー (スコア:2)
  
  by j-ehara (31269) on 2009年10月09日 11時59分 (#1651526) 日記
  
  ハード屋曰く「今回の事象はメモリのソフトエラーが原因でして…」
  それを聞きてソフト屋曰く「ハードの不具合を我々ソフトのせいにするな！」
  # 実話かどうかは知らない。
  
  シェア
  
  親コメント
- Re:ソフトエラー (スコア:2, 興味深い)
  
  by 505 (12538) on 2009年10月09日 21時04分 (#1651901)
  
  そもそも「宇宙線などの影響でメモリ中のビットが反転しちゃう」ことを、
  なんで「ソフトエラー」って言うようになったんですかね。
  なんかプログラムのバグによるエラーの話かと思っちゃうよね…
  
  本当にメモリセルが死んで、ビットが常に'1'になっちゃうようなエラーと
  区別する必要があるからなんでしょうが、もうちょっと名前の付けようがなかったのかと…
  
  シェア
  
  親コメント
  - Re:ソフトエラー (スコア:2, 興味深い)
    
    by Anonymous Coward on 2009年10月10日 10時40分 (#1652096)
    
    だから
    ×フリーソフト
    ○フリーソフトウェア
    だとあれほど…
    こほん。
    「ソフトエラー」であって「ソフトウェアエラー」じゃないんだから、
    ソフトというはべつにソフトウェアの専売じゃないだろ。
    さもないとPCにこぼしたソフトクリームまで突っ込みの対象になりかねん。
    
    シェア
    
    親コメント
- Re: (スコア:0)
  
  by Anonymous Coward
  
  という知ったかな書き方はしないほうが良いよ。
  自分を賢く見せたい意図が（その有無に関わらず）見えちゃうから。
soft error (スコア:3, 参考になる)

by phason (22006) <mail@molecularscience.jp> on 2009年10月09日 11時43分 (#1651510) 日記

>ソフトウェアよりもハードウェアエラーに因ることが多いとのことで
いや，そうではなくて．
「（信じられていたのとは逆に）soft errorが多いのではなく，hard errorが多いよ」，ということです．
でもってsoft errorってのはソフトウェアは関係なしに，ランダムにたまに起きるビット反転．主に放射線等によると言われている偶発的で一過性（いや，データは訂正が入らなければ壊れたままだけど）のエラーです．
一方のhard errorはいわゆる物理的な故障．どこかの回路が焼き切れただとかそういう回復不能なエラー．
- Re: (スコア:0)
  
  by Anonymous Coward
  
  論文読む暇がなくて申し訳ないが以下のサイトでの説明で、ソフトエラーの広義と狭義の２種類
  あるといっています。
  　狭義は、中性子線やα線等の外部放射の擾乱によるエラー
  　広義は、狭義＋電圧変動等によるエラー
  ここでは、
  　ソフトエラーは、狭義のソフトエラー＝中性子線やα線等の外部放射の擾乱によるエラー　
  　ハードエラーは、広義ソフトエラー－（マイナス）狭義ソフトエラー＝電圧変動等によるエラー
  ではないのかな？
  http://techon.nikkeibp.co.jp/article/WORD/20060314/114813/ [nikkeibp.co.jp]
それに加え (スコア:2)

by Wankoro (13537) on 2009年10月09日 11時42分 (#1651509)

その上で動いているソフトのエラー発生率は…
- Re: (スコア:0)
  
  by Anonymous Coward
  
  たぶん０でしょう。
  ちゃんと作ったように正しく動いています。
  期待した動きかどうかはまた別の問題ですけど…
DDR3世代に入ってから (スコア:2, 興味深い)

by hima-ari (29119) <syamatsumi@gmail.com> on 2009年10月09日 11時59分 (#1651527) ホームページ日記

で、そんな中、IntelはCore i7シリーズでECCを無効化した、と。
まぁ、X48チップセットで既に無効化されてたけどねー。
XEON売りたいのは解るけどえげつねえよなぁ・・・
それでも価格差があんま無いのは良い事だが、なにしろ入手性が悪すぎる。
ハードエラー（チップの故障など、再現性のあるもの）が激増してるとの事だが、
それでも増えてるのが主にコレクタブルエラー（修正可能なエラー。CE）ならまだECCの意味はある。
- Re:DDR3世代に入ってから (スコア:1)
  
  by miyabi9821 (29975) on 2009年10月09日 12時25分 (#1651554)
  
  1-way Opteronを愛用していますが、マザーがコンシューマ向けなので、
  ECCのEnable/DisableオプションをBIOSメニューで見たことがありません。
  もしかしたらECCメモリを刺せば使えるのかも知れませんが、
  OCメモリにはECC付きが無いんですよね。
  まぁ、OCメモリとECCメモリは対極の存在なので、仕方ないと思いますが…。
  # そもそもOpteronをOCして使うのが間違い。
  
  シェア
  
  親コメント
  - Re:DDR3世代に入ってから (スコア:2, 参考になる)
    
    by SteppingWind (2654) on 2009年10月09日 14時23分 (#1651659)
    
    まぁ、OCメモリとECCメモリは対極の存在なので、仕方ないと思いますが…。
    理屈ではECCメモリはCPUというかメモリコントローラ側でエラー修正ができるので, 特にOCでダレたデータには効果的なはずです. 実際, リンク先の記事には, エラーの原因となっているのはメモリチップ自体のエラーよりも, マザーボードのメモリ信号線に乗るノイズが原因になる例が多い(設計がまずくてノイズを撒き散らす信号線が近接しているとか, グランド層が貧弱だとか)らしいので, そこをカバーできるというのは大きなアドバンテージになるはずです.
    PhenomIIなんかだと, BEだと半ばOC公認(もちろん無保証)みたいなものだし, 対応マザーもECC対応の物が多いみたいだから, OCかけても安定させたいなんて場合にはECCメモリの利用が効果が大きいかもしれないです. まあそれでソフトエラーは減って安定しても, ハードエラーで寿命がくるのは早くなりそうですが.
    
    シェア
    
    親コメント
  - Re:DDR3世代に入ってから (スコア:1)
    
    by hima-ari (29119) <syamatsumi@gmail.com> on 2009年10月09日 12時47分 (#1651577) ホームページ日記
    
    レギュレーターにかかる負荷が1.3割多いからECCメモリのOCはやめた方が・・・
    X48チップセットでECC駄目にされたのもそんな理由だったし。
    なお、ECCが動いてようが動いていまいが、
    チップが付いてる以上、電気はしっかり定格で食ってるらしい。
    
    シェア
    
    親コメント
- Re: (スコア:0)
  
  by Anonymous Coward
  
  IntelがだめならAMDがあるじゃないですか
PCにECC Unbufferメモリの利用を推奨します。の人～ (スコア:0)

by Anonymous Coward on 2009年10月09日 11時40分 (#1651506)

出番ですよ～
- Re:PCにECC Unbufferメモリの利用を推奨します。の人～ (スコア:2, 興味深い)
  
  by hima-ari (29119) <syamatsumi@gmail.com> on 2009年10月09日 12時04分 (#1651534) ホームページ日記
  
  呼んだ？
  意味もないのに自己弁護しておくと、
  発生頻度やパソコンにおけるメモリの扱い方からして、
  コンシューマーユースにはあんま関係無いし、
  MEMTESTとかでモジュールの故障に気付いちゃうようなオタクは
  ECCなんか無くてもメモリ故障に気付くからいよいよ不要とか言われると反論しようが無い。
  宗教のようなものと理解してもらえれば一番自然かと思うんだ。
  
  シェア
  
  親コメント
  - Re:PCにECC Unbufferメモリの利用を推奨します。の人～ (スコア:2)
    
    by pantora (11989) on 2009年10月10日 0時17分 (#1651999)
    
    え？呼んだ？
    自宅のメインマシンはECC Registeredメモリーを使っています。
    サブマシンもECC Registeredメモリー、サードマシンがやっとECC Unbufferedメモリー。
    ノートPCは仕方がなくECCなしですが。
    
    --
    PCにECC Registeredメモリの利用を推奨します。
    
    シェア
    
    親コメント
  - Re:ぱんつにウンコがついても恥ずかしくないもん (スコア:0)
    
    by Anonymous Coward
    
    IBMのサイトに昔あったけど
    NON-ECCメモリーでのメモリーエラーの発生頻度を複数台の端末で調べると
    1週間以上経過したあたりからメモリーエラーが発生する端末が増え
    1ヵ月後ではほぼすべての端末で発生したとか。
    
    逆に言えば1週間も連続して起動させることがないなら
    ＥＣＣは必要ないともいえるかと
    
    まぁこれも回避可能なエラーな話しなのでＥＣＣでの修正が効かない
    エラーでＣＰＵ側でも回避不能ならシステムエラーになる運命ですが・・・
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      > 逆に言えば1週間も連続して起動させることがないなら
      > ＥＣＣは必要ないともいえるかと
      
      スリープ中でもメモリは化けるでしょうから、再起動させずに
      1ヶ月以上もスリープと復帰を繰り返している人は引っ掛かりますね。
      
      そのような状態でメーラーなんかを立ち上げっぱなしの人とかとかいませんか？
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        ノシ
        
        スリープと復帰だけでは一週間がやっとかな。
        メモリエラーよりメモリリークの方が問題な希ガス。
        鬱陶しくなってきて再起動。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  ひまわりさん！
- Re: (スコア:0)
  
  by Anonymous Coward
  
  は～い、既に使ってますよぉ～
よくわかんね (スコア:0)

by Anonymous Coward on 2009年10月09日 11時59分 (#1651524)

10億デバイス時間ってどれくらいですか…。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  HW屋さんの言葉では
  ・「デバイス」＝複数の石(チップ)や部品を基板などで集約したもの
  っぽいので、
  
  「製品としてのDIMM 1枚あたりの故障確率は 10億時間に1回の確率」
  
  って意味じゃないかな？
  
  コレ、DIMMの枚数が増えるとそれに比例して発生確率が増えるので
  今日日のPCみたいに「DIMMは2枚入ってます」というと、そのPC内でDIMMのエラーが
  出る確率は5億時間に1回って感じでしょうか？
  
  Googleが何枚のDIMMを稼働させているのかは知りませんが、仮に10万枚使っているとすると
  Google全体では1000時間に1回の割合でDIMMエラーが起きている事になります。
  (1000時間＝約42日)
  
  # 原文読んでないしハードの専門家でもないのでAC
  - Re:よくわかんね (スコア:3, 参考になる)
    
    by Anonymous Coward on 2009年10月09日 16時35分 (#1651746)
    
    論文(PDF)にあるDIMM１枚あたりのエラー発生回数の測定結果を、おおまかに訳しましたので参考にしてみてください。
    この実験は、Googleにある６台のマシンを用いて統計がとられています(期間は2006年1月～2008年6月)。
    マシンに使われているメモリは、複数メーカー(６社)でモデルも異なる1GB、2GB、4GBの３種類が用いられました。
    その結果DIMM１枚あたり年間
    (Table 1: Memory errors per year:)
    マシンA(DDR1) 4,530
    マシンB(DDR1) 4,086
    マシンC(DDR1) 3,351
    マシンD(DDR2) 3,918
    マシンE(FBD) - (データ収集不足)
    マシンF(DDR2) 3,408
    平均3,751回のコレクタブルエラーが観測されました。
    マシン/メモリの容量/メモリのメーカー別の結果はPDFのグラフ２(Table 2: Errors per DIMM by DIMM type/manufacturer)
    で見ることができます。
    (転載するには大きすぎるので実際のグラフを参照してください)。
    # グラフ２の見方
    # Pf:マシン、Mfg:メーカ番号、GB:容量、Mean CE rate:発生したエラーの回数　です。
    
    シェア
    
    親コメント
    - 思うにこれさ、 (スコア:0)
      
      by Anonymous Coward
      
      データの「書き換え」と「保持」のうち
      どちらのエラーが支配的なのかによって、
      数値の意味がえらく変わるよね。
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        書き換え、読み込み、保持にまでは言及してないみたいですね
        さすがにその領域は半導体メーカーの仕事じゃないですかね。
        コレクタブルエラーとアンコレクタブルエラー(CE/UE)がどういうものか知らなかったんですが
        ECCなサーバ機にはメモリーエラーカウンタやコレクタブルエラーカウンタというのがあるそうです(BIOSから読むのかな?)。
        この研究ではその結果(CE/UE)を元にメモリの種類/容量/メーカ/動作温度の関係を分析しているようですから、どのタイミングでエラーが発生しているかまではわからないと思います。
        /.Jにサーバ管理者は多いと思ので、年間どの程度エラーカンウントされるものなのか一例の報告が欲しいところですね。
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        おいおい
        ＞コレクタブルエラーとアンコレクタブルエラー(CE/UE)がどういうものか知らなかったんですが
        なんだか心配になってきた。変な宗教家に騙されたりした経験はありませんか？
        近くに「最高ですか～」なんて叫んでいる人は居ませんか？
  - Re:よくわかんね (スコア:1)
    
    by hima-ari (29119) <syamatsumi@gmail.com> on 2009年10月09日 12時39分 (#1651566) ホームページ日記
    
    英語読めないからタレコミから計算してみるけど、
    メモリ一本当たり10億時間に2.5万～7万回エラーが起こるって事は、
    4.5年から1.6年に1回のペースでエラーが起きてるって事かな？
    DIMM4本刺してりゃ半年から1年ちょいに1回。
    あれ？　計算間違ったかな？　結構多い印象が。
    
    シェア
    
    親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      10億時間に7万回だとして、１時間あたりの故障率は7/100,000、
      10億時間に2.5万回だと、2.5/100,000、
      DIMM4本なので故障率は、1 - (1 - 7/100,000) ^ 4 ～ 1 - (1 - 2.5/100,000) ^ 4
      エラーが１回起きるのは 1 / (1 - (1 - 7/100,000) ^ 4) ～ 1 / (1 - (1 - 2.5/100,000) ^ 4)
      で計算すると約 5ヶ月～14ヶ月（3572時間、10000時間）に一回起きる計算になります。
      ん？あってるかな？
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      >>メモリ一本当たり
      「Mbit あたり」って書いてあるでしょ。
      # どこからメモリ１本なんて単位が沸いてきたんだか
      - ここからですよ＞1本 (スコア:1)
        
        by renja (12958) on 2009年10月09日 13時30分 (#1651617) 日記
        
        |iiiiliiii|iiiiliiii|iiiiliiii|
        
        --
        
        ψアレゲな事を真面目にやることこそアレゲだと思う。
        
        シェア
        
        親コメント
      - Re:よくわかんね (スコア:1)
        
        by hima-ari (29119) <syamatsumi@gmail.com> on 2009年10月09日 13時39分 (#1651630) ホームページ日記
        
        なんか自分は文盲なのではないかという気がしてきた。
        ・・・はともかく、計算しなおしたら凄いことにならないか？
        512MB 3.5～9.8時間に1回
        1GB　1.7～4.9時間に1回
        2GB　0.9～2.4時間に1回
        3GB　35～98分に1回
        6GB　26～73分に1回
        8GB　13～37分に1回
        12GB　9～24分に1回
        訂正可能とはいえエラー起きすぎだろ・・・　そんなもんなの？
        
        シェア
        
        親コメント
アブストラクトからコピペ (スコア:0, 既出)

by Livingdead (18685) on 2009年10月09日 12時18分 (#1651545) ホームページ日記

そのうちタレこみ分の「ソフトウェア」のところも修正されると思うけど，とりあえずアブストラクトから．
We provide strong evidence that memory errors are dominated by hard errors, rather than soft errors, which most previous work focuses on. We find that, out of all the factors that impact a DIMM’s error behavior in the field, temperature has a surprisingly small effect. Finally, unlike commonly feared, we don’t observe any indication that per-DIMM error rates increase with newer generations of DIMMs.
DRAM Errors in the Wild: A Large-Scale Field Study [toronto.edu]

--
屍体メモ [windy.cx]
- Re:アブストラクトからコピペ (スコア:1)
  
  by hima-ari (29119) <syamatsumi@gmail.com> on 2009年10月09日 12時59分 (#1651587) ホームページ日記
  
  英語読めねえ・・・
  英語が出来る事前提で書き込むインテリ様には頭が下がるぜHehehe・・・
  エラー訂正において、これまで注目されてたソフトエラーよりもハードエラーの方が深刻で、
  そのハードエラーは温度による影響が大きい事が解りました。
  一般的に新しい世代になるほどエラーが増えると恐れられていますが、
  そういった傾向は観察できませんでした。
  ・・・つまり、熱いメモリはとっとと冷やせって事か。
  
  シェア
  
  親コメント
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    > そのハードエラーは温度による影響が大きい事が解りました。
    (中略)
    > ・・・つまり、熱いメモリはとっとと冷やせって事か。
    
    逆です．(タレコミに書いてありますが)
    
    temperature has a surprisingly small effect
    → 温度は意外と小さな影響しかなかった
    - Re:アブストラクトからコピペ (スコア:1)
      
      by hima-ari (29119) <syamatsumi@gmail.com> on 2009年10月09日 14時05分 (#1651648) ホームページ日記
      
      うん。?sid=470133&cid=1651596 [slashdot.jp]にも書いたけど、間違いに気付いた頃にはもう手遅れで。orz
      
      シェア
      
      親コメント
      - Re:アブストラクトからコピペ (スコア:1, おもしろおかしい)
        
        by Anonymous Coward on 2009年10月09日 14時18分 (#1651653)
        
        さすが Unbuffer 推奨の人だけのことはある
        
        シェア
        
        親コメント
- - - Re: (スコア:0, オフトピック)
      
      by hima-ari (29119)
      
      うん。一生懸命読んでタレコミの文と同様の内容だったのが解った瞬間、空しくなった。
      しかも読み間違いに気付いた瞬間に誤操作で投稿してああああぁぁぁぁ
      米欄に直接書かずにメモ帳使った方が良いのかな orz
温度は関係無い？ (スコア:0)

by Anonymous Coward on 2009年10月09日 17時58分 (#1651798)

このような [cnet.com]、エアフローもなにも無いようなあやしい環境で、使ってる人に言われても。
- Re:温度は関係無い？ (スコア:3, 興味深い)
  
  by Anonymous Coward on 2009年10月09日 21時34分 (#1651917)
  
  キミ、古いよ。
  今のGoogleのデータセンターには冷房すらない [publickey.jp]んだよ。
  
  シェア
  
  親コメント
よくあるので放置してます (スコア:0)

by Anonymous Coward on 2009年10月15日 2時52分 (#1654091)

サーバ機はメモリエラーを検出したらログがとれるのが多いと思いますが、うちの環境でもそこそこエラーログは出てますね勝手に宇宙線や放射線の影響じゃないかなとかおもって多すぎない限り放置してます

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

DRAM のエラー発生率は従来考えられていたよりずっと高い? More ログイン

ソフトエラー (スコア:4, 参考になる)

Re:ソフトエラー (スコア:2)

Re:ソフトエラー (スコア:2, 興味深い)

Re:ソフトエラー (スコア:2, 興味深い)

Re: (スコア:0)

soft error (スコア:3, 参考になる)

Re: (スコア:0)

それに加え (スコア:2)

Re: (スコア:0)

DDR3世代に入ってから (スコア:2, 興味深い)

Re:DDR3世代に入ってから (スコア:1)

Re:DDR3世代に入ってから (スコア:2, 参考になる)

Re:DDR3世代に入ってから (スコア:1)

Re: (スコア:0)

PCにECC Unbufferメモリの利用を推奨します。の人～ (スコア:0)

Re:PCにECC Unbufferメモリの利用を推奨します。の人～ (スコア:2, 興味深い)

Re:PCにECC Unbufferメモリの利用を推奨します。の人～ (スコア:2)

Re:ぱんつにウンコがついても恥ずかしくないもん (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

よくわかんね (スコア:0)

Re: (スコア:0)

Re:よくわかんね (スコア:3, 参考になる)

思うにこれさ、 (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re:よくわかんね (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

ここからですよ＞1本 (スコア:1)

Re:よくわかんね (スコア:1)

アブストラクトからコピペ (スコア:0, 既出)

Re:アブストラクトからコピペ (スコア:1)

Re: (スコア:0)

Re:アブストラクトからコピペ (スコア:1)

Re:アブストラクトからコピペ (スコア:1, おもしろおかしい)

Re: (スコア:0, オフトピック)

温度は関係無い？ (スコア:0)

Re:温度は関係無い？ (スコア:3, 興味深い)

よくあるので放置してます (スコア:0)

DRAM　のエラー発生率は従来考えられていたよりずっと高い? More ログイン