パスワードを忘れた? アカウント作成
151219 story
ストレージ

DRAM のエラー発生率は従来考えられていたよりずっと高い? 44

ストーリー by reo
good-news-for-users-of-smaller-systems 部門より

ある Anonymous Coward 曰く、

Google のエンジニアとトロント大学の研究者らが行った研究によると、DRAM のエラーは従来考えられていたより 100 倍から 1000 倍の高確率で発生しているそうだ (本家 /. 記事ZDNet.com の記事より)。

この研究では Google のデータセンターにて 2 年半に渡り、ベンダーやキャパシティ、また技術も異なる様々な DRAM のデータを収集したとのこと。これによるとエラー率は Mbit あたり 10 億デバイス時間で 25,000 ~ 70,000 エラーであり、DIMM の 8 % 以上で毎年 1 回以上のエラーが発生しているという結果となったそうだ。

エラーの原因はソフトウェアよりもハードウェアエラーに因ることが多いとのことで、DIMM エラー率に大きな影響があると考えられている温度は実際の運用でエラーの原因となっていることは少なかったとのこと。また、新世代の DIMM の方がエラー率が高いと言われているが、そのような兆候はみられなかったとのことだ。

なお、論文はトロント大学のサイトにて全文閲覧可能。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • ソフトエラー (スコア:4, 参考になる)

    by chu-chu (7456) on 2009年10月09日 11時45分 (#1651513)

    > エラーの原因はソフトウェアよりもハードウェアエラーに因ることが多い

    DIMMのエラーの話で何を意味不明なことを言っているのかと思って原文を読んでみれば、
    タレこみ主はsoft errorとhard errorの意味を知らなかったようだ。

    参考までに:ソフトエラーとは [e-words.jp]

    • by j-ehara (31269) on 2009年10月09日 11時59分 (#1651526) 日記

      ハード屋曰く「今回の事象はメモリのソフトエラーが原因でして…」
      それを聞きてソフト屋曰く「ハードの不具合を我々ソフトのせいにするな!」

      # 実話かどうかは知らない。

      親コメント
    • by 505 (12538) on 2009年10月09日 21時04分 (#1651901)
      そもそも「宇宙線などの影響でメモリ中のビットが反転しちゃう」ことを、
      なんで「ソフトエラー」って言うようになったんですかね。
      なんかプログラムのバグによるエラーの話かと思っちゃうよね…

      本当にメモリセルが死んで、ビットが常に'1'になっちゃうようなエラーと
      区別する必要があるからなんでしょうが、もうちょっと名前の付けようがなかったのかと…
      親コメント
      • by Anonymous Coward on 2009年10月10日 10時40分 (#1652096)

        だから
        ×フリーソフト
        ○フリーソフトウェア
        だとあれほど…

        こほん。

        「ソフトエラー」であって「ソフトウェアエラー」じゃないんだから、
        ソフトというはべつにソフトウェアの専売じゃないだろ。
        さもないとPCにこぼしたソフトクリームまで突っ込みの対象になりかねん。

        親コメント
    • by Anonymous Coward

      という知ったかな書き方はしないほうが良いよ。
      自分を賢く見せたい意図が(その有無に関わらず)見えちゃうから。

  • soft error (スコア:3, 参考になる)

    by phason (22006) <mail@molecularscience.jp> on 2009年10月09日 11時43分 (#1651510) 日記

    >ソフトウェアよりもハードウェアエラーに因ることが多いとのことで

    いや,そうではなくて.
    「(信じられていたのとは逆に)soft errorが多いのではなく,hard errorが多いよ」,ということです.
    でもってsoft errorってのはソフトウェアは関係なしに,ランダムにたまに起きるビット反転.主に放射線等によると言われている偶発的で一過性(いや,データは訂正が入らなければ壊れたままだけど)のエラーです.
    一方のhard errorはいわゆる物理的な故障.どこかの回路が焼き切れただとかそういう回復不能なエラー.

    • by Anonymous Coward

      論文読む暇がなくて申し訳ないが以下のサイトでの説明で、ソフトエラーの広義と狭義の2種類
      あるといっています。
       狭義は、中性子線やα線等の外部放射の擾乱によるエラー
       広義は、狭義+電圧変動等によるエラー
      ここでは、
       ソフトエラーは、狭義のソフトエラー=中性子線やα線等の外部放射の擾乱によるエラー 
       ハードエラーは、広義ソフトエラー-(マイナス)狭義ソフトエラー=電圧変動等によるエラー
      ではないのかな?
      http://techon.nikkeibp.co.jp/article/WORD/20060314/114813/ [nikkeibp.co.jp]

  • by Wankoro (13537) on 2009年10月09日 11時42分 (#1651509)
    その上で動いているソフトのエラー発生率は…
    • by Anonymous Coward
      たぶん0でしょう。
      ちゃんと作ったように正しく動いています。
      期待した動きかどうかはまた別の問題ですけど…
  • で、そんな中、IntelはCore i7シリーズでECCを無効化した、と。
    まぁ、X48チップセットで既に無効化されてたけどねー。
    XEON売りたいのは解るけどえげつねえよなぁ・・・
    それでも価格差があんま無いのは良い事だが、なにしろ入手性が悪すぎる。

    ハードエラー(チップの故障など、再現性のあるもの)が激増してるとの事だが、
    それでも増えてるのが主にコレクタブルエラー(修正可能なエラー。CE)ならまだECCの意味はある。

    • 1-way Opteronを愛用していますが、マザーがコンシューマ向けなので、
      ECCのEnable/DisableオプションをBIOSメニューで見たことがありません。
      もしかしたらECCメモリを刺せば使えるのかも知れませんが、
      OCメモリにはECC付きが無いんですよね。
      まぁ、OCメモリとECCメモリは対極の存在なので、仕方ないと思いますが…。
      # そもそもOpteronをOCして使うのが間違い。
      親コメント
      • by SteppingWind (2654) on 2009年10月09日 14時23分 (#1651659)

        まぁ、OCメモリとECCメモリは対極の存在なので、仕方ないと思いますが…。

        理屈ではECCメモリはCPUというかメモリコントローラ側でエラー修正ができるので, 特にOCでダレたデータには効果的なはずです. 実際, リンク先の記事には, エラーの原因となっているのはメモリチップ自体のエラーよりも, マザーボードのメモリ信号線に乗るノイズが原因になる例が多い(設計がまずくてノイズを撒き散らす信号線が近接しているとか, グランド層が貧弱だとか)らしいので, そこをカバーできるというのは大きなアドバンテージになるはずです.

        PhenomIIなんかだと, BEだと半ばOC公認(もちろん無保証)みたいなものだし, 対応マザーもECC対応の物が多いみたいだから, OCかけても安定させたいなんて場合にはECCメモリの利用が効果が大きいかもしれないです. まあそれでソフトエラーは減って安定しても, ハードエラーで寿命がくるのは早くなりそうですが.

        親コメント
      • レギュレーターにかかる負荷が1.3割多いからECCメモリのOCはやめた方が・・・
        X48チップセットでECC駄目にされたのもそんな理由だったし。

        なお、ECCが動いてようが動いていまいが、
        チップが付いてる以上、電気はしっかり定格で食ってるらしい。

        親コメント
    • by Anonymous Coward
      IntelがだめならAMDがあるじゃないですか
  • by Anonymous Coward on 2009年10月09日 11時40分 (#1651506)
    出番ですよ~
    • 呼んだ?

      意味もないのに自己弁護しておくと、
      発生頻度やパソコンにおけるメモリの扱い方からして、
      コンシューマーユースにはあんま関係無いし、
      MEMTESTとかでモジュールの故障に気付いちゃうようなオタクは
      ECCなんか無くてもメモリ故障に気付くからいよいよ不要とか言われると反論しようが無い。

      宗教のようなものと理解してもらえれば一番自然かと思うんだ。

      親コメント
      • え?呼んだ?

        自宅のメインマシンはECC Registeredメモリーを使っています。
        サブマシンもECC Registeredメモリー、サードマシンがやっとECC Unbufferedメモリー。
        ノートPCは仕方がなくECCなしですが。

        --
        PCにECC Registeredメモリの利用を推奨します。
        親コメント
      • IBMのサイトに昔あったけど
        NON-ECCメモリーでのメモリーエラーの発生頻度を複数台の端末で調べると
        1週間以上経過したあたりからメモリーエラーが発生する端末が増え
        1ヵ月後ではほぼすべての端末で発生したとか。

        逆に言えば1週間も連続して起動させることがないなら
        ECCは必要ないともいえるかと

        まぁこれも回避可能なエラーな話しなのでECCでの修正が効かない
        エラーでCPU側でも回避不能ならシステムエラーになる運命ですが・・・
        • by Anonymous Coward
          > 逆に言えば1週間も連続して起動させることがないなら
          > ECCは必要ないともいえるかと

          スリープ中でもメモリは化けるでしょうから、再起動させずに
          1ヶ月以上もスリープと復帰を繰り返している人は引っ掛かりますね。

          そのような状態でメーラーなんかを立ち上げっぱなしの人とかとかいませんか?
          • by Anonymous Coward
            ノシ

            スリープと復帰だけでは一週間がやっとかな。
            メモリエラーよりメモリリークの方が問題な希ガス。
            鬱陶しくなってきて再起動。
    • by Anonymous Coward

      ひまわりさん!

    • by Anonymous Coward
      は~い、既に使ってますよぉ~
  • by Anonymous Coward on 2009年10月09日 11時59分 (#1651524)

    10億デバイス時間ってどれくらいですか…。

    • by Anonymous Coward
      HW屋さんの言葉では
      ・「デバイス」=複数の石(チップ)や部品を基板などで集約したもの
      っぽいので、

      「製品としてのDIMM 1枚あたりの故障確率は 10億時間に1回の確率」

      って意味じゃないかな?

      コレ、DIMMの枚数が増えるとそれに比例して発生確率が増えるので
      今日日のPCみたいに「DIMMは2枚入ってます」というと、そのPC内でDIMMのエラーが
      出る確率は5億時間に1回って感じでしょうか?

      Googleが何枚のDIMMを稼働させているのかは知りませんが、仮に10万枚使っているとすると
      Google全体では1000時間に1回の割合でDIMMエラーが起きている事になります。
      (1000時間=約42日)

      # 原文読んでないしハードの専門家でもないのでAC
      • Re:よくわかんね (スコア:3, 参考になる)

        by Anonymous Coward on 2009年10月09日 16時35分 (#1651746)

        論文(PDF)にあるDIMM1枚あたりのエラー発生回数の測定結果を、おおまかに訳しましたので参考にしてみてください。

        この実験は、Googleにある6台のマシンを用いて統計がとられています(期間は2006年1月~2008年6月)。
        マシンに使われているメモリは、複数メーカー(6社)でモデルも異なる1GB、2GB、4GBの3種類が用いられました。
        その結果DIMM1枚あたり年間
        (Table 1: Memory errors per year:)
        マシンA(DDR1) 4,530
        マシンB(DDR1) 4,086
        マシンC(DDR1) 3,351
        マシンD(DDR2) 3,918
        マシンE(FBD) - (データ収集不足)
        マシンF(DDR2) 3,408
        平均3,751回のコレクタブルエラーが観測されました。

        マシン/メモリの容量/メモリのメーカー別の結果はPDFのグラフ2(Table 2: Errors per DIMM by DIMM type/manufacturer)
        で見ることができます。
        (転載するには大きすぎるので実際のグラフを参照してください)。

        # グラフ2の見方
        # Pf:マシン、Mfg:メーカ番号、GB:容量、Mean CE rate:発生したエラーの回数 です。

        親コメント
        • by Anonymous Coward

          データの「書き換え」と「保持」のうち
          どちらのエラーが支配的なのかによって、
          数値の意味がえらく変わるよね。

          • by Anonymous Coward

            書き換え、読み込み、保持にまでは言及してないみたいですね
            さすがにその領域は半導体メーカーの仕事じゃないですかね。

            コレクタブルエラーとアンコレクタブルエラー(CE/UE)がどういうものか知らなかったんですが
            ECCなサーバ機にはメモリーエラーカウンタやコレクタブルエラーカウンタというのがあるそうです(BIOSから読むのかな?)。
            この研究ではその結果(CE/UE)を元にメモリの種類/容量/メーカ/動作温度の関係を分析しているようですから、どのタイミングでエラーが発生しているかまではわからないと思います。

            /.Jにサーバ管理者は多いと思ので、年間どの程度エラーカンウントされるものなのか一例の報告が欲しいところですね。

            • by Anonymous Coward
              おいおい
              >コレクタブルエラーとアンコレクタブルエラー(CE/UE)がどういうものか知らなかったんですが
              なんだか心配になってきた。変な宗教家に騙されたりした経験はありませんか?
              近くに「最高ですか~」なんて叫んでいる人は居ませんか?
      • 英語読めないからタレコミから計算してみるけど、
        メモリ一本当たり10億時間に2.5万~7万回エラーが起こるって事は、
        4.5年から1.6年に1回のペースでエラーが起きてるって事かな?
        DIMM4本刺してりゃ半年から1年ちょいに1回。

        あれ? 計算間違ったかな? 結構多い印象が。

        親コメント
        • by Anonymous Coward

          10億時間に7万回だとして、1時間あたりの故障率は7/100,000、
          10億時間に2.5万回だと、2.5/100,000、
          DIMM4本なので故障率は、1 - (1 - 7/100,000) ^ 4 ~ 1 - (1 - 2.5/100,000) ^ 4
          エラーが1回起きるのは 1 / (1 - (1 - 7/100,000) ^ 4) ~ 1 / (1 - (1 - 2.5/100,000) ^ 4)
          で計算すると約 5ヶ月~14ヶ月(3572時間、10000時間)に一回起きる計算になります。

          ん?あってるかな?

        • by Anonymous Coward

          >>メモリ一本当たり
          「Mbit あたり」って書いてあるでしょ。
          # どこからメモリ1本なんて単位が沸いてきたんだか

  • そのうちタレこみ分の「ソフトウェア」のところも修正されると思うけど,とりあえずアブストラクトから.

    We provide strong evidence that memory errors are dominated by hard errors, rather than soft errors, which most previous work focuses on. We find that, out of all the factors that impact a DIMM’s error behavior in the field, temperature has a surprisingly small effect. Finally, unlike commonly feared, we don’t observe any indication that per-DIMM error rates increase with newer generations of DIMMs.
    DRAM Errors in the Wild: A Large-Scale Field Study [toronto.edu]

    --
    屍体メモ [windy.cx]
  • by Anonymous Coward on 2009年10月09日 17時58分 (#1651798)
    このような [cnet.com]、エアフローもなにも無いようなあやしい環境で、使ってる人に言われても。
  • by Anonymous Coward on 2009年10月15日 2時52分 (#1654091)
    サーバ機はメモリエラーを検出したらログがとれるのが多いと思いますが、 うちの環境でもそこそこエラーログは出てますね 勝手に宇宙線や放射線の影響じゃないかなとかおもって多すぎない限り放置してます
typodupeerror

日々是ハック也 -- あるハードコアバイナリアン

読み込み中...