パスワードを忘れた? アカウント作成
273864 journal

jordan_bethの日記: 教えて!自作PCの神様 13

日記 by jordan_beth
宅内のサーバ(クリティカルなものではないですが、一応お客さん向けの認証サーバやデータベースを立てた物)を置き換えようと思っています。
で、今まで i7205 という骨董品級のマザボを使ったもの、それから一時激安だったデルサーバを使っていました。これらは双方 ECC メモリを使用しているのですが、置き換えにおいていろいろマザボを見てみたところ、インテルのチップセットを使ったメモリはたかーいサーバ向けマザボでないと ECC に対応していないようです(AMDは…すいません使ったことないです)。

もはや、格安な ECC 対応のマザボはないのでしょうか?

というか、ECC はそもそも必要なのでしょうか。というか、恥を偲んで告白すると、今まで5年近く ECC 付きのメモリ使っていて、エラーを補足し訂正したよというログを見たことがありません(なんか特別な物必要?)。

もちろん潤沢に予算をかけて高価なサーバー(やサーバー向けマザボ)を買えばいいんでしょうが、そこはしがない自営業、出来ることなら安く済ませたい。でもメモリエラーでハングとかはご勘弁願いたい。とはいえ、10年に一度起こるかどうかわからない不具合のために余計な出費も嫌だ…と堂々巡りに陥っています。

ECC は必要だ、否、そんなモノ必要ない、という言葉で、私めの背中を押してくださいまし。お願いします。
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by ribbon (11750) on 2010年11月15日 20時00分 (#1859250) 日記

    こんなのいかがでしょう。

    NTT X store [nttxstore.jp]

    ECCメモリが使えるマザーボードを使っています。マザーボードだけを手配するよりも
    安いです。

    • 噂には効いていましたが、やっすいですねぇ。
      ただ、自作にしたかったのは、ディスク4枚を RAID10 でエンクロージャに格納してホットスワップ…とまでは行かなくても手軽に?ディスクの交換を行いたかったので、5インチベイ三段が必要なのです(で、ケースは現在のものを使おうかと)。安鯖にはなかなかないんですよね、光ディスク含めて四段というケースが。
      実は比較的新しめのデルサーバからマザボ取り出してケースに格納という夢を見ましたが、フォームファクタが違いすぎて断念したという…

      しかし…
      >> 1×PCI EXPRESS 2.0(x16レーン、x16ソケット)+
      まじですか。電源さえ許容すれば、ミドルレンジのグラフィックボード載っけてフツーのデスクトップとしても使えそう…
      --
      ん? 俺、今何か言った?
      • >まじですか。電源さえ許容すれば、ミドルレンジのグラフィックボード載っけてフツーのデスクトップとしても使えそう…

        サウンド関係もないですよ。サーバですから。

        あと、RAID10だとすると、ディスク4つ必要ではないでしょうか。

        • サウンドは… USB じゃだめっすか?(^^;;

          ディスク4つ必要ではないでしょうか。

          5インチベイ三段を使って3.5インチのディスク4つ押しこむエンクロージャがありまして…
          たとえばこんな [supermicro.com]の

          いまだと eSATA で外付けにしちゃうんでしょうけど、資産の有効活用ということで。

          --
          ん? 俺、今何か言った?
      • 見た目前面3段ではないですけど、内部に別に4つディスクのベイがあって、丸ごと取り外せます。実際にそこに4玉つっこんで 3D+1P で使っています。ベイ専用のファンの取付けもできるのはさすがにサーバ機なんですが、最下段の風の通りに難があるので、ちょっと細工は必要かな。

        ディスク積むには、電源さえ考慮すれば結構融通の利くマシンです。

  • >10年に一度起こるかどうかわからない不具合のために余計な出費
    そう思っていた時期が私にもありました。夏前までは。

    確かに、個人的に20年以上パソコン使っていて、メモリなんか壊れないよ。
    壊れるなんて、どういう使い方してるのよ。
    と思っていたのですが、夏から公私共にメモリが壊れまくりまして。
    6月からだいたい8枚ほど立て続けに壊れましたw

    最近は安くなっている上に、CPUクロックやメモリにかかる電力も上がっているので、
    耐えきれず壊れてしまう事も多くなっているのではないかと思います。
    消耗品とはいえ、意外と忘れた頃に壊れて青い顔をするので、少しでも不安要素は取り除いておいた方がいいと思います。

    その代わり、サーバ本体は、既に出ているNTT-Xで調達してしまうのに一票。

  • 「うまく行かなかったら再試行してみてそれで通ればOK」とか「しばらく待ってから再試行してみてください」で済むような物ならECCは要らないかと。もしこれが「一度の失敗で損害が出る」もので、かつ損害の合計がそれを防ぐための費用を越えているようなら必要だけど。
    # その間は「見えない資産をどのくらいのコストをかけて積みたいのか」にかかってくるので経営判断。

    • 以前、メモリエラーでファイルシステムを壊したことがあります。
      メモリエラーでもある程度動き続けるような症状の場合
      再現性に乏しく原因を突き止めることが出来ない場合が多いのですが、
      その場合は珍しく原因がわかりまして、ファイルシステム壊すって怖っ!
      ってそれ以来業務ではECCのものばかり。まぁレアケースなんでしょうけど。

      稼動しながらメモリのエラーチェックって無理なのかな?
      論理アドレスと物理アドレスなんていくらでもマッピング出来るものなんだから
      空きメモリをちょっとずつずらしながら定期的に読み書きチェックするような。
      その読み書きについてはキャッシュラインを汚さない命令で。

      以上を検知したらメモリ縮退運転でも停止でも何でも良いんで。
      ミッションクリティカルでない限り半分壊れたまま動き続けるのが一番怖い。

      --
      屍体メモ [windy.cx]
      • ソフトエラーの方がずっと多いので、領域を代替してもどうかと。
        エラーレートのデータはあるはずだからコストは計算可能で、そうなるとリスクとコストの計算になるよね。結局。

        縮退運転自体はその領域を返却せずに「リーク」させるだけである程度は可能かな?仮想メモリの対象になってなかったりアドレスが決まってる領域だったりするとそれじゃ代替できないし、ダーティな領域が死んだらどうしようもないけど。

        • リスクとコストのトレードオフ、というのはわかります。が、幸いにして個人的にメモリに関するエラーというものに遭遇した経験がない(または ECC に助けられている?)ので、「もし」がどの程度のリスクになるのか、がわからなかったのです。
          そういう点で、livingdead さんの実例は非常に参考になります。ほんと、目に見えて障害と判るならまだマシ、ジワジワデータを壊していく障害は、吹けば飛ぶような自営業じゃ、ちょっと立ち直れなさそうなダメージを受けそう....
          で、なぜファイルシステムの破壊の原因がメモリだということがわかったのでしょう?後学のために教えていただけますか? > livingdead さん
          --
          ん? 俺、今何か言った?
  • > 今まで5年近く ECC 付きのメモリ使っていて、エラーを補足し訂正したよというログを見たことがありません(なんか特別な物必要?)。

    Linuxの場合は、EDAC [sourceforge.net]で検知可能です。
    チップセットがi7205 [google.co.jp]とのことですが、Intel e7205 [intel.co.jp]でしたら、サポートされている [cateee.net]ようです。

    CONFIG_EDAC_E7XXX: Intel e7xxx (e7205, e7500, e7501, e7505)
    General informations
     
    The Linux kernel configuration item CONFIG_EDAC_E7XXX:
     
        * prompt: Intel e7xxx (e7205, e7500, e7501, e7505)
        * type: tristate
        * depends on: CONFIG_EDAC_MM_EDAC && CONFIG_PCI && CONFIG_X86_32
        * defined in drivers/edac/Kconfig
        * found in Linux Kernels: from 2.6.16 release still available on 2.6.36 release
        * module created: e7xxx_edac
     
    Help text
     
    Support for error detection and correction on the Intel E7205, E7500, E7501 and E7505 server chipsets.

    --
    I'm out of my mind, but feel free to leave a comment.
  • by phason (22006) on 2010年11月16日 11時32分 (#1859489) 日記

    >AMDは…すいません使ったことないです

    との事なんであまり関係ないんですが,あえてAMDについて書いてみますと,

    ・CPU:ほぼすべてが対応(Athlon系,Phenom系,Opteron系は全部対応).
    ・M/B:Opteron向けは確か大抵対応.Athlon/Phenom向けだと,ASUSを選んでおくのが無難.

    CPUは何でもいいんですが,M/Bに関してはASUS以外かなり厳しいんですよね.ASUSは大部分が対応.ただたまーに対応していないものがあるんで事前にwebからマニュアルでも落としてBIOSの項目とかチェックすると確実.私が今使ってるのは1.5万ぐらいで売られてるM4A89GTD PRO/USB3ですが,これもちゃんと対応してます.1万切ってるようなものでも大抵対応.

    ただ,ECCが要るのかというと結構微妙.今現在,3台のPCでECC付きメモリをそれぞれ8GB(計24GB)載せて24時間365日駆動(一番長いもので3年ぐらい)してますが,一度もECCエラーが出たこと無いんですよね.ソフトエラーの発生がこれだけ低頻度だと,よほどの用途でない限りECCは要らないかも…….

  • by Anonymous Coward on 2010年12月12日 22時42分 (#1872924)
    ECC有ると部品点数増えるのでそれだけ故障のリスクは高まります。 ECCで救われることも有るかもしれませんが、ご存知の通り修復の限度は有ります。  毎日のメモリチェックや、  ECCなしメモリで浮いたコストでメモリ総取替えの頻度上げる  (壊れなければ下取りに出せるし、値下がりで大容量化出来る。^^) というエラー対策も有効と思います。
typodupeerror

物事のやり方は一つではない -- Perlな人

読み込み中...