パスワードを忘れた? アカウント作成
247454 story
バグ

ゆうちょ銀行のATM障害、原因はIBM製ストレージシステムのバグ 53

ストーリー by hylom
これはシステム側ではどうにもできないわ 部門より

あるAnonymous Coward 曰く、

ITmediaの記事(ソースはSankeiBiz)によると、7月に発生したゆうちょ銀行のATM障害の原因はIBM製のストレージシステムに含まれるバグだった模様。

IBMによると、ゆうちょ銀で発生した障害はHDDの制御装置内にある接続カードのバグで、応答速度だけで正常か異常かを判断するプログラムに原因があったという。

とのこと。記事ではHDDと書かれているが、日経コンピュータの記事などを勘案すると、単純なHDDではなくストレージシステムのコントローラ側の問題のようだ。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • IBMのストレージシステムって故障が多いのでは?
    以前もオンラインを止めたよね? [sydrose.com]
    --
    notice : I ignore an anonymous contribution.
  • by tmiura (6268) on 2010年08月19日 13時39分 (#1812233) 日記

    一口に磁気ディスク装置といってもDSなのかXIVなのかと思ったけど、 銀行のATMの後ろ側だとzSeriesの何かなのかな。

    しかし、RAIDコントローラのファームウエアをマイクロコードと呼ぶのは ストレージベンダの間では一般的みたいですね。 EMC用語かと思ったら日立もIBMもか。

  • by Anonymous Coward on 2010年08月18日 14時19分 (#1811577)

    ストレージ内に収めるHDD。
    コントローラのソフトウェアは上から順番に1・2・3…と認識するが、ハードウェアが認識するのは下から順番に1・2・3…。
    でもって、コントローラが「No2のHDDに異常発生!No2緊急停止!!」との命令を実行したところ実際に機能停止したのは別のHDDのだった…とか。

    • by gg_pic (10157) on 2010年08月18日 16時37分 (#1811707)
      監視ソフトで報告される番号と、実機の番号がずれているなんてのは実はよくある話ですね。

      説明書をよーく見ると、付録ページあたりに「以下の機種についてはアラームで通知される番号と実機の番号がずれます」なんて書いてあったりする :-P
      じゃあ報告する意味な(略)
      親コメント
    • by Anonymous Coward on 2010年08月18日 14時27分 (#1811584)

      説明読みましょうよ。

      1と2のHDDがあって1で断続的なエラーがあった。
      けれどエラー判定で応答速度だけを基準としていたことと、1でエラーがおさまっている時にその判断が行われたため
      応答速度の遅かった2の方でエラーが発生していると判断して2を遮断、その後1がダウン、ってことらしい。

      親コメント
      • by Anonymous Coward

        外野だが、

        応答速度が速い壊れたHDDと
        応答速度が遅いが正確なHDD

        どちらも故障の範囲では?

        • by denchu (6847) on 2010年08月18日 14時56分 (#1811606)

          応答速度が遅くなった原因を知りたいですよね。
          どこかにナレッジベースとして登録されないかな?

          親コメント
          • by Anonymous Coward
            正常な方にアクセスが集中していて遅くなっただけとか
        • by saitoh (10803) on 2010年08月18日 16時58分 (#1811725)
          故障判定って難しいですね。 もう撤退したから実名出していいだろうけど、ソニーがつくってたRAIDサーバーの故障判断アルゴリズムがまずくて、HDDとある特殊な故障モードになったときにはエラーと判断して切り離すのに何時間もかかる、っていうトラブルに出くわしたことがある。 このときは故障したHDDを手でスロットから引っこ抜いて仮復旧させたけど。その後東京から新幹線で代替ドライブを輸送。
          親コメント
          • by Anonymous Coward on 2010年08月18日 18時18分 (#1811790)

            最近のHDDのファームは内部でリトライを相当繰り返す仕様になってるみたいで
            I/Oエラーを持って異常とみなすシステムでは故障検知に時間がかかる事例は増えているようです。

            親コメント
            • by Anonymous Coward on 2010年08月19日 9時31分 (#1812075)
              昔はSCSIが当たり前だったので、エラー時の挙動をホスト側からMODE SELECTで設定できたんです。
              リトライ回数の上限とか、自動代替する/しないとか。

              今はSATAの、しかもデスクトップPC向けHDDを積んだインチキなシロモノがありますので注意。
              デスクトップPC向けだと、延々とリトライするのが適切な動作ですから。
              RAID向けHDDだとリトライ回数を抑制して一定時間以内にエラー応答を返すようになってます。

              ていうか、SAS使ってください。
              親コメント
            • by Anonymous Coward
              SMARTの返す情報が粉飾気味で検査プログラムがドライブの異常を発見できなかったんですかね。
        • > 応答速度が遅いが正確なHDD
          たまたま測定時には故障HDDより応答が遅かっただけで、数値としては正常範囲だったんじゃないですかね。

          記事を読むかぎりでは、

          故障発生を検出(ただし、どちらのHDDが故障したかはわからない。)
          →検査プログラムが起動し、応答の遅い方のHDDを故障したものと判定

          という流れのように見受けられます。

          これは根本的に判定アルゴリズムが間違えてるとしか思えないですねぇ…
          せめて、単に応答の遅い早いの比較ではなく、
          「正常範囲外な応答の遅さ」かどうかまで判定しないとダメじゃないかな。

          親コメント
          • 家庭用サーバーだと省電力機能とのからみで、意図せずにだんまりになる例は多い気がする。純粋サーバ向けHDDだとそんなことはないのだろうけど、普通に売ってるHDDだと省電力機能を全部切っても勝手にスリープ入ってくれたりと、わりとお行儀がよくないで。

            親コメント
            • by kei100 (5854) on 2010年08月18日 23時39分 (#1811956)

              それは、OS設定以外の省電力設定(HDD自身に設定可能なAPM)、
              M/B付属の省電力ユーティリティ(例:GIGABYTE Dynamic Energy Saver)が有効であったり、

              もしくは、本来解ってて使う事が前提のWD GPシリーズでは?
              それなりの理由があるのに、大容量で安いからという理由だけで知らずに使ってるケースが・・・

              元はD2D2Tの受け側のD(仮想テープ)とかの待機時間が非常に長く、ランダム性能もそんなに必要なく、でも容量は沢山あると嬉しいといった用途向けです。
              (WDの一般向けはBlue、ハイエンドがBlack)

              ちなみに、一般に出ているサーバー向けでないGPシリーズは、
              この話題と同じような理由でRAIDカードと相性が悪く、
              タイムアウトで故障判定されてアレイがデグレするケースがありますので安価に大容量アレイを組もうと思う方は御注意ください。
              まぁ、WDなんで別の問題かもしれませんが。(Seagate/HGSTと比べて独特な挙動をする事がまま有る)

              嫌らしいのはサーバー向けGPだと大丈夫だったりするようで、何かが違うのでしょう。
              # バックアップする時だけ使って、終わったら放置みたいな用途とか、自前のデータアーカイブに使うには発熱も少なく静かで良い感じです。

              親コメント
          • by Anonymous Coward

             エラーの発生回数で故障診断プログラムを起動したのだから、エラーの発生回数で故障診断をしなければ駄目でしょう。私なら、もし部下がIBMの今回の故障診断プログラムの様な仕様書を持ってきたら、即没にして、なぜ没なのか考えろと言ってつき返しますね。

             ちなみに、ライバルのHPでそれなりの保守契約を結ぶと、エラーの発生回数が多いHDDが見つかると、壊れる前に交換提案をしてきます。が、交換後のデータ復旧中に別のHDDが突然死することが稀にあり、書き込みホール対策をしている中級クラスのストレージでも、RAIDの組み方によってはデータをロストしたりします。一番上のシリーズだとその程度でロストするようなちゃちなRAIDの組み方はしていませんけど。

  • by Anonymous Coward on 2010年08月18日 14時39分 (#1811594)

    メインがおかしいと誤判断して冗長系に切り替えたら、落ちたという冗談みたいな話に見えるんだけど?
    ゆうちょのシステムはどうなっているんだ

    #ACで矢継ぎ早にコメントしたら「ゆっくりさん」がでてしまったorz

    • by Anonymous Coward on 2010年08月18日 17時06分 (#1811732)
      冗談みたいな話はいろいろありますよ。

      某旧帝大の大型計算機センターで「RAIDですから」と豪語していたディスク装置のドライブが1個壊れたとかね。 壊れた後でわかったけどRAID0だった。

      教育用計算機センターで「RAIDのパラメータを改善したいのでテープにフルバックアップを取ってRAIDを再構成します」という作業をしてもらったら「戻そうとしたらバックアップしたテープ読めません」となっちゃったと。

      パスワード管理システムをバグフィックスしてもらったら、新たにエンバグしてパスワードファイルを丸ごと吹っ飛ばした。問い詰めてみるとろくにテストもせずに開発した修正をいきなり実機に入れていた。

      イントラネットでの負荷分散装置が全然効かないので調べてみたら、クライアントのIPアドレスベースで分散する装置だった。そしてクライアントは全部NATの向こうなのでソースIPアドレスは1種類だった。

      親コメント
      • by taka2 (14791) on 2010年08月18日 18時39分 (#1811805) ホームページ 日記

        > 「RAIDですから」(略)壊れた後でわかったけどRAID0だった。

        これって、そもそも「RAID0」って言葉が最大の諸悪の根源な気がする。
        ただのストライピングでどこにも冗長性がないものを「Redundant」って名乗るな!
        って感じで。

        最初のRAIDの論文には、当然のことながらRAID0なんて言及してなかった覚えがあるのですが…

        それが今では普通にRAIDの一種みたいに扱われたりして…
        いったい誰だよRAID0なんて言葉を使いだしたヤツは

        親コメント
        • RAIDは"Redundant Arrays of Inexpensive Disks"の省略形なので、冗長性(Redundancy)のないRAID0は"AID"と呼べばよいのでは。
          親コメント
        • by Anonymous Coward

          「水銀ゼロ使用」みたいなものでは

        • by Anonymous Coward
          >これって、そもそも「RAID0」って言葉が最大の諸悪の根源な気がする。
          >ただのストライピングでどこにも冗長性がないものを「Redundant」って名乗るな!
          >って感じで。

          RAID0って冗長性が0(無い)ってコトなのですかね・・・
          • by Anonymous Coward

            > RAID0って冗長性が0(無い)ってコトなのですかね・・・

            そのとおりですよ。

      • by Anonymous Coward

        10年ちょっと前,某社での出来事.

        ネットワーク環境の改善のため,事業所内で使っているハブをスイッチングハブに総入れ替えした.しかし全然変わらないので,管理部門に「ちょっと見せてみろ!」と乗り込んで行ったら,一番根っこのところで全てのスイッチングハブは馬鹿ハブの下にカスケードされていた.

      • by Anonymous Coward
        「うちはRAID5だから大丈夫。バックアップテープなんかいらない」
        なんていう似非技術者は少なくないわけですが、そういう外部バックアップまで
        ケチるようなところに限って、RAID5でディスクが壊れても、
        「RAIDだから大丈夫大丈夫。余裕があるときにゆっくり交換すればいい」
        なんて言ってて、他のディスクも壊れてディスクシステム崩壊なんてことが
        あったりするんですよね。

        壊れかけのRAID5なんて、RAID0と変わらないわけですよ。

        HPC用途だと、高速化が目的でRAID0とかしたりすることがあるかもしれないですね。
        RAID5だと計算結果の記録に失敗する可能性が高いので使えませんし。
        RAID10とかにするのがいいのかなあ。

        とにかく、みんなRAID5を信用し過ぎだと思う。
        RAID5なんてのは、仕方が無い場合にのみ使うもんだ。
        • by Anonymous Coward

          壊れーかけのRAIDー♪って歌有りましたよね?

        • by Anonymous Coward

          RAID5だと計算結果の記録に失敗する可能性が高いので使えませんし。

           って…、RAIDコントローラーがバグっているのが原因で、計算結果の記録に失敗しているのでは?

          • by Anonymous Coward
            >って?、RAIDコントローラーがバグっているのが原因で、計算結果の記録に失敗しているのでは?

            惜しいけど、ちょっと違います。
            書き込みホールってやつです。

            記録に失敗はあってますが、問題はその発生するタイミング。
            • by Anonymous Coward

              書き込みホールってやつです。

              だとすると、電源の信頼性を上げ、エラー時の処理を工夫することで、「記録に失敗する可能性が高い」とは言えない状況にできますよ。さらに、一定時間RAID化前のデータをバッテリバックアップしたメモリにも記録しておけば、事実上支障のないレベルに持っていけるでしょう。

               現実問題として、RAID1+0より上のものとして、RAID1+5やRAID1+6なんてのもあったりします。電源を含めたほとんどの部品が活線で交換できるクラスのストレージじゃないと、使う意味はありませんが(RAID6+6なんてのもありますが、メガバンクや大規模な証券会社位じゃないとコスト的に採用できないでしょう)。

    • by Anonymous Coward

      つまりこういうこと [plala.or.jp]かね

      • by Anonymous Coward

        ♪しーかたっが無いからパケット投~げた♪さっきのパケット中身はなぁに?

        こうですね、わかります。

        #思いっきりAC。

    • by Anonymous Coward

      自動車のタイヤがパンクしたからスペアタイヤに代えようと思ったら
      スペアの空気が抜けてたとか、ありがちな話ですな。

    • by Anonymous Coward

      むしろ、冗長系において故障側を切り離すはずが、故障した側を判断するルーチンのミスで正常側を切り離したように読める。
      #二重化されてるのはまあ当然として、さらにそれと同期取ってる予備系は無かったんかね?

      • by Anonymous Coward

        予備系もしっかり同期とって壊して切り離しました!

  • T/O
  • by Anonymous Coward on 2010年08月18日 15時28分 (#1811644)
    今は亡きF銀行のRECONデータを1トラック0で上書きしてしまったおかげで、 8時間Online止めてしまったことをもうお忘れか
  • by Anonymous Coward on 2010年08月18日 21時01分 (#1811880)
    あくまで推測ですが、初見でLinuxカーネルの497日問題ではないかと思いました。
    うちの会社で使用している、あるネットワーク機器も、
    497日以上稼働すると状態監視用のデーモンが異常な検知をしてしまう
    という不具合がありました。
    ネットワーク機器や、ストレージ機器では、定期的なリブートが
    必要というのは、よくある話みたいですよ。
    • Re:497日問題の可能性 (スコア:3, すばらしい洞察)

      by Anonymous Coward on 2010年08月18日 21時27分 (#1811892)
      いや、だから根拠の無い推測する前に、紹介されている記事読みましょうよ。
      親コメント
      • by Anonymous Coward

        夏だから仕方あるまい。

    • by Anonymous Coward
      PowerNを使っているAIXベースなのだが…。
    • by Anonymous Coward

      初見でなんでLinuxだと思ったんだろ、497日問題はWindowsにもあるんだが…なんかホント色々浅いなぁ

      • by Anonymous Coward
        > 初見でなんでLinuxだと思ったんだろ、497日問題はWindowsにもあるんだが?なんかホント色々浅いなぁ

        君も似たようなもんだと思うぞ。

        ゆうちょの基幹システムに古いWindows2000とかXPとか使ってるとでも?

        ま、Linuxの2.4以前の古いサーバを497日以上も連続稼働させているような
        危険な運用をしていると想像するほうも想像するほうだが。
      • by Anonymous Coward

        HP-UXにもあるらしいぞ
        http://www.hitachi.co.jp/Prod/comp/soft1/HP-UX/files/hpinfo_0904.pdf [hitachi.co.jp]

        そしてアプリケーションにも497日問題がある可能性も否めない。

typodupeerror

目玉の数さえ十分あれば、どんなバグも深刻ではない -- Eric Raymond

読み込み中...