パスワードを忘れた? アカウント作成
12023 story

日銀発券システム障害、原因は通信高速化 53

ストーリー by yoosee
どういう仕組みのインフラなんだ 部門より

Radiant曰く、"山陽新聞の記事によると日本銀行は6日、埼玉県戸田市にある発券センターでシステム障害が発生し、金融機関へのお札の受け渡し業務を本店に振り替えたした事態があった模様です。
ITproによると障害の原因は週末に行ったネットワーク機器の更新で、LANの速度を10Mbpsから100Mbpsに増速したところ「コンピュータの処理が追いつかなくなった」とのこと。元の10Mbpsの機器に戻すことによって現在は障害復旧済みです。最近重大システムの障害を報じたニュースをよく聞きますが、今回の場合もきちんとテストしないまま本運用してしまったのでしょうか?"

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • ネットワークの速度の遅さによる律速によってうまく廻ってるシステムだったなんて・・・今時ちょっとありえない、ような気もするんですが、それが現実なんですかね?

    そりゃぁ、メインプロセッサがしこしこデータ読み取ってるような昔のNICなら、ドライバの処理が追いつかなかった、ってのはあるかもしれませんが、そんなの今時のシステムであるんだろうか。

    絶対他の原因があるって、とか勘ぐってしまいます。
    --
    屍体メモ [windy.cx]
    •  ネットワーク[リンク]速度の「遅さ」頼みなんて考えにくいですよね。出来高が急増したとかでもなければ、流入トラフィック自体が極端に増えるとも思えません。
       機器交換で収まったから、そのように広報したのでしょうが、私も発生メカニズムに興味あります。

      オートネゴ失敗してフロー制御が異常になり、結果的にトラフィック増えるとまともに通信しなくなるってことはないのかな。
      (片方はフロー制御しているつもりなのに相手に伝わってなければ、そりゃ取りこぼしの再送嵐になりますってば)

      #確か82559だか(記憶あいまいですが)使ってる古い鯖で、直結しているSWHUB変更しただけで異常な転送速度低下に遭遇した経験があります。サーバ再起動またはネゴ固定で正常になりましたが。
      親コメント
      • by yn (3322) on 2006年03月11日 16時21分 (#899107) ホームページ 日記
        スコア4を頂いたにも関わらず不正確な面があったので補足します。

        先に書いた通信トラブルは、97年頃購入したPen2サーバ(NT4)の2001/4代替転用時に発生しました。
        使用NICはオンボードではなくIntel Pro100+だったと思われ、82559ではなく82558だった可能性もあります。(時期による?)

        SW-HUB経由100M接続サーバ間の12MBファイルコピーが20分経過しても終わらず。
        PINGは通る。DISKアクセスは多少している。サーバ再起動して実行したら10秒もせずに完了。

        SW-HUBのLEDでは、最初から接続していると100FULLl、一旦外して再接続すると100HALFになった。
        コンパネのIntel PROSet設定画面では100/FULL指定、診断画面でも正常表示している。

        この状況から、ネゴ問題による極端な性能低下と判断していました。
        サーバ側(FULLと認識)は802.3xのPAUSEフレームを送信したが、リンクしているSWHUB側(HALFと認識)は聞く耳持たず送信続行するため取りこぼし、結果的にTCP再送多発による極端な性能低下発生というメカニズムで説明は付きます。
        HALF-FULL誤認識に起因するものではありますね。

        ついでに、pro100のマニュアル
        ftp://download.intel.co.jp/jp/support/network/adapter/pro100/pro100serv/p100sman.pdf

        再発防止として何を行うべきだったと思いますか?
        発注者側担当SEとして考えて見ましょう。(こんな事故起こしたら査定↓↓、でも移行コストは抑えたい)

         設計時
          オートネゴを過信するな 、は当然として
         
         テスト項目
          pingと少量トランザクションでの動作試験は勿論行っていたはずです。(実環境でも最初は問題無かった訳で)
          CPU負荷も問題無く、トランザクション増えた時の動作はリスク要因として上がっていなかっただろうと想定します。

          ・高トランザクション時の動作試験
          ・高トランザクション時の通信状態のチェック
           (末端アダプタ/HUBのリンク状態が設計通りか、ポートエラー発生状況)
          ・通信負荷大の場合の動作試験(同上)
          #smartbitsしろとまでは言いませんが

          なんてのは当然思いつきますが、他に無いですかね。

          競合条件のトラブルは、基本的には設計段階で潰しておくべき話ですが、テスト条件変えて炙り出し頑張らないと難しい面も実際にはあるでしょう。

        #時節柄、啓蟄ってこともあるでしょうが(違

        動かない発券システム待ってます >日経某
        親コメント
      • フロー制御っていうか、全二重・半二重の不一致っていうか、って感じですが。
        親コメント
    • by Anonymous Coward on 2006年03月10日 0時23分 (#898006)
      まさかTCPでなくUDP使ってるんでわ、と一瞬思ったんですが、さすがにそりゃ無いでしょうね…。

      入力データ用バッファが少なくて、処理する間もなくバッファが埋まり、あふれて止まっちゃった、とかですかね?
      リングバッファになってて上書きされちゃうとかw

      #VB6の標準のocxだと、TCPの切断処理で手抜きしてるため、超高速環境だとケツが切れて通信できない現象は見たことある。
      親コメント
    • 他に書いている方もいますが、機器を戻したら直ったのでそう書いたのでしょう。
      というか、本当に10M->100Mにしたことによって障害が起こるのなら、
      10Mでは追いついていけない相当なトラフィックがあるはずで、
      じゃあ今までどうしてたんだということになるような気もします。

      ハブからスイッチに変える時には注意しないといろいろトラブるものなので、
      多分設定ミスったんじゃないかなあ、と想像します。

      # と書いてみたものの、回線の遅さでうまく回っているシステムは実在する…
      # 複数のサーバ類からデータが送られてきて、中央でバッチ処理…という場合。
      # 回線が遅いおかげで中央サーバの処理が間に合っているという例があったりするわけで。
      # 自分とこに(でも自分管轄外で手が出せねえ)。orz
      親コメント
    • by Anonymous Coward on 2006年03月10日 6時27分 (#898151)
      擬似端末が低出力で、本チャンの回線速度で輻輳テストができない・・・・・・・・
      なーんて話を、10年前はよく聞いたもんです。
      回線速度が変わるとnopがズレるバグもあったなぁ・・・・・

      #超ナロー時代思い出
      親コメント
    • by Anonymous Coward on 2006年03月10日 8時48分 (#898185)
      だったりして、10BASEから100BASEに切り替えるときは昔かなり多かったけどね。 一瞬つながったと見えても大量のエラーログを吐いてくれたりとか...
      親コメント
    • 複数のプロセスが同期待ちをするようなケースでは「遅さ」のおかげで上手く動いて、スピードがあがると失敗する、なんてのはよくありますよ。

      %% それは、元の設計がダメダメってのは確かですが。

      競合条件の解消ルーチンが片方の待ち合わせでしか正常に機能しない場合、逆転現象がアップグレードなどして初めて表れるので、それまで誰もバグに気がつかないはめになります。

      単一マシンでも、マシンのスピードが上がるとこけるプログラムなんてのは同じような原因でしょう。Windows の OCX とか、それっぽいのに遭遇したことが何度かあります。
      ハード絡みだと、さらに頻繁に遭遇するパターンになります。(デバイスやメカのスピードが上がるとこけるとか)

      %% まあ、同期ってやはり難しい問題なんですけどね。

      --
      親コメント
    • 原因が何であるかと言う部分は皆さんの興味をそそる部分でしょう(当然私もそうですが)
      失敗は共有して [jst.go.jp]役立てて欲しいものです
      (役立てるレベルかは原因次第ですが:-p)
      親コメント
    • by Anonymous Coward on 2006年03月10日 11時16分 (#898282)
      建物に埋め込んであるLANケーブルがCAT.3だった、とかいうオチだったり……。

      #会社で実際にありました。
      #ネットワーク機器屋さんなのに。
      親コメント
  • by hiroc-han (23419) on 2006年03月10日 0時23分 (#898007)
    ちょっと前ならよくあった話。ルータが安くなったし、
    Ethernetカードも安いのが見つかったので取り替えたけど
    早くならなかったということはよくありました。
    カニマークのチップでは良くあったような。100M対応の
    ばかハブも多かったし。
    でも、MACアドレスを覚えるのもよいが、コンピュータを
    移動させると行方不明になるのには参った。途中のハブの
    電源コードを入れ直して回った事があった。
    てことは、使ってるハードはちょっと前のもの?。
    10Mの実用回線は世界遺産に登録しよう。
    • by mohohoman (24340) on 2006年03月10日 9時32分 (#898214)
      へっぽこHUBとクサレNICの「相性」問題以外にも、既に敷設されていたUTPのケーブルがヘボで、10BaseTでは通信できるがクロストークが多すぎて100BaseTXには耐え切れなかった、という例もあります。
      光でGigabitの線を引いたはずなのに全然速度が出なくて、線を追って行って調べたら黄色くて太いケーブルのほうに流れていた、なんてこともありました。
      撤去するにも工事が必要なので面倒でほっといたみたいなんですが、よく生きてたもんだ。
      過去の資産の継ぎ足し継ぎ足しで動いているところは、今でも色々なことがあるもんです。
      親コメント
    • by Anonymous Coward on 2006年03月10日 7時01分 (#898158)
      > 10Mの実用回線は世界遺産に登録しよう。
      そんなことしたら保護しなきゃいけなくなるでしょ!!
      それは困る。
      親コメント
    • その当時、NEC製のNICはMACを手動で登録してませんでした? あな恐ろしや。
  • by Anonymous Coward on 2006年03月10日 0時59分 (#898048)
    増速した後、どうしても通信がうまくいかない箱には
    100MダムHub間に入れて通信させてました。

    確か日銀は一部広域EtherにIPSecな箱(確かCisco)を入れて
    WAN組んでましたね。
    WAN側に問題があるとすれば恐らくはそこでしょう。
    いくら帯域が増えても、所詮EtherなのでPacketShapingは
    必須です。

    同じビルにいたのでAC
  • *妄想* (スコア:4, おもしろおかしい)

    by Anonymous Coward on 2006年03月10日 7時30分 (#898163)
    まさか「カニにCPU負荷食われた」じゃねーだろーな?
  • 無印PC-8801のソフトを (スコア:4, おもしろおかしい)

    by Anonymous Coward on 2006年03月10日 12時42分 (#898345)
    V2モードの8MHzで動かしたらてんてこ舞いになてた昔の自分を思い出しました。
    私の処理速度が遅くて申し訳ありませんでした。
    V1Sモードに切り替えることで復旧できました。
  • by Anonymous Coward on 2006年03月10日 0時16分 (#898003)
    なんかITインフラなんかどうでも良いみたいじゃない? 実際そうなんだろうけど。

    根拠その1 人材募集 物流系 [boj.or.jp]

    根拠その2 セキュリティ・エキスパート募集 [boj.or.jp]

    インフラ・エキスパート募集が先でないの? というか、東証もそうだけど、ITベンダ任せで総務課さんもベンダがやらかしましたとばかりに、他人事のように説明しますこと。 正直にトラブル開示するのはいいんだけどね。
  • そうか (スコア:3, おもしろおかしい)

    by Anonymous Coward on 2006年03月10日 6時40分 (#898152)
    発券が足りないから量的緩和を解除したのか……
  • 一番驚いたこと (スコア:2, おもしろおかしい)

    by Anonymous Coward on 2006年03月10日 0時43分 (#898024)
    ローカル新聞な山陽新聞のサイトがいつの間にか
    メジャー新聞級に速報とか扱ってたこと

    多くの記事の中身がワンライナーなのは悲しいが・・・
    • by wadatch (6649) on 2006年03月10日 0時53分 (#898036) 日記
      共同通信配信記事というオチじゃないのかなぁ・・・。
      山陽放送はドキュメンタリーに強かった気がするけど、山陽新聞はどうなんだろう。
      親コメント
      • by Anonymous Coward on 2006年03月10日 1時29分 (#898077)
        よく間違われるんですけど、
        山陽新聞的には「テレビせとうち」なんですよ
        山陽新聞と山陽放送の関係は一時期まで深かったんですけどね・・・
        まあ、深く追求するのは止めましょう
        親コメント
  • 言分け (スコア:2, すばらしい洞察)

    by Anonymous Coward on 2006年03月10日 2時38分 (#898117)
    結局、取り替えたら動かなかったので戻した
    って理由でしょ
  • F? (スコア:1, すばらしい洞察)

    by heavyrain (28785) on 2006年03月10日 7時17分 (#898161)
    またF?

    「運用でカバー」って言葉は聞き飽きた。
    --
    今まで皆様ありがとうございました。そしてさようなら。
    • by Anonymous Coward
      本物? [aquiller.ddo.jp]
    • by Anonymous Coward
      「またF?」って言葉も聞き飽きた。
      #そもそも今回のはFなの? ソースきぼんぬ
      • by Anonymous Coward
        HP-UXに強いのはN電のような気が。
        • Re:F? (スコア:1, 参考になる)

          by Anonymous Coward on 2006年03月11日 7時08分 (#898928)
          日銀の場合にはHPが直接SIしてます。 でも、発券システムはHが担当のはず。
          親コメント
          • Re:F? (スコア:1, 参考になる)

            by Anonymous Coward on 2006年03月11日 9時46分 (#898953)
            そういえば、TのトラブルのときもFがやったといわれつつ実は、Hだったというのもあったような。

            最近そんなの多すぎ
            親コメント
    • by Anonymous Coward
      一社独占と思ってる時点で…
      • by Anonymous Coward
        IT業界の現実知りませんが建築JVと同じってことですか?
        #団子と仕事分担

  • by Anonymous Coward on 2006年03月10日 6時13分 (#898147)
    サーバにWindowsサーバが増えた事と、不具合が増えて来た事の因果関係を疑ってみたりする。
  • by Anonymous Coward on 2006年03月10日 9時47分 (#898225)
    大量の接続数テストって皆さんどうしてるんですか?
    Webシステムならabコマンド???
typodupeerror

コンピュータは旧約聖書の神に似ている、規則は多く、慈悲は無い -- Joseph Campbell

読み込み中...