Radiant曰く、"山陽新聞の記事によると日本銀行は6日、埼玉県戸田市にある発券センターでシステム障害が発生し、金融機関へのお札の受け渡し業務を本店に振り替えたした事態があった模様です。
ITproによると障害の原因は週末に行ったネットワーク機器の更新で、LANの速度を10Mbpsから100Mbpsに増速したところ「コンピュータの処理が追いつかなくなった」とのこと。元の10Mbpsの機器に戻すことによって現在は障害復旧済みです。最近重大システムの障害を報じたニュースをよく聞きますが、今回の場合もきちんとテストしないまま本運用してしまったのでしょうか?"
ネットワーク速度の「遅さ」頼み?だなんて・・・ (スコア:4, 興味深い)
そりゃぁ、メインプロセッサがしこしこデータ読み取ってるような昔のNICなら、ドライバの処理が追いつかなかった、ってのはあるかもしれませんが、そんなの今時のシステムであるんだろうか。
絶対他の原因があるって、とか勘ぐってしまいます。
屍体メモ [windy.cx]
Re:ネットワーク速度の「遅さ」頼み?だなんて・・・ (スコア:4, 参考になる)
機器交換で収まったから、そのように広報したのでしょうが、私も発生メカニズムに興味あります。
オートネゴ失敗してフロー制御が異常になり、結果的にトラフィック増えるとまともに通信しなくなるってことはないのかな。
(片方はフロー制御しているつもりなのに相手に伝わってなければ、そりゃ取りこぼしの再送嵐になりますってば)
#確か82559だか(記憶あいまいですが)使ってる古い鯖で、直結しているSWHUB変更しただけで異常な転送速度低下に遭遇した経験があります。サーバ再起動またはネゴ固定で正常になりましたが。
補足&再発防止策? (スコア:3, 参考になる)
先に書いた通信トラブルは、97年頃購入したPen2サーバ(NT4)の2001/4代替転用時に発生しました。
使用NICはオンボードではなくIntel Pro100+だったと思われ、82559ではなく82558だった可能性もあります。(時期による?)
SW-HUB経由100M接続サーバ間の12MBファイルコピーが20分経過しても終わらず。
PINGは通る。DISKアクセスは多少している。サーバ再起動して実行したら10秒もせずに完了。
SW-HUBのLEDでは、最初から接続していると100FULLl、一旦外して再接続すると100HALFになった。
コンパネのIntel PROSet設定画面では100/FULL指定、診断画面でも正常表示している。
この状況から、ネゴ問題による極端な性能低下と判断していました。
サーバ側(FULLと認識)は802.3xのPAUSEフレームを送信したが、リンクしているSWHUB側(HALFと認識)は聞く耳持たず送信続行するため取りこぼし、結果的にTCP再送多発による極端な性能低下発生というメカニズムで説明は付きます。
HALF-FULL誤認識に起因するものではありますね。
ついでに、pro100のマニュアル
ftp://download.intel.co.jp/jp/support/network/adapter/pro100/pro100serv/p100sman.pdf
再発防止として何を行うべきだったと思いますか?
発注者側担当SEとして考えて見ましょう。(こんな事故起こしたら査定↓↓、でも移行コストは抑えたい)
設計時
オートネゴを過信するな 、は当然として
テスト項目
pingと少量トランザクションでの動作試験は勿論行っていたはずです。(実環境でも最初は問題無かった訳で)
CPU負荷も問題無く、トランザクション増えた時の動作はリスク要因として上がっていなかっただろうと想定します。
・高トランザクション時の動作試験
・高トランザクション時の通信状態のチェック
(末端アダプタ/HUBのリンク状態が設計通りか、ポートエラー発生状況)
・通信負荷大の場合の動作試験(同上)
#smartbitsしろとまでは言いませんが
なんてのは当然思いつきますが、他に無いですかね。
競合条件のトラブルは、基本的には設計段階で潰しておくべき話ですが、テスト条件変えて炙り出し頑張らないと難しい面も実際にはあるでしょう。
#時節柄、啓蟄ってこともあるでしょうが(違
動かない発券システム待ってます >日経某
Re:ネットワーク速度の「遅さ」頼み?だなんて・・・ (スコア:1)
Re:ネットワーク速度の「遅さ」頼み?だなんて・・・ (スコア:3, 興味深い)
入力データ用バッファが少なくて、処理する間もなくバッファが埋まり、あふれて止まっちゃった、とかですかね?
リングバッファになってて上書きされちゃうとかw
#VB6の標準のocxだと、TCPの切断処理で手抜きしてるため、超高速環境だとケツが切れて通信できない現象は見たことある。
Re:ネットワーク速度の「遅さ」頼み?だなんて・・・ (スコア:3, すばらしい洞察)
というか、本当に10M->100Mにしたことによって障害が起こるのなら、
10Mでは追いついていけない相当なトラフィックがあるはずで、
じゃあ今までどうしてたんだということになるような気もします。
ハブからスイッチに変える時には注意しないといろいろトラブるものなので、
多分設定ミスったんじゃないかなあ、と想像します。
# と書いてみたものの、回線の遅さでうまく回っているシステムは実在する…
# 複数のサーバ類からデータが送られてきて、中央でバッチ処理…という場合。
# 回線が遅いおかげで中央サーバの処理が間に合っているという例があったりするわけで。
# 自分とこに(でも自分管轄外で手が出せねえ)。orz
Re:ネットワーク速度の「遅さ」頼み?だなんて・・・ (スコア:1, おもしろおかしい)
せめて口を出そう…って、それが出来たら苦労はないのだが
Re:ネットワーク速度の「遅さ」頼み?だなんて・・・ (スコア:0)
>10Mでは追いついていけない相当なトラフィックがあるはずで、
>じゃあ今までどうしてたんだということになるような気もします。
送り側がイライラしながら(?)待ってただけでしょ。
Re:ネットワーク速度の「遅さ」頼み?だなんて・・・ (スコア:0)
っていうのがみんなの疑問でしょ。
(フロントエンドは速くてバックエンドが蝸牛だったとかかもしれんが)
Re:ネットワーク速度の「遅さ」頼み?だなんて・・・ (スコア:2, 参考になる)
なーんて話を、10年前はよく聞いたもんです。
回線速度が変わるとnopがズレるバグもあったなぁ・・・・・
#超ナロー時代思い出
Re:ネットワーク速度の「遅さ」頼み?だなんて・・・ (スコア:0)
オートネゴシエーションの失敗 (スコア:2, すばらしい洞察)
Re:オートネゴシエーションの失敗 (スコア:0)
Re:ネットワーク速度の「遅さ」頼み?だなんて・・・ (スコア:2, 参考になる)
%% それは、元の設計がダメダメってのは確かですが。
競合条件の解消ルーチンが片方の待ち合わせでしか正常に機能しない場合、逆転現象がアップグレードなどして初めて表れるので、それまで誰もバグに気がつかないはめになります。
単一マシンでも、マシンのスピードが上がるとこけるプログラムなんてのは同じような原因でしょう。Windows の OCX とか、それっぽいのに遭遇したことが何度かあります。
ハード絡みだと、さらに頻繁に遭遇するパターンになります。(デバイスやメカのスピードが上がるとこけるとか)
%% まあ、同期ってやはり難しい問題なんですけどね。
の
Re:ネットワーク速度の「遅さ」頼み?だなんて・・・ (スコア:1)
失敗は共有して [jst.go.jp]役立てて欲しいものです
(役立てるレベルかは原因次第ですが:-p)
Re:ネットワーク速度の「遅さ」頼み?だなんて・・・ (スコア:1, 興味深い)
#会社で実際にありました。
#ネットワーク機器屋さんなのに。
クロスケーブル (スコア:1)
リピータハブのカスケード接続のやり方を知らない奴がいたり、
大変です。
屍体メモ [windy.cx]
ちょっと前ならよくあった話 (スコア:4, 参考になる)
Ethernetカードも安いのが見つかったので取り替えたけど
早くならなかったということはよくありました。
カニマークのチップでは良くあったような。100M対応の
ばかハブも多かったし。
でも、MACアドレスを覚えるのもよいが、コンピュータを
移動させると行方不明になるのには参った。途中のハブの
電源コードを入れ直して回った事があった。
てことは、使ってるハードはちょっと前のもの?。
10Mの実用回線は世界遺産に登録しよう。
Re:ちょっと前ならよくあった話 (スコア:5, 興味深い)
光でGigabitの線を引いたはずなのに全然速度が出なくて、線を追って行って調べたら黄色くて太いケーブルのほうに流れていた、なんてこともありました。
撤去するにも工事が必要なので面倒でほっといたみたいなんですが、よく生きてたもんだ。
過去の資産の継ぎ足し継ぎ足しで動いているところは、今でも色々なことがあるもんです。
Re:ちょっと前ならよくあった話 (スコア:3, おもしろおかしい)
そんなことしたら保護しなきゃいけなくなるでしょ!!
それは困る。
Re:ちょっと前ならよくあった話 (スコア:0)
Re:ちょっと前ならよくあった話 (スコア:2, 興味深い)
1と7が見分けつかないっちゅーねん。
箱なんていっぱいあるからなぁ (スコア:4, 興味深い)
100MダムHub間に入れて通信させてました。
確か日銀は一部広域EtherにIPSecな箱(確かCisco)を入れて
WAN組んでましたね。
WAN側に問題があるとすれば恐らくはそこでしょう。
いくら帯域が増えても、所詮EtherなのでPacketShapingは
必須です。
同じビルにいたのでAC
*妄想* (スコア:4, おもしろおかしい)
Re:*妄想* (スコア:1, 参考になる)
無印PC-8801のソフトを (スコア:4, おもしろおかしい)
私の処理速度が遅くて申し訳ありませんでした。
V1Sモードに切り替えることで復旧できました。
どういうインフラかも問題だが (スコア:3, 興味深い)
根拠その1 人材募集 物流系 [boj.or.jp]
根拠その2 セキュリティ・エキスパート募集 [boj.or.jp]
インフラ・エキスパート募集が先でないの? というか、東証もそうだけど、ITベンダ任せで総務課さんもベンダがやらかしましたとばかりに、他人事のように説明しますこと。 正直にトラブル開示するのはいいんだけどね。
Re:どういうインフラかも問題だが (スコア:1, すばらしい洞察)
どんなに素敵な待遇なのか知りませんが、個人的には謎なのですが。
Re:どういうインフラかも問題だが (スコア:0)
派遣されることがすでに決定していると思う。
そうか (スコア:3, おもしろおかしい)
一番驚いたこと (スコア:2, おもしろおかしい)
メジャー新聞級に速報とか扱ってたこと
多くの記事の中身がワンライナーなのは悲しいが・・・
Re:一番驚いたこと (スコア:1)
山陽放送はドキュメンタリーに強かった気がするけど、山陽新聞はどうなんだろう。
Re:一番驚いたこと (スコア:1, 興味深い)
山陽新聞的には「テレビせとうち」なんですよ
山陽新聞と山陽放送の関係は一時期まで深かったんですけどね・・・
まあ、深く追求するのは止めましょう
言分け (スコア:2, すばらしい洞察)
って理由でしょ
F? (スコア:1, すばらしい洞察)
「運用でカバー」って言葉は聞き飽きた。
今まで皆様ありがとうございました。そしてさようなら。
Re:F? (スコア:0)
Re:F? (スコア:0)
#そもそも今回のはFなの? ソースきぼんぬ
Re:F? (スコア:0)
Re:F? (スコア:1, 参考になる)
Re:F? (スコア:1, 参考になる)
最近そんなの多すぎ
Re:F? (スコア:0)
Re:F? (スコア:0)
#団子と仕事分担
Windowsサーバの増加が不具合増加の原因? (スコア:0)
Re:Windowsサーバの増加が不具合増加の原因? (スコア:1, 興味深い)
大量接続数テスト (スコア:0)
Webシステムならabコマンド???
Re:大量接続数テスト (スコア:2, 興味深い)
商用サイトでまじめにやるならhttp://www.empirix.co.jp/web_app/web_test/e_test_suite.html [empirix.co.jp]かなぁ。
Re:大量接続数テスト (スコア:0)
Re:大量接続数テスト (スコア:1)
Re:大量接続数テスト (スコア:2, 興味深い)
#Bシェル使えってことでしょうか?
Re:大量接続数テスト (スコア:1)
DoSにもならないような。