kazekiriによる
2007年05月16日 19時23分の掲載
興味深いトポロジ部門より。
興味深いトポロジ部門より。
ultrageek 曰く、
昨日に盛大な大規模障害となったNTT東のフレッツであるが、 ITProに謝罪会見と障害原因に関する記事が掲載されている。それによれば、東京の1台のルーターに故障が発生し、部品交換のために待機系のルーターに切り替えたことが主要因になったらしい。 待機系への変更は通常の保守作業であるわけだが、フレッツサービスを構成する4000台のルーターにおいてルーティング情報の書き換えがされる際に、フレッツでは1台のルーターで1万5000ものルーティング情報を持っており、その書き換え負荷に耐えられなかったとのことだ。障害の起きなかったNTT東地域については、単にソフトウェアのバージョンが新しく、負荷に強かったので助かったとのことのようだ。しかし、まあフレッツだけで1万以上の経路があるのですねぇ。
関連ストーリー
この議論は賞味期限が過ぎたので、保存されている。
新たにコメントを書くことはできない。
冗長化と障害耐性 (スコア:5, すばらしい洞察)
# あってる?
は別物というよい教訓になる...かな。
たぶん、一遍に復旧させて経路再学習させる高負荷のテストが不十分だったんだろうなー
まあ、なかなか試しにくいとは思うけど。
# もしかしたら当事者かもしれないけどID
BOINC説明ページ(書きかけ) [wikispaces.com]
よりにもよってその翌日に (スコア:5, おもしろおかしい)
回線サービスは付加価値競争へ、「品質で選んでほしい」NTT副社長が講演 [impress.co.jp]
それってツラの皮の厚さ、という意味ですか?
親コメント
今までルータは故障したことがなかったのか?? (スコア:3, 興味深い)
過去に故障して待機系と切替が行われているとしたら今回だけなぜという疑問。
電力とか化学プラントなどでは運転系と待機系を一定期間ごとに切り替えるのが普通だが
ルータはやらないのだろうか。そうだとしたらそれも不思議。
Re:今までルータは故障したことがなかったのか?? (スコア:5, すばらしい洞察)
耐え切ることができていたってだけのことでしょ。
ぜんぜん不思議じゃありません。
親コメント
Re:今までルータは故障したことがなかったのか?? (スコア:5, 参考になる)
> ルータはやらないのだろうか。そうだとしたらそれも不思議。
通信業界にいますが、系を一定時間で定期的に切替える事は聞いた事がないですね。
電力などは、そういう事しているのか....参考になります。
思うにルータの切替えやクラスタリングの切替えは完全な無瞬断では無く、
お客さんにサービスしている以上、無用な停止はできないという事では
ないでしょうか。
また伝統的な通信会社(パケットより回線交換が好きな人たち)は検証環境を
しっかりと構築し、動作確認をすることで商用をいじらないという考え方が
強いように感じます。
親コメント
Re:今までルータは故障したことがなかったのか?? (スコア:5, 興味深い)
親コメント
Re:今までルータは故障したことがなかったのか?? (スコア:5, すばらしい洞察)
十分な投資ができない(なされない)まま構築されたシステムが、あるときに過負荷に陥るというのは有り得ることだと思います。
将来的な部分を見越して設計されたサービスであれば、フレッツの価格帯では提供されませんし、バックボーンとのサービス品質の違いが明らかになっただけだと私は思っています。
ネットワークに故障があって困る人は専用線を引けばいいんですよ。
親コメント
Re:人が倒れていて警察へ?(オフトピ) (スコア:2, 参考になる)
110番通報→①県警本部で受信→②担当官が管轄署を判断→③管轄警察署へ転送
→④管轄警察署で救急措置を必要と判断→⑤消防署へ一般電話で連絡→以下119番通報に同じ
119番通報→①消防本部(市・郡単位または、広域)で受信→②救急措置が必要と判断
→③最も早く到着できる救急車が配備されている消防署へ出動命令(無線等)→④出動
となり、救急車(消防車も一緒)の出動が必要なときに、110番通報では、大きなロスタイムが 発生します。
一般に心肺停止では、蘇生措置が1分遅れると7~10%社会復帰率(蘇生しても、脳死状態では!)が 低下するとされていますし、その他の場合でも、救命措置が必要な場合は分単位の遅れが命取りです。 火災も分単位の遅れが被害を左右します。
救急や火事の場合は、119番通報が鉄則です。
(参考) 救命曲線 [google.co.jp]
親コメント
Re:今までルータは故障したことがなかったのか?? (スコア:2, 興味深い)
予備系の通信路にも常に運用系と同じデータが流れている。
だから運用系でトラブルがあったときに、
トラブルの部分だけの通信路を予備系に瞬時に切り替えて
しかもデータロスト無しという芸当ができる。
だから長い間予備系をつかっていないといざと言うとき動かない、
と言うことは無いですよ。
と、これは建前で、やはり一番の弱点はこの切り替えの瞬間の処理にあるわけです。
潜んでいたバグがここで顔を出し、運用系予備系ともにダウンと言うことになり
通信途絶なんてのは、ありがちな話。
親コメント
Re:今までルータは故障したことがなかったのか?? (スコア:3, 興味深い)
ISDN交換機でも、同様の事例もあったとか。
/* Kachou Utumi
I'm Not Rich... */
親コメント
Re:今までルータは故障したことがなかったのか?? (スコア:3, 参考になる)
動いているものは基本的にいじらないことが多いです。
それどころか、メンテナンスのためにUPS供給から商用供給に切り替えたいといって作業を申告しても、
通常なら絶対に影響が無いにもかかわらず、サービスの種類によって絶対にやらせてくれないユーザもいます(怨)
で、オーバーホールが出来なくて経年劣化でUPSが壊れて、出力断なんて間抜けな話もあります。
故障して文句を言うくらいなら最初から設備屋の忠告を聞いて作業をさせて欲しいです。
親コメント
Re:今までルータは故障したことがなかったのか?? (スコア:2, 興味深い)
単に営業が無能なのでは?と毎回おもいます
現状維持による微量なメリットと
多少の不自由さと引き替えにリスク回避ができることの説明が全くできない
そもそもは、初期導入時に機器メンテによる停止を行う必要性を説明せずに
契約を取ることだけを仕事としている営業が多すぎる
個人顧客相手のフレッツの営業なんてもっと悲惨で
導入までの手順説明も出来てないし、
光線引き込み工事の確認や説明もできてない場合も多い、
実際工事日に「壁に穴開けて引き込みます」とかって話が出て
顧客が「そりゃ困る」と中止になるケースが多い
まあ、個人顧客の場合はコンサルがちゃんとしてないのが
悪いのだが、営業さんももう少しちゃんとしようや
親コメント
NTT東日本攻略法? (スコア:2, 興味深い)
壊滅させることが可能っぽいように読めるんだけど、そういう認識でいいの?
IPネットワークって、そういう事態を避けるためのネットワークだと思ってたんだけど。
Re:NTT東日本攻略法? (スコア:5, 興味深い)
以下、Wikipedia [wikipedia.org]より引用です。
また出典は忘れましたが、そもそも国防省がスポンサーになったのも、他にスポンサーになってくれる所が全然見つからなかった為だった、というエピソードがあったと思います。
親コメント
Re:NTT東日本攻略法? (スコア:3, 参考になる)
説明めんどくさいしインフラ技術にはどっちかというと疎いんで結果だけいうと、
蔵前にあるNTT東の建物を破壊したとしても確実にフレッツ網が死ぬとは言えません。
ただ、今日明日くらいならかなりの高確率でフレッツ網がダウンするかもしれない。
あと、現実的に考えてNTT東がターゲットならいざ知らず、複数のIXを同時、もしくは
数分程度の時間差で物理的に落とすとかすれば全国的に今回のNTT東の様な現象が起き
るかもしれないし、エンドユーザのIP網が死ななかったとしても経済的な被害の範囲と
規模もより大きくできるんじゃないかと。
そういう事態を避ける為のネットワークを作りすぎてた、というのが今回の原因。
親コメント
Re:NTT東日本攻略法? (スコア:2, 参考になる)
親コメント
Re:考えてみた (スコア:2, 興味深い)
梅田と大手町のビル内部で1ktも起爆させれば終了でしょう。この程度ならテロリストでも作れる可能性が高い。
真に政治的な連中は、付随的被害など気にしてない(もしくは付随的被害もある程度大きくしたい)ものです。
親コメント
ミラールーターって無いの? (スコア:1)
規模が小さなところでは新しいのに置き換えてルーティング情報書き換えればそれでOKなのでしょうけど、ある程度以上の規模では今回のような事が起きないよう待機系との切り替えだけでなく重複化も必要かと思います。いくらかはやってたのかも知れませんが。
#ネットワーク構成が変われば書き換えは起こるでしょうけど、上の場合は機器の一部に障害が起きても見かけ上の構成は変化しないようになってる機器と仮定して書いてます。
問題のルータにはこう刻まれていたらしい (スコア:1)
一つのルータは全てを見つけ、
一つのルータは全てを捕らえて、
暗闇の中に繋ぎとめる
フレッツの稼働率は99.92% (スコア:1, 興味深い)
障害該当地域では、99.99%以上の稼働率を要求する案件には使えないということですね。
(この障害が無くてもフレッツをそんな案件に使うというのは、適切な判断だとは思えませんが)
ひかり電話に限れば、昨年の障害も合わせて、稼働率99.9%も割っています。
ニュースサイトによっての相違 (スコア:1)
IT Proの記事 [nikkeibp.co.jp]
ITmediaの記事 [itmedia.co.jp]
2つのサイトで、障害のきっかけが微妙に違いますが…どっちが正しいんでしょう?
#他のニュースサイトは未チェックです。すみません。
難しいことはわかんないね。 (スコア:1)
みなさん「ひかり電話」は通じませんし、ごめんして下さい。
こんな品質、昔の日本で許されたか。そうじゃない気がする。
こてんぱんにやられましたわ。我が世代。
と、思いました。
がんばろう。と自分に言い聞かせる。
Re:耐えられませんでした~って (スコア:3, すばらしい洞察)
親コメント
Re:耐えられませんでした~って (スコア:2, 興味深い)
そうだとすると仕様のミスじゃないのか。
耐えられなくなったら、ダウンするのじゃなく、もっと違うことをすることがあるのではないか。
待ち行列を全て破棄して、再起動するとか。
教えて、ルータープロの人。
親コメント
Re:なんでそんなに経路情報が多いんだ? (スコア:1, 興味深い)
PPPoEの接続拠点数 x n台ルータ+フレッツ網からインターネットへの出口ルータがサービスISPの数 x n(ISPにより複数,各県別にあったりいろいろ)台
あって、加えて管理用のルータが別にある(何処にあるかは知らん)
それらルータがぜーんぶフラットに網につながっているの?という感じかな。報道発表をみたところでは。
各県毎に一旦集約してroutingしてるのかと思っていたがそうではなかったのかもしれない。
親コメント
Re:なんでそんなに経路情報が多いんだ? (スコア:1, すばらしい洞察)
エリア単位で経路集約してればこんな事にならなかった気もするんですが。
#素人の浅はかな発想?
親コメント
Re:なんでそんなに経路情報が多いんだ? (スコア:2, すばらしい洞察)
一部のオタが最適化してくれるかもしれませんよ(笑
親コメント
Re:レベルの低い会話やめてくれ... (スコア:3, おもしろおかしい)
それが/.Jってもんです。
親コメント
Re:素人の疑問 (スコア:1, 参考になる)
・通常動作
・縮退動作
・リスタート
などの各種モードが自動的に行われる様になっていて、どうしても駄目なら
・停止 (エラー表示などあり)
という風な動作をします。(あくまで大雑把な例)
ま、単なるハングアップなんぞしないということです。
自分自身を監視する様になってますから。
#設計が悪い機器だと単なるハングもありえますが(笑)、
#負荷がやたらあっても簡単にはハングなんてしない様に作ります。
#それなりにパターンを作って負荷試験も行いますし。
親コメント
Re:レベルの低い会話やめてくれ... (スコア:1)
知ったら好き勝手な憶測とかかけなくなるじゃん!
# と負け惜しみを言ってみる部外者
親コメント
Re:レベルの低い会話やめてくれ... (スコア:1)
>一気にデスマに突入
何か、過冷却液体の結晶化のような話ですね。
見た目は液体だけど既に準安定状態(安定状態ではない)だから、何かのきっかけで一気に全体の様子が変わる。
親コメント
Re:「高負荷だからダウンした」という説明で納得してよいのか? (スコア:1)
該当ルータとの通信障害に限って言えばこれになるでしょう
ただし拡大したのは影響範囲が全国に及ぶようにしてしまったネットワーク設計の問題では無いか
と予想されていますね、内部の人しか本当のところは判らないでしょうが...
障害現象を「NTT東日本のサービス地域のうち首都圏を除く全地域で障害が発生した」
って言う件に関しては双方が複合しないと起きない現象でしょうから
片方だけが今回の原因とは言えないでしょう
両方やっちゃったって事ですな
親コメント