パスワードを忘れた? アカウント作成
15440 story

NTT東のフレッツ大規模障害は1台のルーターから 135

ストーリー by kazekiri
興味深いトポロジ 部門より

ultrageek 曰く、

昨日に盛大な大規模障害となったNTT東のフレッツであるが、 ITProに謝罪会見と障害原因に関する記事が掲載されている。それによれば、東京の1台のルーターに故障が発生し、部品交換のために待機系のルーターに切り替えたことが主要因になったらしい。 待機系への変更は通常の保守作業であるわけだが、フレッツサービスを構成する4000台のルーターにおいてルーティング情報の書き換えがされる際に、フレッツでは1台のルーターで1万5000ものルーティング情報を持っており、その書き換え負荷に耐えられなかったとのことだ。障害の起きなかったNTT東地域については、単にソフトウェアのバージョンが新しく、負荷に強かったので助かったとのことのようだ。しかし、まあフレッツだけで1万以上の経路があるのですねぇ。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • 冗長化(Redundancy)と障害耐性(Robustness)
    # あってる?

    は別物というよい教訓になる...かな。

    たぶん、一遍に復旧させて経路再学習させる高負荷のテストが不十分だったんだろうなー
    まあ、なかなか試しにくいとは思うけど。

    # もしかしたら当事者かもしれないけどID
    --
    M-FalconSky (暑いか寒い)
  • 故障したことがなかったとしたらそちらの方が不思議。
    過去に故障して待機系と切替が行われているとしたら今回だけなぜという疑問。
    電力とか化学プラントなどでは運転系と待機系を一定期間ごとに切り替えるのが普通だが
    ルータはやらないのだろうか。そうだとしたらそれも不思議。
    • 要するに、以前の交換作業ではルーティング情報は今回より少なかったので
      耐え切ることができていたってだけのことでしょ。
      ぜんぜん不思議じゃありません。
      親コメント
    • > 電力とか化学プラントなどでは運転系と待機系を一定期間ごとに切り替えるのが普通だが
      > ルータはやらないのだろうか。そうだとしたらそれも不思議。

      通信業界にいますが、系を一定時間で定期的に切替える事は聞いた事がないですね。
      電力などは、そういう事しているのか....参考になります。

      思うにルータの切替えやクラスタリングの切替えは完全な無瞬断では無く、
      お客さんにサービスしている以上、無用な停止はできないという事では
      ないでしょうか。
      また伝統的な通信会社(パケットより回線交換が好きな人たち)は検証環境を
      しっかりと構築し、動作確認をすることで商用をいじらないという考え方が
      強いように感じます。

      親コメント
      • by Anonymous Coward on 2007年05月16日 22時14分 (#1158069)
        ネットワークにおけるどの部位のルータかによもりますが、 サービスプロバイダが使うようなルータは普通フルルート(20万経路程度)はもてるはずです。 それに、機器選定の段階で将来的な経路数の上昇を見越して設計しないはずないです。 なので、今回の経路数が想定外だとか、以前より多いとか、そんなネットワーク素人な言い訳 をNTTがしているとなるとがっかりです... まともなルータなら起動直後にフルルート更新がかかっても数分で処理されるはずです。 なので、系が切り替わったという更新だけでいったい何の問題が??それじゃ、リンクフラップ したらどうなるんでしょう。 さらに、系の切替を定期的にしないにしても、切替自体が問題ないことも事前に検証するはずですし、 故障の際のハードウェア交換についても、事前に検証して手順を文書化してあるでしょう。 本当の理由はなんなのか、ごまかさないで明らかにして欲しいですね。
        親コメント
        • by Anonymous Coward on 2007年05月16日 22時42分 (#1158089)
          フルルート食べれるようなルータをフレッツ網に使うことはコスト的に適わないのではないでしょうか。

          十分な投資ができない(なされない)まま構築されたシステムが、あるときに過負荷に陥るというのは有り得ることだと思います。

          将来的な部分を見越して設計されたサービスであれば、フレッツの価格帯では提供されませんし、バックボーンとのサービス品質の違いが明らかになっただけだと私は思っています。

          ネットワークに故障があって困る人は専用線を引けばいいんですよ。
          親コメント
          • by Anonymous Coward on 2007年05月16日 23時43分 (#1158119)
            > ネットワークに故障があって困る人は専用線を引けばいいんですよ。

            ネットワークだけならそれも正論だが、ひかり電話は110番や119番などへの通話など、
            ライフラインの重要な役割を担っているのを忘れずに。

            携帯電話では、110番に通報しても発信者の位置が正確には特定できず、
            119番に電話をしても管轄の消防署に繋がらない可能性があるので、
            トラブルを繰り返すのは勘弁してほしい。
            親コメント
      • by Anonymous Coward on 2007年05月16日 22時00分 (#1158056)
        通信系はともかく,自家発電機なんかは2つを交互に切り替えて使うことはある
        機械ものは予備系統を稼働させずにほったらかしておくと,いざというときに障害の出ることがあるので
        まあ,いろいろと余裕があって,かつ信頼性重視のところだけど
        親コメント
        • by Anonymous Coward on 2007年05月17日 2時51分 (#1158206)
          通信路では運用系も予備系も実はずっと稼働中です。
          予備系の通信路にも常に運用系と同じデータが流れている。
          だから運用系でトラブルがあったときに、
          トラブルの部分だけの通信路を予備系に瞬時に切り替えて
          しかもデータロスト無しという芸当ができる。

          だから長い間予備系をつかっていないといざと言うとき動かない、
          と言うことは無いですよ。

          と、これは建前で、やはり一番の弱点はこの切り替えの瞬間の処理にあるわけです。
          潜んでいたバグがここで顔を出し、運用系予備系ともにダウンと言うことになり
          通信途絶なんてのは、ありがちな話。
          親コメント
    • ルーターの故障頻度は知らないが、以前は九州管内のルーターの不具合(暴走、ファームウェアのアップグレード作業失敗)で、NTT系含め、NTTを上流バックボーンにした大手から地場ISPが、外に繋がらなくなった事は何度かありましたよ。

      ISDN交換機でも、同様の事例もあったとか。
      --

      /* Kachou Utumi
      I'm Not Rich... */
      親コメント
    • 通信とかデータセンタ系の電源は2重化してあって通常切り替えませんね。
      動いているものは基本的にいじらないことが多いです。

      それどころか、メンテナンスのためにUPS供給から商用供給に切り替えたいといって作業を申告しても、
      通常なら絶対に影響が無いにもかかわらず、サービスの種類によって絶対にやらせてくれないユーザもいます(怨)

      で、オーバーホールが出来なくて経年劣化でUPSが壊れて、出力断なんて間抜けな話もあります。

      故障して文句を言うくらいなら最初から設備屋の忠告を聞いて作業をさせて欲しいです。
      親コメント
      • by Anonymous Coward on 2007年05月17日 0時43分 (#1158158)
        この手の話を時々耳にしますが
        単に営業が無能なのでは?と毎回おもいます

        現状維持による微量なメリットと
        多少の不自由さと引き替えにリスク回避ができることの説明が全くできない
        そもそもは、初期導入時に機器メンテによる停止を行う必要性を説明せずに
        契約を取ることだけを仕事としている営業が多すぎる

        個人顧客相手のフレッツの営業なんてもっと悲惨で
        導入までの手順説明も出来てないし、
        光線引き込み工事の確認や説明もできてない場合も多い、
        実際工事日に「壁に穴開けて引き込みます」とかって話が出て
        顧客が「そりゃ困る」と中止になるケースが多い
        まあ、個人顧客の場合はコンサルがちゃんとしてないのが
        悪いのだが、営業さんももう少しちゃんとしようや
        親コメント
    • by Anonymous Coward on 2007年05月16日 20時14分 (#1157965)
      通信では待機系は運用系に問題が起きない限り永久に待機です。
      親コメント
  • by Anonymous Coward on 2007年05月16日 20時42分 (#1157988)
    東京蔵前付近にあるNTTビルを物理的に破壊すれば、東日本のフレッツ網を
    壊滅させることが可能っぽいように読めるんだけど、そういう認識でいいの?

    IPネットワークって、そういう事態を避けるためのネットワークだと思ってたんだけど。
    • by motamota (30138) on 2007年05月16日 21時05分 (#1158008)
      IPネットワークって、そういう事態を避けるためのネットワークだと思ってたんだけど。

      以下、Wikipedia [wikipedia.org]より引用です。
      このため、ARPANETの目的が核攻撃下に耐えうるネットワークの構築であると誤解される場合がある。1994年7月にはアメリカの雑誌タイムで、この説が取り上げられたため、[1]一般にも流布することになった。これに対して、ARPANET構築時のIPTO部長であるロバート・テイラーは事実とは異なる旨、正式な抗議をタイム誌に対して行っている。実際には各種通信障害への耐久性が他の通信方式に比べてより高い程度に過ぎない。

      また出典は忘れましたが、そもそも国防省がスポンサーになったのも、他にスポンサーになってくれる所が全然見つからなかった為だった、というエピソードがあったと思います。
      親コメント
    • by nikomi (28640) on 2007年05月16日 21時19分 (#1158023)
      既出かもしれないけどNTT東のリリース [ntt-east.co.jp]も読みましょう。

      説明めんどくさいしインフラ技術にはどっちかというと疎いんで結果だけいうと、
      蔵前にあるNTT東の建物を破壊したとしても確実にフレッツ網が死ぬとは言えません。
      ただ、今日明日くらいならかなりの高確率でフレッツ網がダウンするかもしれない。

      あと、現実的に考えてNTT東がターゲットならいざ知らず、複数のIXを同時、もしくは
      数分程度の時間差で物理的に落とすとかすれば全国的に今回のNTT東の様な現象が起き
      るかもしれないし、エンドユーザのIP網が死ななかったとしても経済的な被害の範囲と
      規模もより大きくできるんじゃないかと。

      そういう事態を避ける為のネットワークを作りすぎてた、というのが今回の原因。
      親コメント
    • by multiplex (33585) on 2007年05月16日 21時10分 (#1158014)
      物理破壊がアリなら、梅田と大手門のNTTビル破壊したら日本の通信網全滅するよ。
      親コメント
    • by 9nu (12793) on 2007年05月16日 21時06分 (#1158010)
      今回のトラブルで、1961年のユタ州の事件(電話中継施設が爆破され、軍用回線まで影響を受けた事件)を連想しましたねぇ。
      ARPANETの開発は、そうした通信トラブルに強い通信システムを構築するという側面があったように思うのだけど。

      どこの文献だったか忘れましたが、通信網のようなスケールフリーネットワークでは、全体の8割程度が機能停止しないかぎり
      ネットワーク全体が停止してしまうことはないという記述を読んだことが。
      --
      犬が犬であるように、猫でありたい
      親コメント
    • 以前に予備用に用意していたレベル3スイッチに切り替えるテストをしました。
      pingが通ったんでいいかなと帰ったら、つながらないサーバーがやたら
      あって大騒ぎしました。半日くらいつながらなかったかな。

      macアドレスを覚えすぎていたんじゃないかという結論なのですが
      インターネットが出来たころにはそのようなものはなかったから
      理論的に柔軟に経路がかわると言えたのかなぁ。

      結局、関連するルーターとかサーバーをリブートして経路は確定したのですが
      さすがに大規模なシステムで全部リブートはおっかないですね。
      親コメント
    • by heika (271) on 2007年05月17日 0時12分 (#1158143)
      >IPネットワークって、そういう事態を避けるためのネットワークだと思ってたんだけど。

      そういう目的で構築されたInternet網とNTTのIPネットワークは別ではないでしょうか?
      IPプロトコルでパケットが流れるとしても必ずしも物理的な経路が網の目状である必要は
      ないのですから。
      親コメント
  • HDDのミラーリングみたいなのは(高機能な)ルーターには無いのでしょうか。もしくはDNSみたいにほぼ同じ情報を共有したルーターを2つ以上重複運用して、片方ダウンしても大丈夫な構成になってるとか。
    規模が小さなところでは新しいのに置き換えてルーティング情報書き換えればそれでOKなのでしょうけど、ある程度以上の規模では今回のような事が起きないよう待機系との切り替えだけでなく重複化も必要かと思います。いくらかはやってたのかも知れませんが。

    #ネットワーク構成が変われば書き換えは起こるでしょうけど、上の場合は機器の一部に障害が起きても見かけ上の構成は変化しないようになってる機器と仮定して書いてます。
  • by Anonymous Coward on 2007年05月16日 21時56分 (#1158052)
    一つのルータは全てを統べ、
    一つのルータは全てを見つけ、
    一つのルータは全てを捕らえて、
    暗闇の中に繋ぎとめる
  • by Anonymous Coward on 2007年05月16日 22時14分 (#1158068)
    7時間の障害として計算すると、フレッツサービスの過去1年間の稼働率は99.92%。
    障害該当地域では、99.99%以上の稼働率を要求する案件には使えないということですね。
    (この障害が無くてもフレッツをそんな案件に使うというのは、適切な判断だとは思えませんが)

    ひかり電話に限れば、昨年の障害も合わせて、稼働率99.9%も割っています。
  • あまり詳しくなくてスミマセンが、

    IT Proの記事 [nikkeibp.co.jp]
    パッケージ交換したルーターを予備系に切り替えた際に,約80経路分のルート変更を各ルーターが再計算し始めたが,その際に再計算処理しきれず自律停止してしまったという。

    ITmediaの記事 [itmedia.co.jp]
    予備系に切り替えて故障部分のパッケージを交換し、その後元のルータに再接続したが、これが引き金になった。

    2つのサイトで、障害のきっかけが微妙に違いますが…どっちが正しいんでしょう?

    #他のニュースサイトは未チェックです。すみません。
  • 仮に1台のルーター障害で、TVテロップに流れて障害中だと。
    みなさん「ひかり電話」は通じませんし、ごめんして下さい。

    こんな品質、昔の日本で許されたか。そうじゃない気がする。
    こてんぱんにやられましたわ。我が世代。

    と、思いました。
    --
    がんばろう。と自分に言い聞かせる。
    • by Anonymous Coward on 2007年05月17日 2時29分 (#1158198)
      1960年代とかってさ、大都市でも電力足りなくなって頻繁に停電してたのよ。
      そのたびに電力会社があやまってたかというとそうではなくて
      みんなそういう物だと思って暮らしてた。
      親コメント
      • 今でもビルは頻繁に停電しています。
        落雷とか送電事故とかで。瞬間停電などはよくあるようです。

        気がつかないのは自家発やバッテリーなどのビル側設備があるからです。
        さすがに大規模・数時間になると持たないですが。

        #一般家庭用では変電所が頑張ってるのではないでしょうか?

        親コメント
typodupeerror

物事のやり方は一つではない -- Perlな人

読み込み中...