ページ内ジャンプ:

アレゲなニュースと雑談サイト

kazekiriによる 2007年05月16日 19時23分の掲載
興味深いトポロジ部門より。

ultrageek 曰く、

昨日に盛大な大規模障害となったNTT東のフレッツであるが、 ITProに謝罪会見と障害原因に関する記事が掲載されている。それによれば、東京の1台のルーターに故障が発生し、部品交換のために待機系のルーターに切り替えたことが主要因になったらしい。 待機系への変更は通常の保守作業であるわけだが、フレッツサービスを構成する4000台のルーターにおいてルーティング情報の書き換えがされる際に、フレッツでは1台のルーターで1万5000ものルーティング情報を持っており、その書き換え負荷に耐えられなかったとのことだ。障害の起きなかったNTT東地域については、単にソフトウェアのバージョンが新しく、負荷に強かったので助かったとのことのようだ。しかし、まあフレッツだけで1万以上の経路があるのですねぇ。

関連ストーリー

この議論は賞味期限が過ぎたので、保存されている。 新たにコメントを書くことはできない。
表示オプション しきい値:
  • 冗長化(Redundancy)と障害耐性(Robustness)
    # あってる?

    は別物というよい教訓になる...かな。

    たぶん、一遍に復旧させて経路再学習させる高負荷のテストが不十分だったんだろうなー
    まあ、なかなか試しにくいとは思うけど。

    # もしかしたら当事者かもしれないけどID
  • 故障したことがなかったとしたらそちらの方が不思議。
    過去に故障して待機系と切替が行われているとしたら今回だけなぜという疑問。
    電力とか化学プラントなどでは運転系と待機系を一定期間ごとに切り替えるのが普通だが
    ルータはやらないのだろうか。そうだとしたらそれも不思議。
    • 要するに、以前の交換作業ではルーティング情報は今回より少なかったので
      耐え切ることができていたってだけのことでしょ。
      ぜんぜん不思議じゃありません。
    • > 電力とか化学プラントなどでは運転系と待機系を一定期間ごとに切り替えるのが普通だが
      > ルータはやらないのだろうか。そうだとしたらそれも不思議。

      通信業界にいますが、系を一定時間で定期的に切替える事は聞いた事がないですね。
      電力などは、そういう事しているのか....参考になります。

      思うにルータの切替えやクラスタリングの切替えは完全な無瞬断では無く、
      お客さんにサービスしている以上、無用な停止はできないという事では
      ないでしょうか。
      また伝統的な通信会社(パケットより回線交換が好きな人たち)は検証環境を
      しっかりと構築し、動作確認をすることで商用をいじらないという考え方が
      強いように感じます。

      • Anonymous Coward : 2007年05月16日 22時14分 (#1158069)
        ネットワークにおけるどの部位のルータかによもりますが、 サービスプロバイダが使うようなルータは普通フルルート(20万経路程度)はもてるはずです。 それに、機器選定の段階で将来的な経路数の上昇を見越して設計しないはずないです。 なので、今回の経路数が想定外だとか、以前より多いとか、そんなネットワーク素人な言い訳 をNTTがしているとなるとがっかりです... まともなルータなら起動直後にフルルート更新がかかっても数分で処理されるはずです。 なので、系が切り替わったという更新だけでいったい何の問題が??それじゃ、リンクフラップ したらどうなるんでしょう。 さらに、系の切替を定期的にしないにしても、切替自体が問題ないことも事前に検証するはずですし、 故障の際のハードウェア交換についても、事前に検証して手順を文書化してあるでしょう。 本当の理由はなんなのか、ごまかさないで明らかにして欲しいですね。
        • Anonymous Coward : 2007年05月16日 22時42分 (#1158089)
          フルルート食べれるようなルータをフレッツ網に使うことはコスト的に適わないのではないでしょうか。

          十分な投資ができない(なされない)まま構築されたシステムが、あるときに過負荷に陥るというのは有り得ることだと思います。

          将来的な部分を見越して設計されたサービスであれば、フレッツの価格帯では提供されませんし、バックボーンとのサービス品質の違いが明らかになっただけだと私は思っています。

          ネットワークに故障があって困る人は専用線を引けばいいんですよ。
        • 場所により事情は違うのですが、某県の場合。
          110番通報→①県警本部で受信→②担当官が管轄署を判断→③管轄警察署へ転送
          →④管轄警察署で救急措置を必要と判断→⑤消防署へ一般電話で連絡→以下119番通報に同じ
          119番通報→①消防本部(市・郡単位または、広域)で受信→②救急措置が必要と判断
          →③最も早く到着できる救急車が配備されている消防署へ出動命令(無線等)→④出動
          となり、救急車(消防車も一緒)の出動が必要なときに、110番通報では、大きなロスタイムが 発生します。
          一般に心肺停止では、蘇生措置が1分遅れると7~10%社会復帰率(蘇生しても、脳死状態では!)が 低下するとされていますし、その他の場合でも、救命措置が必要な場合は分単位の遅れが命取りです。 火災も分単位の遅れが被害を左右します。

          救急や火事の場合は、119番通報が鉄則です。
          (参考) 救命曲線 [google.co.jp]
        • 13個のコメント が現在のしきい値以下です。
      • 2個のコメント が現在のしきい値以下です。
    • ルーターの故障頻度は知らないが、以前は九州管内のルーターの不具合(暴走、ファームウェアのアップグレード作業失敗)で、NTT系含め、NTTを上流バックボーンにした大手から地場ISPが、外に繋がらなくなった事は何度かありましたよ。

      ISDN交換機でも、同様の事例もあったとか。
      --

      /* Kachou Utumi
      I'm Not Rich... */
    • 通信とかデータセンタ系の電源は2重化してあって通常切り替えませんね。
      動いているものは基本的にいじらないことが多いです。

      それどころか、メンテナンスのためにUPS供給から商用供給に切り替えたいといって作業を申告しても、
      通常なら絶対に影響が無いにもかかわらず、サービスの種類によって絶対にやらせてくれないユーザもいます(怨)

      で、オーバーホールが出来なくて経年劣化でUPSが壊れて、出力断なんて間抜けな話もあります。

      故障して文句を言うくらいなら最初から設備屋の忠告を聞いて作業をさせて欲しいです。
      • Anonymous Coward : 2007年05月17日 0時43分 (#1158158)
        この手の話を時々耳にしますが
        単に営業が無能なのでは?と毎回おもいます

        現状維持による微量なメリットと
        多少の不自由さと引き替えにリスク回避ができることの説明が全くできない
        そもそもは、初期導入時に機器メンテによる停止を行う必要性を説明せずに
        契約を取ることだけを仕事としている営業が多すぎる

        個人顧客相手のフレッツの営業なんてもっと悲惨で
        導入までの手順説明も出来てないし、
        光線引き込み工事の確認や説明もできてない場合も多い、
        実際工事日に「壁に穴開けて引き込みます」とかって話が出て
        顧客が「そりゃ困る」と中止になるケースが多い
        まあ、個人顧客の場合はコンサルがちゃんとしてないのが
        悪いのだが、営業さんももう少しちゃんとしようや
  • Anonymous Coward : 2007年05月16日 20時42分 (#1157988)
    東京蔵前付近にあるNTTビルを物理的に破壊すれば、東日本のフレッツ網を
    壊滅させることが可能っぽいように読めるんだけど、そういう認識でいいの?

    IPネットワークって、そういう事態を避けるためのネットワークだと思ってたんだけど。
    • motamota (30138) : 2007年05月16日 21時05分 (#1158008)
      IPネットワークって、そういう事態を避けるためのネットワークだと思ってたんだけど。

      以下、Wikipedia [wikipedia.org]より引用です。
      このため、ARPANETの目的が核攻撃下に耐えうるネットワークの構築であると誤解される場合がある。1994年7月にはアメリカの雑誌タイムで、この説が取り上げられたため、[1]一般にも流布することになった。これに対して、ARPANET構築時のIPTO部長であるロバート・テイラーは事実とは異なる旨、正式な抗議をタイム誌に対して行っている。実際には各種通信障害への耐久性が他の通信方式に比べてより高い程度に過ぎない。

      また出典は忘れましたが、そもそも国防省がスポンサーになったのも、他にスポンサーになってくれる所が全然見つからなかった為だった、というエピソードがあったと思います。
    • nikomi (28640) : 2007年05月16日 21時19分 (#1158023)
      既出かもしれないけどNTT東のリリース [ntt-east.co.jp]も読みましょう。

      説明めんどくさいしインフラ技術にはどっちかというと疎いんで結果だけいうと、
      蔵前にあるNTT東の建物を破壊したとしても確実にフレッツ網が死ぬとは言えません。
      ただ、今日明日くらいならかなりの高確率でフレッツ網がダウンするかもしれない。

      あと、現実的に考えてNTT東がターゲットならいざ知らず、複数のIXを同時、もしくは
      数分程度の時間差で物理的に落とすとかすれば全国的に今回のNTT東の様な現象が起き
      るかもしれないし、エンドユーザのIP網が死ななかったとしても経済的な被害の範囲と
      規模もより大きくできるんじゃないかと。

      そういう事態を避ける為のネットワークを作りすぎてた、というのが今回の原因。
    • multiplex (33585) : 2007年05月16日 21時10分 (#1158014)
      物理破壊がアリなら、梅田と大手門のNTTビル破壊したら日本の通信網全滅するよ。
    • Akami (4183) : 2007年05月16日 22時49分 (#1158093)
      逆に目的が政治的で、妙な組織力を持ってる連中なら。

      梅田と大手町のビル内部で1ktも起爆させれば終了でしょう。この程度ならテロリストでも作れる可能性が高い。
      真に政治的な連中は、付随的被害など気にしてない(もしくは付随的被害もある程度大きくしたい)ものです。
    • 5個のコメント が現在のしきい値以下です。
  • HDDのミラーリングみたいなのは(高機能な)ルーターには無いのでしょうか。もしくはDNSみたいにほぼ同じ情報を共有したルーターを2つ以上重複運用して、片方ダウンしても大丈夫な構成になってるとか。
    規模が小さなところでは新しいのに置き換えてルーティング情報書き換えればそれでOKなのでしょうけど、ある程度以上の規模では今回のような事が起きないよう待機系との切り替えだけでなく重複化も必要かと思います。いくらかはやってたのかも知れませんが。

    #ネットワーク構成が変われば書き換えは起こるでしょうけど、上の場合は機器の一部に障害が起きても見かけ上の構成は変化しないようになってる機器と仮定して書いてます。
  • Anonymous Coward : 2007年05月16日 21時56分 (#1158052)
    一つのルータは全てを統べ、
    一つのルータは全てを見つけ、
    一つのルータは全てを捕らえて、
    暗闇の中に繋ぎとめる
  • Anonymous Coward : 2007年05月16日 22時14分 (#1158068)
    7時間の障害として計算すると、フレッツサービスの過去1年間の稼働率は99.92%。
    障害該当地域では、99.99%以上の稼働率を要求する案件には使えないということですね。
    (この障害が無くてもフレッツをそんな案件に使うというのは、適切な判断だとは思えませんが)

    ひかり電話に限れば、昨年の障害も合わせて、稼働率99.9%も割っています。
  • あまり詳しくなくてスミマセンが、

    IT Proの記事 [nikkeibp.co.jp]
    パッケージ交換したルーターを予備系に切り替えた際に,約80経路分のルート変更を各ルーターが再計算し始めたが,その際に再計算処理しきれず自律停止してしまったという。

    ITmediaの記事 [itmedia.co.jp]
    予備系に切り替えて故障部分のパッケージを交換し、その後元のルータに再接続したが、これが引き金になった。

    2つのサイトで、障害のきっかけが微妙に違いますが…どっちが正しいんでしょう?

    #他のニュースサイトは未チェックです。すみません。
  • 仮に1台のルーター障害で、TVテロップに流れて障害中だと。
    みなさん「ひかり電話」は通じませんし、ごめんして下さい。

    こんな品質、昔の日本で許されたか。そうじゃない気がする。
    こてんぱんにやられましたわ。我が世代。

    と、思いました。
    --
    がんばろう。と自分に言い聞かせる。
  • Anonymous Coward : 2007年05月16日 19時42分 (#1157942)
    営業がなりふり構わず契約を取ってくる事に対するチェックが足りなかったんでしょう
  • shoji12 (14093) : 2007年05月16日 20時44分 (#1157990)
    それでダウンするようにソフトが作られている、と読み取れる。
    そうだとすると仕様のミスじゃないのか。
    耐えられなくなったら、ダウンするのじゃなく、もっと違うことをすることがあるのではないか。
    待ち行列を全て破棄して、再起動するとか。
    教えて、ルータープロの人。
  • Anonymous Coward : 2007年05月16日 22時34分 (#1158084)
    >PPPoEの接続拠点とPPPoEのRADIUSサーバ以外になんか繋がってんの?

    PPPoEの接続拠点数 x n台ルータ+フレッツ網からインターネットへの出口ルータがサービスISPの数 x n(ISPにより複数,各県別にあったりいろいろ)台
    あって、加えて管理用のルータが別にある(何処にあるかは知らん)
    それらルータがぜーんぶフラットに網につながっているの?という感じかな。報道発表をみたところでは。
    各県毎に一旦集約してroutingしてるのかと思っていたがそうではなかったのかもしれない。
  • Anonymous Coward : 2007年05月16日 22時37分 (#1158087)
    かなり多いですよね。
    エリア単位で経路集約してればこんな事にならなかった気もするんですが。

    #素人の浅はかな発想?
  • Anonymous Coward : 2007年05月16日 23時57分 (#1158130)
    せっかくですのでそのルーティングテーブルをWinnyに流出させませんか?
    一部のオタが最適化してくれるかもしれませんよ(笑
  • Anonymous Coward : 2007年05月17日 0時06分 (#1158138)
    わかってませんね。
    それが/.Jってもんです。
  • Re:素人の疑問 (スコア:1, 参考になる)

    Anonymous Coward : 2007年05月17日 1時29分 (#1158177)
    値段の高い通信制御装置の場合、
    ・通常動作
    ・縮退動作
    ・リスタート
    などの各種モードが自動的に行われる様になっていて、どうしても駄目なら
    ・停止 (エラー表示などあり)
    という風な動作をします。(あくまで大雑把な例)
    ま、単なるハングアップなんぞしないということです。
    自分自身を監視する様になってますから。

    #設計が悪い機器だと単なるハングもありえますが(笑)、
    #負荷がやたらあっても簡単にはハングなんてしない様に作ります。
    #それなりにパターンを作って負荷試験も行いますし。
  • そりゃ調べようと思ったら多分調べられるけど
    知ったら好き勝手な憶測とかかけなくなるじゃん!

    # と負け惜しみを言ってみる部外者
  • >一人がぶっ倒れたのを引き金に
    >一気にデスマに突入

     何か、過冷却液体の結晶化のような話ですね。
    見た目は液体だけど既に準安定状態(安定状態ではない)だから、何かのきっかけで一気に全体の様子が変わる。
  • 単発の発生原因はネットワークのルーティング情報書き換えが出来なかった事
    該当ルータとの通信障害に限って言えばこれになるでしょう

    ただし拡大したのは影響範囲が全国に及ぶようにしてしまったネットワーク設計の問題では無いか
    と予想されていますね、内部の人しか本当のところは判らないでしょうが...

    障害現象を「NTT東日本のサービス地域のうち首都圏を除く全地域で障害が発生した」
    って言う件に関しては双方が複合しないと起きない現象でしょうから
    片方だけが今回の原因とは言えないでしょう

    両方やっちゃったって事ですな
  • 7個のコメント が現在のしきい値以下です。