パスワードを忘れた? アカウント作成
5679 story

Itanium 2に電気系統の欠陥 34

ストーリー by kazekiri
意外によくあること 部門より

CNet Japanより、 Intelの64ビットCPUであるItanium 2だが、 電気系統の欠陥が見つかったことがIntelより発表されたとのこと。 Itanium 2搭載コンピュータが挙動不安定になったり、故障する恐れが あるとのことだが、「特定のデータを特定の順序で処理する際の、 ある特定の計算処理」をした場合に発生するらしい?

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by redbrick (4865) on 2003年05月13日 13時26分 (#314764) 日記
    あくまでわたしの知識の範囲での推測ですが、EM問題と違う?

    Intelって、(主に量産品だけど)チップのマージン削ってコストを削減してる
    (これはかなりのメーカー内で周知の事実)から、サーバ用の高級品なのに、
    EM耐性のマージン(製造ばらつき含む)の見極めを間違ったんじゃないの?
    #「周波数を落とせば問題ない」って言ってるのでピンと来ました。
    #周波数を落とせば過渡電流が減るから、EMによる製品の寿命が
    #かなり延びますからねぇ。
    #・・・正直、Itanium 2って、カタログスペックでどの程度の
    #EM寿命があるんだろ??
    #あ、ちなみにEM問題だったとすると、故障を起こしたchipは、動作させ続ける限り
    #いずれ完全に不可逆的に破壊される(配線が切れる)ので、交換が一番確実ですね。

    タレコミのリンクのCnet(原文も)のコメントがまた、かなり意味不明ですねぇ(汗)。

    >Grimesによると、この障害は一部の製品のみに存在するもので、

    一部の製品って、アーキテクチャレベルなのか、製造ロットレベルなのか、
    どっちなんよ、おい(汗)。

    >さらに「特定のデータを特定の順序で処理する際の、ある特定の
    >計算処理」を行なう場合だけで生じる問題だという。

    ふーむ、つまりは、特定の場所の配線か拡散層に問題があったわけですな。
    特定ロットだけなら、露光時にマスクにゴミでも乗ったんじゃないの?
    #アーキテクチャレベルで、ってのは、さすがにIntelはCPUの老舗なんで、
    #あんまり考えにくいしねぇ・・・。

    サーバークラスだから特別なのかもしれないけど、希望する顧客には
    簡単に交換に応じるってのも、根本的にソフトウェア側のパッチ当てで
    直せない、重大な障害だって示してるみたいに見えるし。
    Cnetの本家 [com.com]では、問題の修正、ではなくて、チェック用のプログラムを
    #配布する予定って話だし。
    #・・・修正や回避可能ならそれ用のプログラムを出すはずだからねぇ。

    ・・・・こんなの重大な品質問題だから、内部ではものすごい
    大問題になっているんだろうなぁ(汗)。
    #大まかな業種はほぼ同じだけど、わたしゃCPU作る人じゃないので、基本的に
    #他人事ですがね。
    --
    ---- redbrick
  • by petashin (7787) on 2003年05月13日 12時10分 (#314713)
    Pen4はヒートシンク無しでも動いちゃう [g-micro.co.jp]から(from Tom's Hardware guide(JP))
    逆に発見が遅れたんだったり…。
  • by nakatomo (8819) on 2003年05月13日 15時20分 (#314827) 日記
    本家の記事 [slashdot.org]では、障害の原因が
    "glitches in Itenium 2 chips"になってますね。

    たしか、グリッチってチップ内部の配線長(信号の経路長)の違いが
    原因で発生するはずです(クロックで信号を同期させていても問題に
    なります)。
    一般論ですが、CPU内部のクロックを高くすると必然的に信号の
    パルス幅が小さくなります。すなわち、ちょっとした経路長の違
    いのせいで信号の同期が取れなくなって誤動作の原因になってし
    まいます。

    つまり、特定の演算をすると発生するというのは、CPUチップの
    ある領域に経路長が狂っている部分が発生していることを示して
    いるのだと思います。

    経路長が狂った原因が、設計ミスなのか製造のエラーなのか
    原因は知り得ませんが、、、。
    • Re:グリッチ (スコア:3, 興味深い)

      by redbrick (4865) on 2003年05月13日 15時49分 (#314852) 日記
      >本家の記事 [slashdot.org]では、障害の原因が
      >"glitches in Itenium 2 chips"になってますね。
      >
      >たしか、グリッチってチップ内部の配線長(信号の経路長)の違いが
      >原因で発生するはずです(クロックで信号を同期させていても問題に
      >なります)。

      ああ、多分誤解してるんじゃないかと・・・(汗)。
      /.本家からリンクされてるCnet本家だと、

      >The glitch affects only some chips,

      と書いているので、おそらくこれはグリッヂノイズのことではなく、
      単純に単語で訳した場合の
      glitch:欠陥、故障、突然の異常
      の意味で使ってると思われます。
      Cnetの記事のずっと下方、UltraSPARCについても、

      ># Sun finds glitch in new UltraSparc III chip April 4, 2001

      なんて書いてますので、mal-functionみたいな動作の不具合ではなく、
      欠陥品、と言うことを示したいのでしょう。
      #だって、glitch noizeならそう書けばいいし。
      #noizeが付かないなら、非常に一般的な意味に取るしかないと思います。

      ちなみに、glitch noizeって、配線長の差だけではなく、いろいろな要因で
      発生するので、それだけに原因を限定するのは危険です。
      #クロックをセレクタで切り替えたりとかするケースが、今まで経験した
      #回路の中で一番怖いです。

      >経路長が狂った原因が、設計ミスなのか製造のエラーなのか
      >原因は知り得ませんが、、、。

      根本的に、経路長が狂う要因は設計ミス(マスクを作る前のデータのミス)しか
      ありえないです。
      製造のばらつき具合でそんな簡単に経路長がタイミングに影響を及ぼすほど
      変わるようでは、同期回路も非同期回路も設計できませんので、
      あり得ないと思います。
      #STAとか、setup/holdとかって言葉、知ってます?
      #一応、マスク作る前に何度もそういうタイミングは必ず検証するので、
      #それがエラーのままマスク工程まで抜けていたら、Intelって
      #そこらのASIC発注するお客さんより知識も技術もないことになります(汗)。

      それで、そうなると、同じマスクを使った全世代が欠陥品となるわけで、
      多分その場合は、全数回収、マスク修正して作った代替品の提供が
      行われると思いますので、今回のはちょっと違うんじゃないかと思います。
      #そんなら some chips なんて書かないと思うし・・・。

      --
      ---- redbrick
      親コメント
      • by Anonymous Coward
        実はそのSTAでそのパスをディスエーブルしてたのでオッケー だったとか。なんか笑われるかもしれないですが、よくある話 の様な気もしますが。 だからチップに依ったり、クロック下げたりしたら大丈夫だったり ということになったのかなぁと思ってました。
        • by redbrick (4865) on 2003年05月14日 16時56分 (#315595) 日記
          >実はそのSTAでそのパスをディスエーブルしてたのでオッケーだったとか。
          >なんか笑われるかもしれないですが、よくある話の様な気もしますが。

          わたしは笑えないです・・(汗)。実際にありえることは理解できるし、
          そういうチェック抜けに遭遇したこともありますから(汗)。
          #ASICだと、そういうのはお客さん責なので、わたしの責任には
          #ならないんですけど、あんだけ作業を頑張ったのが無駄になったのかと、
          #気分的にがっくりしますね・・・。

          >だからチップに依ったり、クロック下げたりしたら大丈夫だったり
          >ということになったのかなぁと思ってました。

          んー・・・だとすると、その部分は完全に未検証なので、後付けの検証で
          クロックを低くしなければ動かない、なんてことが発覚、ってのも
          ありえるかもしれませんね。
          #chipによる、ってのは・・・そんなに製造ばらつきに影響されるような
          #回路設計してるのかな・・・(汗)?
          --
          ---- redbrick
          親コメント
          • by Anonymous Coward
            > #chipによる、ってのは・・・そんなに製造ばらつきに影響されるような
            > #回路設計してるのかな・・・(汗)?

            あるパスがクロックサイクルの2倍掛かるとかではなく、ぎりぎりの
            ところの問題なんじゃないですかね?
  • by nekopon (1483) on 2003年05月14日 21時02分 (#315692) 日記

    「三宅さん?」
    「はいー、川井さんどうぞ」
    「あのー、さきほどのウェーバーとピッツォニアの同時リタイアですけど、電気系統のトラブルだそうです」
    「あー、電気系統ですかー」
    「ウェーバーかなり怒ってますねー。 『解析用コンピュータの電気系統のトラブルでリタイアとはどういうことだ』と」
    「はぁ?」

    # だって電気系統なんていうんだもん。これ [vnunet.com]もふまえて

  • by Anonymous Coward on 2003年05月13日 11時04分 (#314685)
    intelのアナログ回路にはよくあること、ではないかと。intelがロードマップ通りにどんどん新しいIA-64CPUをリリースしたら、逆に安心して使えないのではないでしょうか?
    • by Anonymous Coward
      intelに限らず、CPUのバグなんてどこにでもある。
      たいていはコンパイラがバグを回避するようなコードを生成してく
      れるが、人間コンパイラーの場合はそうもいかないので大変。

      IA-64の用途を考えたときに、
      たまに計算を間違えるバグ と PCが故障するバグ
      どちらが致命的かな~なんてことを考えてみる。
  • by Anonymous Coward on 2003年05月13日 12時19分 (#314717)
    うちの障害 [srad.jp]の原因がこれだといいなぁ。

    ジャパンネット銀行・富士通関係者(嘘)

    # 嘘なのでAC
  • by Anonymous Coward on 2003年05月13日 13時19分 (#314760)
    特定の順番で特定のデーターを処理することで
    拡張機能が使えるようになるチップセットを使った記憶があります。

    NDAがあるのでこれ以上言えませんが。
  • by Anonymous Coward on 2003年05月13日 19時11分 (#315006)
    「特定のデータを特定の順序で処理する際の、ある特定の計算処理」をした場合
    隕石に当たるよりも稀なのでしょうか?
    • by Anonymous Coward
      Pentiumの浮動小数点バグとどちらが引っかかりやすいんでしょうかね?

      あの時には確か、天文学者が小惑星の計算をしたときくらいにだけバグに遭遇するなんていわれてましたっけ?
      そうでなくても雑誌に書いてあった、エクセルを使った浮動小数点計算を使ったバグの再現法をやって遊んだりしたものです。
    • by Anonymous Coward
       その「ある特定の計算処理」が必要な人には100%当たるので、隕石と同じには考えられないのでは。
      • Re:確率は? (スコア:1, 参考になる)

        by Anonymous Coward on 2003年05月14日 2時13分 (#315258)
        「ここは笑うところです」などと無粋な解説はしたくないのだが・・・。

        昔、Pentiumの浮動小数点演算(確か、倍精度浮動小数点数の除算だったと思う)で特定のビットパターンの値を計算すると結果に誤りが生じるというバグがあったわけだ。
        で、そのバグを指摘されたインテル側は「ユーザーがこのバグに遭遇する確率は隕石に当たるよりも低い(だから交換とかしないよん)」と言って大顰蹙を買い、結局交換する羽目になったとさ。
        ※詳しいことは"Pentium FDIV バグ"とかでぐぐれ。
         識者に今更ながら問う。あれって、マイクロコードのバグだったの?

        という過去の事件をふまえて元発言を読むよろし。
        親コメント
        • by boo (899) on 2003年05月14日 10時12分 (#315373) 日記
          > 昔、Pentiumの浮動小数点演算
           …
          >  識者に今更ながら問う。あれって、マイクロコードのバグだったの?

          Pentium で使ってた4進SRT除算法は部分的な商を早見表で引くようなアルゴリズムらしいんですが、その早見表に抜けがあったそうです。
          --
          あぁ、「ン」が消えてるんですよ。「ビーフン・カレー」ね。
          親コメント
typodupeerror

吾輩はリファレンスである。名前はまだ無い -- perlの中の人

読み込み中...