Itanium 2に電気系統の欠陥 34
ストーリー by kazekiri
意外によくあること 部門より
意外によくあること 部門より
CNet Japanより、 Intelの64ビットCPUであるItanium 2だが、 電気系統の欠陥が見つかったことがIntelより発表されたとのこと。 Itanium 2搭載コンピュータが挙動不安定になったり、故障する恐れが あるとのことだが、「特定のデータを特定の順序で処理する際の、 ある特定の計算処理」をした場合に発生するらしい?
CNet Japanより、 Intelの64ビットCPUであるItanium 2だが、 電気系統の欠陥が見つかったことがIntelより発表されたとのこと。 Itanium 2搭載コンピュータが挙動不安定になったり、故障する恐れが あるとのことだが、「特定のデータを特定の順序で処理する際の、 ある特定の計算処理」をした場合に発生するらしい?
「毎々お世話になっております。仕様書を頂きたく。」「拝承」 -- ある会社の日常
chip内配線のEM問題では? (スコア:2, 参考になる)
Intelって、(主に量産品だけど)チップのマージン削ってコストを削減してる
(これはかなりのメーカー内で周知の事実)から、サーバ用の高級品なのに、
EM耐性のマージン(製造ばらつき含む)の見極めを間違ったんじゃないの?
#「周波数を落とせば問題ない」って言ってるのでピンと来ました。
#周波数を落とせば過渡電流が減るから、EMによる製品の寿命が
#かなり延びますからねぇ。
#・・・正直、Itanium 2って、カタログスペックでどの程度の
#EM寿命があるんだろ??
#あ、ちなみにEM問題だったとすると、故障を起こしたchipは、動作させ続ける限り
#いずれ完全に不可逆的に破壊される(配線が切れる)ので、交換が一番確実ですね。
タレコミのリンクのCnet(原文も)のコメントがまた、かなり意味不明ですねぇ(汗)。
>Grimesによると、この障害は一部の製品のみに存在するもので、
一部の製品って、アーキテクチャレベルなのか、製造ロットレベルなのか、
どっちなんよ、おい(汗)。
>さらに「特定のデータを特定の順序で処理する際の、ある特定の
>計算処理」を行なう場合だけで生じる問題だという。
ふーむ、つまりは、特定の場所の配線か拡散層に問題があったわけですな。
特定ロットだけなら、露光時にマスクにゴミでも乗ったんじゃないの?
#アーキテクチャレベルで、ってのは、さすがにIntelはCPUの老舗なんで、
#あんまり考えにくいしねぇ・・・。
サーバークラスだから特別なのかもしれないけど、希望する顧客には
簡単に交換に応じるってのも、根本的にソフトウェア側のパッチ当てで
直せない、重大な障害だって示してるみたいに見えるし。
#Cnetの本家 [com.com]では、問題の修正、ではなくて、チェック用のプログラムを
#配布する予定って話だし。
#・・・修正や回避可能ならそれ用のプログラムを出すはずだからねぇ。
・・・・こんなの重大な品質問題だから、内部ではものすごい
大問題になっているんだろうなぁ(汗)。
#大まかな業種はほぼ同じだけど、わたしゃCPU作る人じゃないので、基本的に
#他人事ですがね。
---- redbrick
Re:chip内配線のEM問題では? (スコア:2, 興味深い)
故障するってどんなだろ (スコア:1)
逆に発見が遅れたんだったり…。
グリッチ (スコア:1)
"glitches in Itenium 2 chips"になってますね。
たしか、グリッチってチップ内部の配線長(信号の経路長)の違いが
原因で発生するはずです(クロックで信号を同期させていても問題に
なります)。
一般論ですが、CPU内部のクロックを高くすると必然的に信号の
パルス幅が小さくなります。すなわち、ちょっとした経路長の違
いのせいで信号の同期が取れなくなって誤動作の原因になってし
まいます。
つまり、特定の演算をすると発生するというのは、CPUチップの
ある領域に経路長が狂っている部分が発生していることを示して
いるのだと思います。
経路長が狂った原因が、設計ミスなのか製造のエラーなのか
原因は知り得ませんが、、、。
Re:グリッチ (スコア:3, 興味深い)
>"glitches in Itenium 2 chips"になってますね。
>
>たしか、グリッチってチップ内部の配線長(信号の経路長)の違いが
>原因で発生するはずです(クロックで信号を同期させていても問題に
>なります)。
ああ、多分誤解してるんじゃないかと・・・(汗)。
/.本家からリンクされてるCnet本家だと、
>The glitch affects only some chips,
と書いているので、おそらくこれはグリッヂノイズのことではなく、
単純に単語で訳した場合の
glitch:欠陥、故障、突然の異常
の意味で使ってると思われます。
Cnetの記事のずっと下方、UltraSPARCについても、
># Sun finds glitch in new UltraSparc III chip April 4, 2001
なんて書いてますので、mal-functionみたいな動作の不具合ではなく、
欠陥品、と言うことを示したいのでしょう。
#だって、glitch noizeならそう書けばいいし。
#noizeが付かないなら、非常に一般的な意味に取るしかないと思います。
ちなみに、glitch noizeって、配線長の差だけではなく、いろいろな要因で
発生するので、それだけに原因を限定するのは危険です。
#クロックをセレクタで切り替えたりとかするケースが、今まで経験した
#回路の中で一番怖いです。
>経路長が狂った原因が、設計ミスなのか製造のエラーなのか
>原因は知り得ませんが、、、。
根本的に、経路長が狂う要因は設計ミス(マスクを作る前のデータのミス)しか
ありえないです。
製造のばらつき具合でそんな簡単に経路長がタイミングに影響を及ぼすほど
変わるようでは、同期回路も非同期回路も設計できませんので、
あり得ないと思います。
#STAとか、setup/holdとかって言葉、知ってます?
#一応、マスク作る前に何度もそういうタイミングは必ず検証するので、
#それがエラーのままマスク工程まで抜けていたら、Intelって
#そこらのASIC発注するお客さんより知識も技術もないことになります(汗)。
それで、そうなると、同じマスクを使った全世代が欠陥品となるわけで、
多分その場合は、全数回収、マスク修正して作った代替品の提供が
行われると思いますので、今回のはちょっと違うんじゃないかと思います。
#そんなら some chips なんて書かないと思うし・・・。
---- redbrick
Re:グリッチ (スコア:0)
Re:グリッチ (スコア:1)
>なんか笑われるかもしれないですが、よくある話の様な気もしますが。
わたしは笑えないです・・(汗)。実際にありえることは理解できるし、
そういうチェック抜けに遭遇したこともありますから(汗)。
#ASICだと、そういうのはお客さん責なので、わたしの責任には
#ならないんですけど、あんだけ作業を頑張ったのが無駄になったのかと、
#気分的にがっくりしますね・・・。
>だからチップに依ったり、クロック下げたりしたら大丈夫だったり
>ということになったのかなぁと思ってました。
んー・・・だとすると、その部分は完全に未検証なので、後付けの検証で
クロックを低くしなければ動かない、なんてことが発覚、ってのも
ありえるかもしれませんね。
#chipによる、ってのは・・・そんなに製造ばらつきに影響されるような
#回路設計してるのかな・・・(汗)?
---- redbrick
Re:グリッチ (スコア:0)
> #回路設計してるのかな・・・(汗)?
あるパスがクロックサイクルの2倍掛かるとかではなく、ぎりぎりの
ところの問題なんじゃないですかね?
(
電気系統って…… (スコア:1)
「三宅さん?」
「はいー、川井さんどうぞ」
「あのー、さきほどのウェーバーとピッツォニアの同時リタイアですけど、電気系統のトラブルだそうです」
「あー、電気系統ですかー」
「ウェーバーかなり怒ってますねー。 『解析用コンピュータの電気系統のトラブルでリタイアとはどういうことだ』と」
「はぁ?」
# だって電気系統なんていうんだもん。これ [vnunet.com]もふまえて
intel (スコア:0)
Re:intel (スコア:0)
たいていはコンパイラがバグを回避するようなコードを生成してく
れるが、人間コンパイラーの場合はそうもいかないので大変。
IA-64の用途を考えたときに、
たまに計算を間違えるバグ と PCが故障するバグ
どちらが致命的かな~なんてことを考えてみる。
Re:intel (スコア:0)
Re:intel (スコア:0)
まあ、ハードの設計経験の無い人に、そういうことを要求しても無理でしょう。
Re:intel (スコア:0)
(+1,参考になる)
Re:intel (スコア:0)
失礼しました。ご指摘ごもっともです。
#314700のAC
Re:intel (スコア:0)
伝送線路長が信号の波長に対して無視できなくなってからは明らかに
Re:intel (スコア:0, 興味深い)
そのデジタル回路も便宜上0と1を区別付けるようにしているだけで、当然のことながらアナログ的要素はあるわけです。しかし、これをアナログ回路とはいいませんよね? そういうことです。
これはチップ内だろうとチップ外だろうと変わりません。それをわざわざアナログとデジタル
Re:intel (スコア:1, すばらしい洞察)
称してアナログ回路と言ったのでしょう。
世の中、フルスイングしないものも沢山あるし。
まあ、強引な言い方なら「アナログ電圧取り扱い回路」とでも
いうのかな。
記事中、「チップとチップの間、例えばCPUとチップセットの間の
FSBなど、アナログ信号として取り扱わないといけない要素」なんて
書いてあるのだから、意図しているところは簡単に分かると思うが。
単に適当な言葉が思いつかなかったから「アナログ回路」と
書いたのでは?
非常にくだらないことにこだわっているようにしか見えない。
Re:intel (スコア:1)
信号が連続した量だとみなすアナログ回路の場合、信号にノイズが入ると扱っている情報そのものが化けてしまうわけでそれがアナログ回路の弱点とされてきたわけですよね。典型的なデジタル回路の場合、信号のどこかを敷居値としてそこから0,1とみなすというようなことをするから多少のノイズが入っても情報そのものが変わってしまうわけではないですから。
ところが、昨今のたとえばCPUであるとかバスであるとかはデジタルに信号を扱っているにもかかわらず、回路の動作があまりに高速なためにノイズに弱くなってしまった。たとえば回路上で信号の反射や遅延、外部から他の信号が混入するといったノイズのために回路上で扱っている情報が化けてしまう、ということが起きうるわけです。
で、これを解決して正しく動作する回路を作るには、遅延ができるだけ起こらないとか、配線同士の信号が混入しないようにしなければならない。そのために必要なのはアナログ的な回路の解析や設計、つまり回路上に流れている電圧、電流なんかを流れているかいないかだけではなくて、量として考えて他の配線にどのくらいの影響がでるかといったことを配慮する設計が必要になる、ということですよね。
ですから、扱っているのはあくまで「高速デジタル回路」。 ただ、インテルが失敗しているのは回路のアナログ的な解析や設計。
筆者の大腹氏もわかって書いているんだとは思うけど、ポンと「アナログ回路」と書いてしまうのはやはり誤解を招く表現だよなぁ、とか思ったり思わなかったり。
#業界の大先輩の尻尾を踏むような真似をしている気がするのでAC。(^^;
Re:intel (スコア:0)
普通、論理回路って言いますよね。
Re:intel (スコア:0)
「某M」とか「あほな連載」とか具体性に欠ける記事で
相手を揶揄するようなことを書けば、そりゃ荒らしと変わらんよ。
Re:intel (スコア:0)
うちの障害の原因が (スコア:0)
ジャパンネット銀行・富士通関係者(嘘)
# 嘘なのでAC
Re:うちの障害の原因が (スコア:0)
ちゃちゃ (スコア:0)
"Sol"(太陽 = Sun)で始まると覚えておくとミスらないかも。
Re:ちゃちゃ (スコア:0)
OS に Soralis を使用 [fujitsu.com]と書いてあるので、あながち間違いでもない。
他にも [google.com]結構あるな。
特定の順番で、、、、、 (スコア:0)
拡張機能が使えるようになるチップセットを使った記憶があります。
NDAがあるのでこれ以上言えませんが。
Re:特定の順番で、、、、、 (スコア:0)
確率は? (スコア:0)
隕石に当たるよりも稀なのでしょうか?
Re:確率は? (スコア:0)
あの時には確か、天文学者が小惑星の計算をしたときくらいにだけバグに遭遇するなんていわれてましたっけ?
そうでなくても雑誌に書いてあった、エクセルを使った浮動小数点計算を使ったバグの再現法をやって遊んだりしたものです。
Re:確率は? (スコア:0)
Re:確率は? (スコア:1, 参考になる)
昔、Pentiumの浮動小数点演算(確か、倍精度浮動小数点数の除算だったと思う)で特定のビットパターンの値を計算すると結果に誤りが生じるというバグがあったわけだ。
で、そのバグを指摘されたインテル側は「ユーザーがこのバグに遭遇する確率は隕石に当たるよりも低い(だから交換とかしないよん)」と言って大顰蹙を買い、結局交換する羽目になったとさ。
※詳しいことは"Pentium FDIV バグ"とかでぐぐれ。
識者に今更ながら問う。あれって、マイクロコードのバグだったの?
という過去の事件をふまえて元発言を読むよろし。
Re:確率は? (スコア:1)
…
> 識者に今更ながら問う。あれって、マイクロコードのバグだったの?
Pentium で使ってた4進SRT除算法は部分的な商を早見表で引くようなアルゴリズムらしいんですが、その早見表に抜けがあったそうです。
あぁ、「ン」が消えてるんですよ。「ビーフン・カレー」ね。