PMG5クラスターは8Tflops 51
ストーリー by yourCat
もうちょっとガンバレ 部門より
もうちょっとガンバレ 部門より
理論値17.6TflopsのPower Mac G5クラスターだが、TOP500で使用するスーパー・コンピューター用ベンチマーク・テスト『Linpack』の測定結果が出ている (PostScript書類、PDF書類)。2,112個のPowerPC G5でのRmax値は8.164Tflopsで、第4位につけている (p.53参照) 。しかし効率は48.3%とかなり低い。なお測定値は随時更新されるため、本家/.の記事とは数字が違っている。
第22回TOP500は11月15~21日に開かれるSupercomputing Conference (SC2003) で発表される。
効率 (スコア:2, 参考になる)
単純な演算の塊でしかもパラレルにできるなら128bitで演算できるだろうけれど、複雑(強引にAltiVecでやろうにも命令数が増える)だったりパラレルに出来ない演算だって入るのが常だから、効率良くても64bit+αなスピードだと思う。
Re:効率 (スコア:3, 参考になる)
一度に実行できる演算数/1数値演算ユニット x 数値演算ユニットの数/1CPU x 動作周波数 x プロセッサの数
とすると,G5の数値演算ユニットは積和演算("a*b+c"=2FLOP/S)が出来るので,
2 x 2 x 2(GHz) x 2112 = 16896(GFLOP/S)
となります.これで実測値を割ると,
8164(GFLOP/S) / 16896(GFLOP/S) = 0.483
と.資料の通りになります.(この手のベンチマークは倍精度演算で行うのが普通だと思います.)
もしユーザーのアプリケーションが32bitモードで動いているのなら,64bitモードにすると,2回に分けて32bitで行われている浮動小数点データのロード/ストアが64bitでは一回で出来ますから,もう少しパフォーマンスが上がると思います.
Re:効率 (スコア:2, 参考になる)
>64bitでは一回で出来ますから,もう少しパフォーマンスが上がると思います.
一般に倍精度の演算を行う浮動小数点レジスタは80bitあります。
PowerPC 745x(G4)もPowePC 970(G5)も、2次キャッシュは256bit幅で接続されています。
つまり32bitモードでも既に、倍精度浮動小数点のデータは64bit単位で入出力されているはずですから、64bitアプリに再コンパイルしても、性能向上は望めないでしょうね。
#Pentium以降の32bit CPUのデータバスが64bitになったのは、浮動小数点性能を上げる目的もあったのでしょうね。
#PowerPC 970では、2次キャッシュとSystem Controllerは、32bit×2本のバスで接続されています。
#なので、ここでは32bitモードでも64bitモードでも32bit単位にしかデータはやりとりできません。
#もちろん、メモリ→2次キャッシュは先読みしているでしょうから、ここがボトルネックになることはないと思いますが。
[tomoyu-n]
Re:効率 (スコア:1)
浮動書数点数のレジスタが 80 bit 幅なのは IA-32 くらいで、
SPARC も MIPS も Alpha も PowerPC も、80 bitではないです。
Re:効率 (スコア:1)
>64bitモードにすると,
ではなく,"64bitアプリケーションとしてコンパイルし直すと,"でした.
Re:効率 (スコア:1)
> 状況がそもそも夢みたいな事なんだから、むしろ48.3%はG5が64bitで動いて
> いることを考えるとぴったりの数字なような気が。
書いてある意味がよく分からないのですが、夢みたいな事というのは
どういう事でしょうか?
ベクトル演算が効くかどうかは、プログラムに依るわけで、
ベクトル化に適したプログラム(流体計算とか)なら
ベクトル化率99%とかは普通です。
それにベンチマークテストのプログラムがベクトル化の効くものかどうかで、
出てくる速度は数十倍変わってくるはずです。
その後の「スピードが64bit+α」というのも意味がよく分かりません。
32bitから64bitになると速度が2倍になるとか思っているんでしょうか?
数値計算をやる人にとっては安価な64bitコンピュータは願ったりでしょうね。
Re:効率 (スコア:0)
実測値と理論値が同等なんて、ほとんどありえない話ですがね。
Re:効率 (スコア:3, 参考になる)
ではLINPACKについてはどうか、ですよね。
資料のp.6から1台でのスコアが書いてありますが、 たとえばSX-6のシングルプロセッサでは TPP Best Effort/Theoritical Peakが95%くらいですから、 ベクトル1プロセッサにオプションつけてコンパイルする程度だと それくらいになるような問題ってことですね。 チューニングを頑張るともっと上がるんでしょうけど。
リストにはG5の1プロセッサのベンチマーク結果はないけど、 AltiVecの効果の参考になるのは、 pSeries690Turboの56%とか、 Pentium4の47%とかかな。 スカラプロセッサ+SIMDだときっとそんなオーダーなんでしょう。
クラスタの効果ではどうかというと、 同じ規模ってことで非ベクトルで2000プロセッサ程度のを探すと、 p690×50台が51%、 PRIMEPOEWR HPC2500が45%か。 48%なら頑張っているんじゃないかな。
Re:効率 (スコア:2, 参考になる)
PowerPC 970 や Pentium 4 は浮動少数点演算の演算器が 2つあり、それらのスループットは 1命令/cycle。2つの演算器を完全に埋めることができれば、2命令/cycle の浮動小数点演算命令を実行できます。
(注1: Pentium 4 の場合は、この場合、命令と言ってもμop)
(注2: PowerPC 970 の場合、積和演算によって 2命令/cycle → 4演算/cycle)
この際、演算器をフルに埋める手段として SIMD 演算命令が使われることが多いのだとは思います。しかし、もし命令のデコードが1命令/cycle より速ければ SIMD 演算命令を使わずとも演算器をフル稼動させられるかもしれません。また、1命令/cycle のプロセッサにだって、1000の演算を1度に指示する命令は実装できます。実行には 1000クロックかかるわけですが。
実際のところ、演算器をフル稼動させるためには SIMD 演算命令が必要というプロセッサが多いのだとは思います。しかし、SIMD 演算命令は飽くまで演算器をフル稼動させるに足るだけのスループットでもって演算を指示するための手段である、という認識が、いまどきは適当なように思います。
# ごぶさたです tmiura さん
Re:効率 (スコア:1)
一般にSIMD命令はSIMD専用の演算器を使うので、あまりに的外れですね。
>飽くまで演算器をフル稼動させるに足るだけのスループットでもって演算を指示するための手段
それを目的としているのはSIMDではなくて、HyperThreadingだと思いますが。
[tomoyu-n]
Re:効率 (スコア:1)
少なくとも Pentium 4 プロセッサでは、浮動小数点のスカラ演算 (x87) 命令と、SSE/SSE2 での浮動小数点演算で、演算器 (adderとかmultiplier) は共用ですヨ。
Re:効率 (スコア:1)
一方で、HPL (Linpackベンチ) の結果は倍精度演算での性能なので、つまり AltiVec (SIMD 演算) 命令を使っての結果ではありません。
Re:効率 (スコア:1, 参考になる)
Re:効率 (スコア:0)
使う人はみんな自前で書くのが普通なのでは?
Re:効率 (スコア:0)
Re:効率 (スコア:1)
「Big Mac」G5スパコンは世界最速(まであと一歩?) [cnet.com]
10/26 のベンチマーク結果、9.555Tflops に向上 (スコア:1)
#週末にパンサーをインストールしたからだったりして(笑)
Re:10/26 のベンチマーク結果、9.555Tflops に向上 (スコア:1)
Kazushige Goto 氏による High-Performance BLAS を使うようにしたからのようです。
http://www.cs.utexas.edu/users/flame/goto/
Re:効率 (スコア:0)
64bitだと128bitの半分の性能しかでない、ってこと?
Re:効率 (スコア:0)
64bitで半分であるかのような表現をしてしまいましたが32bitでも事足りる処理であれば48.3%はAltiVecを使わない場合の倍近くのスピードが出てることになりますね。
ビット数が増えても演算できる個数が増えるわけではないので、精度が必要ない場合速度が変わらないことはあ
Re:効率 (スコア:0)
Re:効率 (スコア:1)
> ボトルネックでしょうし、理論値以下で当然ではないかと?
理論値以下になるのはもちろん当然だけど、その理由の説明がまずいと
いう話の流れなのでないかい?
Re:効率 (スコア:0)
モデレートした人間には意味が理解できたんだろうか?
Re:効率 (スコア:1)
> モデレートした人間には意味が理解できたんだろうか?
そりゃ意味が理解できたからモデレートしたのだと思うが…
分からなければどこら辺が分からないのか言えばいいのに。
Re:効率 (スコア:0)
Re:効率 (スコア:1)
作成してメタモデレートしましょう。
(対象コメントを指定できるわけじゃないけどね)
Big Mac (スコア:1)
Re:Big Mac (スコア:1)
MEGA MAC [powertoday.com]
Re:Big Mac (スコア:1)
次回予告でチョモランマックもあるはずなんだがなぁ
#本家が消えててショボーンなのでAC
Re:Big Mac (スコア:1)
キャッシュベース (スコア:1)
最低限、キャッシュメモリにプリフェッチ命令と広帯域で多バンクのメモリが必要だと思う。
Re:キャッシュベース (スコア:3, 興味深い)
ベクトル演算器といっても2とかそこいらの短いベクトルですよね。 命令供給の帯域を減らし、 命令スケジュールを簡略化する辺りを狙っていると考えれば、 あとはふつうに疑似ベクトル処理と考えればいいんじゃないですか。
長さたった2のベクトルでさえ わざわざ命令を追加してきたということは、 疑似ベクトルするのに命令供給が追いつかなかったとか そういった定量的根拠があるはずで。
で、データ供給のためにメモリ帯域が必要なのはその通りです。
だから、少しでもメモリ帯域のましな、 2~4バンク程度のインタリーブしてる機種を 選んでるでしょうし、 限られた条件下で実現できるDDR-SDRAMのバースト転送レートと プリフェッチも駆使するでしょうから、 あとはたとえばキャッシュサイズ境界で ストリップマイニングやブロック分割アルゴリズムを考えるなり、 メモリの遅さを隠蔽するチューニングを頑張ってると 考えていいんじゃないですか。
ベクトルスーパーコンピュータ並みに多バンクのSRAMで主記憶を 組めばそりゃ速いけどそれじゃ高くつくから我慢、ってのが コモディティクラスタなわけで、 そこでいろいろと苦労して出ない性能をひねり出したり あるところで割り切って我慢したりする必要があるのは 織り込み済みじゃないかと。
Re:キャッシュベース (スコア:1)
設計者のバラダラジャン氏 裏話を語る (スコア:1)
「G5クラスターを作るまでマックには触ったことがなかった」
というバラダラジャン氏のコメントには、ちょっと驚きましたが、
「将来すべての資料を公開し、このマシンのコードの大部分を公表するつもり」
だそうです。 (オープンソース・ライセンスのもとで提供するかどうかはまだ未定)
同様のシステムを作るための「指導の要請」がいくつかの開発機関からあった
ということなので、「G5クラスターがたくさん登場」となるのかも。
ベンチマークは、昨日のshudoさんのPOSTにありますが9.555Tflops だそうです。
ベンチマークは 10.280 Tflops に向上した様子。 (スコア:0)
数週間以内に全体の OS を Panther にアップグレードするようですから、また向上するんでしょうか。
CPU が 2200 基に増加。 (スコア:1)
(11/02) 2200/10280/520000/152000/17600
というわけで、性能向上分は CPU 増設によるもので、
効率はそれほど向上していないようです。
あなたが 読んでくれていると 嬉しいのだけれど (スコア:1)
「IBMのランク73位のスーパーコンピューター」を掲載している。
日本語記事には記載がないのだが、
これに使われているのは、パワーPC 440マイクロプロセッサー
数は、512個で、現在の速度は1.4teraflops
OSはリナックスが使われている。
特筆すべきなのは大きさが「食器洗い機ほど」であること
来年登場予定の任天堂とソニーのゲーム機の基盤となる予定の [cnet.com] 技術 [zdnet.co.jp]
だとも述べられている。
どうやら、次世代ゲーム機用の汎用品で作られているようだ
次は、ゲーム機をつないだスーパーコンピューターの登場か ?(笑
残念だが、記事としては取り上げられなかったので
あなたのために、ここに書き込んでおくことにする。
# 情報へのお礼は 別の情報で MIYU
Re:こらこら (スコア:0)
中でつかわれている コアが440GXベース×2
( これが 汎用品の意味だろうと思う )
浮動小数点計算エンジン4基
メモリ 4MB
5つのネットワークとの通信システム
タスク割り当て制御がむずかしいのだよ
# 誰か読んだら 勘違いし・・・・ないな スラドだと MI
Supercompute Conference (スコア:0)
Re:Supercompute Conference (スコア:1)
× Supercompute Conference
○ Supercomputing Conference
最初はsupercomputingと書いたものを、何かを見てわざわざ変えたという経緯がありました。固有名詞を調べ直すのににちょっと手間取りましたが、Aour SC [sc-conference.org]で確認しました。訂正が遅れたことをお詫びすると共に、指摘に感謝します。
やっぱり (スコア:0)
Re:やっぱり (スコア:2, 興味深い)
IBM と NEC といえば… (スコア:1)
米エネルギー省向けに世界最速スーパーコンピューターを開発 [ibm.com]
(IBM News)
Re:IBM と NEC といえば… (スコア:2, 参考になる)
IBMの場合は,いくつか異なるアーキテクチャー(POWER, Intel Itanium, ...)のスーパーコンピュータを同時に計画/構築してたりしますから,時にはライバルになることも,時には共同開発者になることも,あるかと.もっとも,日本企業とIBMがスーパーコンピュータを共同開発していると言う正式な記事は無いですね.
アメリカでは今でもベクトル型プロセッサが使い易いと言う声が結構多いそうです.それでベクトル型プロセッサのノウハウのある日本企業と組むと言うことになると思います.(地球シミュレータの関係者の方から聞いた噂ですが.)
Re:IBM と NEC といえば… (スコア:1)
そういえば、利害が共通するソフトウェア分野なんかでも、
共同開発してますもんね。
意外な組合せでもないのか…。
Re:やっぱり (スコア:0)
# でも XServe にでもしないと場所が(笑)
Re:やっぱり (スコア:0)
できるかもしらんけど、じゃあ、地球シミュのやってる計算が
より速く終わるか、といわれると、そうはいかなさそう。
Re:やっぱり (スコア:0)
Re:わかりにくい日本語 (スコア:1)
と表紙だけぱっと見て思ったら、 中の方には最新のベンチマーク結果があるのか。
不注意ですいません。
Re:わかりにくい日本語 (スコア:1)
しかもその表紙にしてからがしっかり2003年の日付になってるよ……
鬱