理研が 1ペタフロップスのスパコン「MDGRAPE-3」を構築 95
ストーリー by yosuke
本家が1PFLOPSに届くのは2年先 部門より
本家が1PFLOPSに届くのは2年先 部門より
KAMUI曰く、"独立行政法人理化学研究所がインテルと日本SGIの協力で,理論ピーク性能 1 PFLOPS (1秒間に1,000兆回の演算能力)を持つ分子動力学シミュレーション専用コンピュータ・システムMDGRAPE-3を構築したことを発表した(理研のプレスリリース)。
理研が開発した分子動力学シミュレーション専用LSI「MDGRAPE-3チップ」を24個搭載したユニット201台(一部のチップに不良があり,動作しているのは計 4,808個)と,Dual Core Xeon 5000番台を 256個搭載した並列サーバ 64台,更に Xeon 3.2GHz(2次キャッシュ1MB)を 74個搭載した並列サーバ 37台を連結している。
昨年 TOP500 で世界最速となった IBM Blue Gene/L が現時点では 360 TFLOPS。MDGRAPE-3 の理論演算性能は Blue Gene の約 3倍あるが,LINPACK が動作しないため,TOP500 の首位は交代しない。
東工大の TSUBAME が稼働した時「日本で 100 TFLOPS を越えるのは何時の日だろう」なんて書いたのに,あっと言う間というか…"
専用コンピュータ (スコア:3, 興味深い)
スパコンも含む、汎用コンピュータよりスピードが出るのは当然だと思います。
何フロップスといった尺度で単純に比較するのは既に意味がないということでしょう。
単位 Re:専用コンピュータ (スコア:3, おもしろおかしい)
社会にもたらす利益(円) / 秒
というのはどうか。
Re:単位 Re:専用コンピュータ (スコア:2, すばらしい洞察)
んなコト言ったら、元祖GRAPEなんて0円/秒ですがなw
恒星の大規模な軌道計算したところで、その計算力が直接的に社会に金銭的利益を与えてるかというと、無いだろうからw
まぁ、基礎研究なんてそんなもんですね…。
Re:単位 Re:専用コンピュータ (スコア:4, おもしろおかしい)
おもしろおかしい(ワロス)/秒
というのはどうか。「こんどのスパコンは2ペタワロス/秒を稼いだ」とか。
Re:単位 Re:専用コンピュータ (スコア:2, おもしろおかしい)
つまり、たん/秒。
使うときは「こんどのスパコンは、3ペタたん/秒を実現した」となる。
Re:単位 Re:専用コンピュータ (スコア:1)
大きな問題だ。
凛々しく、あほらしく。
Re:単位 Re:専用コンピュータ (スコア:1)
じゃあ間を取って
ペタん
で。
#対して変わらないかorz
---にょろ~ん
Re:単位 Re:専用コンピュータ (スコア:1, おもしろおかしい)
>ペタん
>で。
そりゃ元帥 [wikipedia.org]ですがなぁ~
#む、こいつを萌えキャラとして見るとは考えもしなかった。
#しかし、「ぺタン」とすると何故か韓流に見えてくるのはなぜだ…
Re:単位 Re:専用コンピュータ (スコア:1, すばらしい洞察)
#あとは「つる」
Re:単位 Re:専用コンピュータ (スコア:2, すばらしい洞察)
数えるのも大変だしさ
Re:単位 Re:専用コンピュータ (スコア:3, おもしろおかしい)
Re:単位 Re:専用コンピュータ (スコア:2, すばらしい洞察)
よほどのことがない限り、「テラ〜」は使わないみたいですよ。
ギザ (ギガ) [google.com] 25,100件
テラ [google.com] 257件
ペタ [google.com] 6件
Re:単位 Re:専用コンピュータ (スコア:1)
Re:単位 Re:専用コンピュータ (スコア:3, 興味深い)
たとえば革新的アルゴリズムで何十本も書いても、Nature一報に負けちゃうという悲しい事情もあるので、IF偏重はご勘弁。
また誤解が (スコア:3, 興味深い)
(研究者には当然の常識でしょうが)
Re:また誤解が (スコア:1, 興味深い)
>ほとんどの研究者がそう捕らえているのもまた事実ですよ。
研究者は思ってない。
そう思っているのは財務省/文科省の役人。
研究費の財源握ってるのはこの人達。
研究者は研究費を獲得するために業績を上げないといけないが
この人達に分かりやすく説明するにはI.F.の高い雑誌に掲載されると説明しやすい。
で、研究者は仕方なくI.F.の高い雑誌に載せざるを得ない。
#ページの途中で他の論文に切り替わるNatureなんかより
#論文毎に改ページしている雑誌の方が後から「論文集」つくるのに便利なのだが
まあ、研究分野によるかもね。
最近のNature とかScienceってライフサイエンス偏重なので自分の分野の研究者着目してないってのもあるし。
ちなみに、この辺のお役人達は「新聞に載る」ってのも重要視してる。
納税者へのアカウンタビリティって観点なのだろうけど、
研究者の実績とはならない。
Re:専用コンピュータ (スコア:2, 参考になる)
ベンチマークだけはやたらと早い(が、実際に使ってみると今一つ…)というならともかく、
今回は実際にターゲットとなる用途があって、その領域ではこれだけの演算能力があると
いうことなのですから。
計算能力の尺度がないと、どのくらいでシミュレーションが完了するのかの見積もできないし。
生体分子屋から見ると (スコア:5, 参考になる)
その辺はかなり微妙な問題を含んでいると認識しているのですが……。条件によってはFLOPS!=実演算速度なんですよこれ。
GRAPEの基本アルゴリズムは力場の計算にO(N^2)のアルゴリズムを使用しています。
天体計算の場合には同じアーキテクチャでもO(N log N)やO(N)のアルゴリズムを利用でき、GRAPEのトップ性能をほぼ引き出して計算を行うことが可能です。というわけで天体計算には、このFLOPS数はほぼそのまま計算速度と取って良い。
それに対して、生体分子の場合には若干事情が異なります。
・天体より粒子数が多い。水ありだとN>50000とかよくある。
・天体と異なり密な系である。TreecodeでO(N log N)になりにくい。結果O(N^2)を使わざるを得ない。
・生体分子のシミュレーションに良く用いられる周期境界条件がGRAPE向きでない。GRAPEはEwaldをサポートしているが、トップスピードは出ない。条件を注意深く設定しないとクラスタに負ける(MDGRAPE-2の頃)。
・というか周期境界条件をまともな計算誤差で計算してベンチマークを取った例が無い(!)。
周期境界条件に関しては特に大きな問題で、GRAPEではより高度な(オーダーレベルで速くなる)アルゴリズムが使えないor使いにくい、という問題があります。まぁこれは並列度を上げるにはある程度仕方がないんですが……。
だからこのボードが「生体分子MDに」とか書かれると正直「?」という感じです。そもそも生体分子に限らず、FLOPS数だけを書いて分子動力学にも使える、とするのはだいぶミスリーディングです。
#FLOPS数の定義は浮動小数演算の回数ですから、この数字はオーダーに関係なく高くなるわけで。
で、思うのが、
・正直天体計算に特化しすぎている。生体分子にもう少し合わせたシステムを考えて欲しい。
・FLOPS表示で宣伝をするのは良いけど、実際の計算条件は制限が多いことを隠しているのは困る。怖くて手が出せない。
GRAPEシリーズの研究者は良くやっていると思うし、素晴らしい技術であると思うんですが、分子動力学や生体分子固有の問題にもう少し目を向けて欲しいなぁ、と。
もちろん、条件を限って使えばGRAPEは素晴らしいシステムだと思います。特に周期境界条件を考えなくて良い系には最適でしょう。
#この世界で生きていけなくなりそうなのでAC
#識者の方ツッコミお願いします
お兄ちゃんへ (スコア:2, おもしろおかしい)
# それだけなのでAC
PTTP(T/O) (スコア:1, おもしろおかしい)
Re:お兄ちゃんへ (スコア:1, おもしろおかしい)
おしえてえらいひと (スコア:2, 興味深い)
触る立場じゃないので、全然わからん。
Copyright (c) 2001-2014 Parsley, All rights reserved.
Re:おしえてえらいひと (スコア:3, 参考になる)
GRAPE-DR は GRAPE-6 と設計思想を異にしていて,FPGA を使用することで様々な応用分野(上記2分野を含む)に使えるようにしたもの.
たとえるならば,(GRAPE-6 から見て) MDGRAPE3 は弟,GRAPE-DR は息子・・という感じでしょうか.
#どっちかの中の人だけどアカウント持ってないので AC
Re:おしえてえらいひと (スコア:1, 参考になる)
http://journal.mycom.co.jp/news/2002/01/01/13.html
【レポート】ペタコンピューティングの世界(2)
http://journal.mycom.co.jp/news/2002/01/01/14.html
CPUとGPUを比較するようなもの (スコア:2, すばらしい洞察)
Re:CPUとGPUを比較するようなもの (スコア:2, おもしろおかしい)
スーパーロボット対戦 [suparobo.jp]みたいなもんでしょう。
Re:CPUとGPUを比較するようなもの (スコア:1)
素朴な疑問 (スコア:1)
*)1セルに1分子で隣接セルはそのセル自身のコピーって話。MD知らないヒトにはわかりにくいかな。
それとも、1セルに複数分子が入るとか、巨大分子の計算の方向に調整しているのかな?
教えて!詳しいヒト。
# クレクレ君ですまん。
Re:素朴な疑問 (スコア:3, 興味深い)
蛋白内部の水が重要なはたらきをしてる蛋白質(イオンポンプとか)では、内部の水分子まで含めたシミュレーションも見かけます。方法としてはQM/MMとかで。
他にも蛋白質+低分子(薬)、蛋白質+脂質膜とか蛋白+蛋白のドッキングとかも既にやられていますね。
溶液中の水分子まで、ってのもあったような気がしますが…、専門外なのでどの程度のものかはわかりません。
今はかなりのものがシミュレーションできるようになってきてるようです。理論の時代ですね。
Re:素朴な疑問 (スコア:2, おもしろおかしい)
Re:素朴な疑問 (スコア:1)
"わかめ"と"たんぱく質"で検索したら理研ビタミンのわかめペプチド [rikenvitamin.jp]が出てきた。
こういうのに使うわけですね。
まぐろたべたい
Re:素朴な疑問 (スコア:3, 興味深い)
有楽町にビックカメラができたぐらい昔に、有楽町の某会場で理研のプレゼンやっていたときは・・・
銀河の衝突とか惑星運動、水分子のクラスタやDNA分子の揺れている姿などをシミュレーションして見せてくれました。
プレゼンしていた自称で専門分野はユニバースなA先生は「ペタマシンで宇宙誕生の謎に迫りたい」って語ってました。
また、パンフにはFPGAが数個並んでいるPCIバスの基板とIBM共同開発のPowerPCの写真が掲載されていました。
私的には「ザイリンクスなFPGAが数個並んでいるPCIバスの基板」は、少し刺激的に思えました。
ちなみにMDGRAPE-xは、その気があれば出来上がった基板を購入してパソコンに取り付けることもできるかとおもいます。
製品の概要は理研ベンチャー 高速計算機研究所 [peta.co.jp]にあります。
大槻昌弥(♀) http://www.ne.jp/asahi/pursuits/ootsuki/
Re:素朴な疑問 (スコア:3, おもしろおかしい)
>>有楽町にビックカメラが
ここだけ見て、客の動きを精密にシミュレーションするのかと空目しました。
「お、関西人が団体で入ってきて値切り始めたぞ!」
「うむ、店員が対応に追われているな。その分レジが手薄になっている」
スーパーコンの形 (スコア:1)
ヒースキット山口 heath yamaguchi
Re:スーパーコンの形 (スコア:4, おもしろおかしい)
Re:スーパーコンの形 (スコア:1)
今朝もriken落ちてた (スコア:1, おもしろおかしい)
理論ピークと使い勝手 (スコア:1, 参考になる)
いくら高かろうが、並列計算する時点で効率が頭打ちされるのが
分かっているので全く意味が無い。
重要なのはチップ1個の性能がどれだけ高いかということだ。
ついでにいうと、簡単に利用できないマシンもあんまメリットが無い。
EX:地球シミュレーター
ヨーロッパのサイエンスグリッドみたいに、誰でも簡単に利用できる
システムの方がよほど価値は高いと思う。
#本マシンは専用機なのでオフトピっぽいな・・・
Re:理論ピークと使い勝手 (スコア:3, 興味深い)
一方で、Linpack系のベンチマークは古い数値計算専用であって、そっちの方が、「それで、いまさら何を計算しようと言うわけ?」という感じで心配です。そういう人達は「チップ1個の性能」っていうのが好きらしい。
Re:理論ピークと使い勝手 (スコア:3, すばらしい洞察)
「だから、ノード間バンド幅が重要だ」、とか、「共有メモリーサイズとアクセス速度が重要だ」、とか、「I/O速度が重要だ」、とかにつながるのだったら分かるのですけれど。
そこは人それぞれということで (スコア:3, すばらしい洞察)
というものもありまして。
分野によってはしゃあないところもあります。
無論、研究者自信のスタンスが、理論重視でコードの並列化などのプログラム技術が追い付いていないという現実もありますが、そういう糞難しいフォーミュレーションを考えて、とにもかくにもコードに載せる事の方がなによりも評価されるって言う分野もあります。
実際、そもそも理論重視だとコードの効率を上げるのに血道をあげても、コード自体(理論自体)が使い捨てというのもあります。時間をかけて効率化を計るのが賢いのか否か?というのも見据えて、何を目的とした研究か?というのを正しく考えないと。まぁ、いろいろといます。コード屋よりの人もいれば、コード屋よりでない人もいる。パソコン好きが数値計算をすると計算機よりになるのは非常に理解できますが、計算機の人ではない。ってことを大前提に。(まぁ、計算機の人もいるでしょうけど)。
MDのような、フォーミュレーションは簡単で、あとは基本的なアイデアと、コードの実装そのものに血道をあげることの出来る分野だけではないという事です。とにかく、ちょっとスタンスが違う人がなにか分かったように言いきると腹が立つのは分かりますが、そこはお互い相互理解を持って行きましょう。
個人的には、専用計算機を使うような世界にいないので、そっちはさっぱりですが、汎用マシンという意味では、たとえば、SR11000よりは、SX-9 のようなベクトルマシンの方が楽にお仕事できるコードを書けます。やっぱ、1CPUの性能は重要だなーと。まぁ、要素内並列をちゃんと使い込んでいると、共有メモリ内の1ノードの性能というのが聞いてくるようになりますけど。どこが重要か?と問われれば、1CPU の性能と答えるのは実に正しいと思います。その次に、共有メモリ内通信の速度であり、分散メモリ間の速度でありと。まぁ、だいたいこんな感じなのは誰もが正しいと思うでしょう。
鬼のようなノード数を使えたとしても、それが行かせるコードってのは(ひいては、フォーミュレーション・理論が)結構少ないと思うし。無論そういう分野も、そういうコードも、そういう研究もあるでしょう。
ともかく、始めにCPUありきで、次がCPUとメモリの通信で、その次が、CPUとメモリの集合間との通信で、その次がさらにそれが大きなネットワーク作った際のインターリンク間の通信でというのはおおむね正しいんじゃないのかな─と。
また、確かにインターリンクがノード内通信並に速ければまた、違う世界も見えてきそうですけどね。ようするにノード自体が、CPU 内のパイプライン的な存在になってくる。そうなると、コードってよりは、コンパイラの最適化ですね。ボトルネックになるのは。でも、それはそれで見方を変えて、それはデカイCPUだとも言えますし。
ともかく、そこまでいっちゃ、どこまでの世界を見据えてのお話か?で話は変っちゃうわけなんだけど、現実問題としてともかく、まぁ、どこがボトルネックになりやすいのか?というのはコード依存なんで、人それぞれご経験があるんでしょうけど。それはそれ。
ともかく、些細なことに目くじらを立てないように。・・・・っと細かい違いに目くじらを立てて、本質を議論するのがサイエンスの一つの形なので、言葉の使い方一つでけんかになるのは、ある意味健全ですが。それは議論となるバックボーンが明確で互いにきっちり議論しているから意味があるわけで。まぁ、こういうところでは優しくいきませう。
Re:理論ピークと使い勝手 (スコア:1, すばらしい洞察)
楽園は終わったのだよ。
Re:理論ピークと使い勝手 (スコア:2, すばらしい洞察)
>ついでにいうと、簡単に利用できないマシンもあんまメリットが無い。
>EX:地球シミュレーター
>
>ヨーロッパのサイエンスグリッドみたいに、誰でも簡単に利用できる
>システムの方がよほど価値は高いと思う。
これは完全に貴方の都合でしかないんでは?
「簡単に利用できない」「利用者が限定されている」からって成果が出てないわけではない。
Re:理論ピークと使い勝手 (スコア:2, 興味深い)
>「簡単に利用できない」「利用者が限定されている」からって成果が出てないわけではない
成果がゼロとは言ってませんよ。
地球シミュレータによって実証された数値計算の可能性なども理解しています。
要は比較の問題です。
限られたユーザのみが利用できるが最高性能の高いNLS(NationalLeadingSupercomputer)と
広く門戸を開放し多数のユーザーが利用できる代わりに性能はそこそこのスパコンとどちらが
全体として利益が高いか、ということです。
日本は前者、ヨーロッパは後者の方式で進んでるので、数年後には評価が出るんじゃないでしょうか。
Re:理論ピークと使い勝手 (スコア:2, 興味深い)
広く門戸を開放した場合、一利用者あたりが使える計算リソースが目減りするわけで。
例えば、ジョブを投入してから実行開始まで一ヶ月待たされるけど計算自体は一時間で終わるようなスーパーコンピュータがあったとして、手元のそこそこ速いワークステーションを一ヶ月動かせば大体同じ計算ができるような場合、高価なスパコンは作り損てことになってしまいます。
その辺も含めて数年後に評価が出るだろう、ということかも知れませんが。
Re:理論ピークと使い勝手 (スコア:2, 興味深い)
これ、ESとかのマネージメントの事をいってるんじゃないか?
伝え聞くところによると、リバモアなどでは、異分野のたくさんの人が手分けしてコードを作るにはどうしたらよいかとか、そうしてできた複雑なコードの結果が正しいかどうかどうやって検証するとかが次に面倒な問題になると言われていて、研究されているんだが、こちらでは予算の大きさゆえに研究機関の間のイニシアチブをめぐる綱引きのレイヤーで物事が議論されがちなのが心配だ。
コラボレーションや検証をするのに、バカでかい計算機は必ずしも要らない(特殊なハードウエアに依存するのではなく、それなりにスケーラブルなソフトウエアが良いだろう)ので、もっと多くの人のアイデアを集める方向で行って欲しいと思う。
Re:理論ピークと使い勝手 (スコア:2, すばらしい洞察)
・並列化のトレンドは、むしろチップ1個の性能を落としても組み込みの技術とかで消費電力と熱を減らす方向。プログラミングはどんどん難しくなるけど、そういうマシンで動くコードを書ける技術を学んだ方がいい。
・簡単に利用できないマシン云々はcapability machines, capacity machines で検索とかしてみるといいと思う。まあどっちも大切っていうのが業界の見解。汎用マシンでpeak performance 1TFLOPが出て、LINPACK 1TFLOPが出ても、誰もがそういう環境を使えるようになるようになるにはまだ長い道のりだろうね。
Re:理論ピークと使い勝手 (スコア:2, すばらしい洞察)
と言うかそもそもそれほど並列化の効かない計算にこれを使おうと思っている人は
いないんじゃないかと.
Re:理論ピークと使い勝手 (スコア:1, 参考になる)
さて、チップ1個の性能が高いのはどっち?
Re:さっぱり (スコア:2, おもしろおかしい)