430個のコアを持つチップ 45
ストーリー by Oliver
コアアレイ 部門より
コアアレイ 部門より
chiba-f 曰く、 "the registerの2002年12月10日の記事"Extreme CPUs: 430 cores on a die"より。
ちょっと古い話ですが、430個のコアを載せたMPUのファーストシリコンが現在picoCHIPという英国の新興チップメーカーでテストされているそうです。この会社のメンバーにはARM初期の技術者、TIやフィリップスなどの幹部経験者がいます。
430個のコアは4種類あり、それぞれがスイッチでつながれたAMR 9と等価です。ソフトウェアによりこの超並列システムの構成や機能は変えられ、ASICよりも安価で従来のDSP/FPGAコンボよりもはるかに高速だそうです。そして、160MHzのpicoCHIPは600MHzのTIのTMS320C6415より19倍速いと主張しています。
これの用途は3Gベースステーション、WCDMA、802.11アクセスポイント、暗号化、画像処理などがあげられます。"
日本企業の開発した再構成可能プロセッサー (スコア:3, 興味深い)
日本の企業も、今年2つニュースになっていましたね。
アイピーフレックス、再構成可能なプロセッサ「DAP/DNA-HP」の発表会を開催 [mycom.co.jp]
【レポート】NECが開発の動的再構成可能なプロセッサ「DRP」、その可能性は? [mycom.co.jp]
http://news2.2ch.net/newsplus/kako/1031/10312/1031291356.html
http://news2.2ch.net/newsplus/kako/1031/10316/1031660099.html
(アイピーフレックスDAP/DNA-HP発表時に2ちゃんねるで立ったニューススレ)
しかし、プロセッサーといっても、
NECのDRPや、アイピーフレックスのDAP/DNA-HPは、
DSPを大量に並列化しているような感じですが(私の知識では詳しく理解できていない可能性アリ)、
このpicoCHIPは、完全なCPUであるARM9コアを430個も積むんですか?
うーん、たしか通常のARM9コアはFPU(浮動小数点ユニット)を積んでいなかったような。。。
(FPU搭載はARM10からだったはず)
DSP系のコアではなく、
整数演算のみの汎用CPUコアを大量に積んで動的再構成可能にして、
それを何の用途に使うと効率が良くできるのだろうか・・・。
うーん分からない。
しかし、こういうニュースリリースで、
「この新技術は、従来の~プロセッサの何倍の処理能力」という記述を見ると、
なぜか、DSPを、汎用CPUと比較していて、
「陸上の近代十種競技(デカスロン)の選手とスキージャンプの選手がラージヒルを飛んで、
スキージャンプの選手のほうが5倍遠くに飛べました!」的な話になっていたり、
プレステ2が発表されたときに、Emotion Engineの6.2GFLOPSを、
「スーパーコンピュータ並の処理能力」と報道したマスコミを思い出します。
(一般の新聞やテレ朝のトゥナイト(笑 なら、メーカーや広告代理店の宣伝に踊らされて「スーパーコンピュータ並!」と誇大表現してしまうのも仕方が無い部分も有りますが、当時は、コンピューター系のライターやニュースサイトまで似たような表現を使って報道してしまっていたし・・・)。
処理のワーストケースや、
雑多な処理をした場合の平均処理能力を考慮に入れなくてもイイのなら、
4命令同時実行可能なVLIWアーキテクチャのCPUは、
「同じクロックのCISC/RISCプロセッサーの4倍の処理能力です!」
と宣伝文句を付けて売ることができちゃうよねぇ。
そんなことしたら現実社会では詐欺だ。
Re:日本企業の開発した再構成可能プロセッサー (スコア:1, おもしろおかしい)
(*1) 本製品は、ベストエフォート [srad.jp]型のプロセッサであり、処理速度を保証するものではありません。
Re:日本企業の開発した再構成可能プロセッサー (スコア:0)
年明けボケ第一号おめでとうございます
Re:日本企業の開発した再構成可能プロセッサー (スコア:0)
こういう方々 [srad.jp]もいらっしゃいますから.
Re:日本企業の開発した再構成可能プロセッサー (スコア:0)
ソニーも日本の企業の仲間に加えてください。
消費電力を大幅に低減したリコンフィギュラブル回路技術"Virtual Mobile EngineTM" をネットワークウォークマン用LSIに採 [sony.co.jp]
ARM9でも、追加IPコアでFPUやDSP拡張が使えるんですね (スコア:1)
>オプションならVFP9-Sがあります。
オプションIPコアで、ARM9にもFPUが追加できるんですね。
他にも、ARM9用の追加IPにはDSP拡張も有るので、
picoCHIPは、それらを上手く使うつもりなのかもしれません。
(素のARM9コアだけでは並列化の意味が薄そうなので)
ARMアーキテクチャの特徴 [atmarkit.co.jp]
picoCHIPのARM9コアがFPUやDSP拡張を持っていると仮定すると、
内部構造しだいでは ワンチップスーパーコンピュータ [srad.jp]
と呼べるものになるのかも!?
#スネ夫がジャイアンに奪われる確立が高い品物、6980円→中島 夜間戦闘機「月光」 [naruju.com]
SPARKやAlphaやPowerの代わりに、ARM (スコア:0)
ARMプロセッサが組み込みCPU市場で爆発的に普及した理由は、コアの面積が小さいことと、処理能力/消費電力比が高い(低消費電力)こと。
SMPもしくはクラスタリングでスーパーコンピューターを構成する場合は、
普通は、RISC CPUであるSunのSPARKチップや、旧DECのAlphaチップや、IBMのPowerチップを大量に使って作りますよね。
仮に、コアの面積と消費電力が大きいSPARKやAlphaのコアを、 大量に1つのダイに載せてワンチップ化したら、
ダイのサイズも電力密度も爆発的に
Re:SPARKやAlphaやPowerの代わりに、ARM (スコア:1)
・Sunのチップの綴りはSPARC
・POWERは全部大文字で表記。PCがつくほうは小文字も使ってPowerPCと綴る
です。
チップ内マルチコアなら、POWER4が既に世に出ていますね (もちろん430個なんて将来的にも無理そうですが)。昔のPOWERは1つのプロセッサがマルチチップ構成だったのにね。
間違えた・・・ (スコア:0)
>・POWERは全部大文字で表記。PCがつくほうは小文字も使ってPowerPCと綴る
間違えた・・・恥ずかしい。
slashdot.jpにも、書き込みのプレビュー時に
技術用語スペルチェック機能が有ったらなぁ・・・。
あと、書き込みのタイトルが長すぎて途中で切れてしまう場合も、
ちゃんとプレビュー時に警告してくれたらいいな。
メモリーは? (スコア:1)
それとも、パイプライン化して4~8くらいにまとめるのかな?
確かに、用途によっては爆発的に高速でしょうけど、そういう用途は限られるだろうなぁ。
typo (スコア:0)
ところで600MHz*19/430 = 26.5なんですがそのあたりどうなんでしょうか。
あと消費電力やダイサイズなんかも気になるところ。
高い、デカい、電気食う、ではいくら速くても…。
ふーん (スコア:0, 余計なもの)
暗号なら専用チップ作った方が有利かと
ゲーム機とかパワーが足りない場合に最も有効だったりするがどうなんだろう。
全部動く事は稀だし動いていない場合は電源をカットすると思うので消費電力は
普通のプロセッサ並みだろうが、全部動かした事を想定するなら据え置き型しかなないなぁと
ゲームなんてコプロなくてもテーブル演算でサインデータ入れれば演算できますしね
ゲーム以外用途ってあるんですか?とか聞いてみる。
Re:ふーん (スコア:2, 参考になる)
> 暗号なら専用チップ作った方が有利かと
コプロって何を指している? FPU?
タレこみにあるような携帯電話のベースステーションとかアクセスポイントならコプロ(FPU)なんて邪魔ですね。
この手の製品ってのは開発スピードとコストが命です。場合によっては規格がドラフト状態のときから開発していないと商売にならないことがあります。
たとえ回路的に比較的簡単な暗号ですら専用チップ作っている金と時間なんてありません。チップの製造は1とか2ヶ月の時間と数百万円かかります。規格案が変更されればただのごみです。
また、規格が決定しても変更やオプションがあります。そうすると変更できるハードだと比較的簡単に追従できます。
そうゆうわけで、まずタレこみにあるような用途がメインだと思いますよ。その次はソフト無線関連。ゲーム用途なんてまず考えていないと思いますよ。
ところで、文章の頭では「コプロ無しなんて話にならない」と言いながら後半では「コプロ無しでも」ってのは意味不明なんですが。昨今のゲームでコプロ無しなんて到底考えられないのですが。
Re:ふーん (スコア:2, 興味深い)
>金と時間なんてありません。
そうでもない場合もあるようです。
#暗号化とか、セキュリティ確保のためのハードウェアを販売する、
#なんて場合なら、作らないと意味ありませんし。
#あと、かなり固まっている暗号方式をハードウェア実装して
#処理速度を上げて製品として売る、ってことはあるみたいですし。
#また、3DESみたいに暗号化過程を複数組み合わせるなんてことだと、
#一部だけをソフトウェアにして、あとはハードで実装、ってのも
#ありかなぁ、とか思ったりもします。
>チップの製造は1とか2ヶ月の時間と数百万円かかります。
これ、製造するチップの場合によるでしょう。
あと、数百万かかるのは、たぶん製造費ではなくて設計開発費用では?
#製造費は、個数に依存する話なので、数百万ですむとは限らないでしょうし。
わたしが知る限り、製造で月単位の時間がかかるのは、
ゼロ(基板の拡散層)から製造するフルカスタムかそれに近いものが
ほとんどで、論理回路を数層の配線だけで構成するなら、あらかじめ
マスタスライス(下層の拡散、コンタクト、ポリシリゲートなど
まで製造して保管するもの)が作ってある前提で、週単位の期間で
製造・出荷することは可能です。
#そういうのがゲートアレイとかエンベディッドアレイとか
#言われるものなんですけどね。
#最近では、もっと期間を短くするような工夫がされた製造オプションも
#あるみたいですが・・・詳しいことは書きません。
#興味のある人はISSPとかRapidChipとかをキーワードにして
#ぐぐってみてください。
---- redbrick
そうか、用途は3G携帯基地局やソフト無線 (スコア:1)
1995年頃の、黎明期の個人向けインターネットプロバイダが、
単体の家庭用アナログモデムを大量に積み上げて(個別の小さなCPU)、
ユーザーからのダイアルアップ接続を受けていたのが、
そのうちに、
ユーザーからのアナログ回線のダイアルアップを、
INS1500回線で接続して、1つのプロセッサーで一括して処理できる、Ascend MAX4000のようなアクセスサーバ(集合プロセッサ)に
機材が変化していったのと同じような感じかな。
でも、「160MHzのpicoCHIPは600MHzのTIのTMS320C6415より19倍速い」ということから、
門外漢が数字だけで単純に考えると、1つのpicoCHIPに集積するよりも、
単体のパッケージの160MHz ARM9プロセッサを430個積んだ基板を作ったほうが
処理能力が高いような気がする・・・。
3G基地局のデータ処理だと、大量のデータ処理/やり取りをしなければならないから、
プロセッサ同士が密に接合されていないとパフォーマンスが出ないのかな。
ソフト無線 [zdnet.co.jp], ソフトウエア無線 [google.com]の技術は、
高度過ぎて全然理解していないのですが、
最近オーディオで流行している、1bitデジタルアンプ(比較的低いオーディオ周波数の処理)を、
もっと高い周波数のRadio Frequency(無線周波数)で行うような物なのでしょうか。
そうだとすると、物凄く速いプロセッサーが無いと実現が難しそうなので、
無理矢理にでも高い処理能力を必要とする意味が分かる気がします。
結局、ARM9をコアに使ったのは、単に「手軽に使えるIPコアだから」で、
picoCHIP専用に新しく集積用の単機能プロセッサコアを1から設計するよりも
開発効率が良いというだけの理由なのですね。
あぁ、理解していない事を語っているので、なんだか、あいまいな内容の書き込みになっている・・・。
Re:そうか、用途は3G携帯基地局やソフト無線 (スコア:1, 参考になる)
> もっと高い周波数のRadio Frequency(無線周波数)で行うような物なのでしょうか。
違います。ちなみにお書きのようなものを作るとするならば、素直に普通のローパス型のノイズしぇーパーを使うとすると、無線が数ギガヘルツとして、送信側で50デシベル程度、受信側でオーバー100デシベル程度必要ですから、数100GHzで動作する回路が必要となり、まだまだ実用的では有りません(その上、そんな大変なことをやってもなんのメリットも得られません)。
むしろたとえるなら、70年代から80年代にかけてビデオを取り扱う際にTVやビデオレコーダがアナログで取り扱っていたものが、現在DVD,DVに代表されるデジタル処理(しかも、パソコンを使えばソフトウェア処理)によって扱われているのと同じことを無線技術で実現しようとしていると考えるほうが例えとして適当ではないかと考えます。
そのあたりのコンセプトについては
http://www.sdrforum.org/
をご参照ください。
ソフト無線とデジタルアンプを少し検索してみました。 (スコア:2, 参考になる)
ソフト無線とデジタルアンプは、直接の関係は無いんですね。
無線の送信を単純に分解すると、
発振(搬送波作成)→変調(搬送波にデータを付加)→増幅(出力アンプ)
ソフト無線は、このうちの、「発振&変調」をデジタル化するもので、
最近話題になっているソフト無線は、
「PCMで発振&変調(この部分がデジタル)」+「アナログ出力アンプ」
という構成なのですね。
デジタルアンプは、文字通り「単なるアンプ」なので、原理的には、
ソフト無線の最終段の出力アンプとして組み合わせる事も不可能ではないが、
SHARPのオーディオ用アンプで44.1khzの出力を取り出すのに、
2.8MHzの1bitパルスが必要(再現させるターゲット信号の64倍)なので、
そこから単純計算しても、2.412GHzの搬送波を発振するのには、150GHzの1bitパルスが必要で、実用的に使うため帯域を広げたりS/N比を稼ぐには、
さらにその数倍の、超高速なパルスを作らないと実現できないのですね。
高い周波数の無線機器で考えると(僕には)分かりにくいので、
音声帯域用のオーディオ信号の機器に例えて考えると、
●アナログ回路で発振→●アナログ変調→●アナログアンプ増幅、
している、昔のアナログ携帯電話やアマチュア無線機は、
「アナログシンセサイザー」と同じ原理で、
●アナログ発振→■デジタル制御で変調→●アナログアンプ増幅、と、
■単機能DSPでPCMデジタル[発振+変調]→●アナログアンプ増幅、
のような、現在のデジタル携帯電話や、IEEE 802.11b/a無線LANカードは、
「YAMAHAのDX7や、RolandのD-50」のようなタイプの、
DSPに使えるゲート数や動作周波数が遅かった時代に作られていた、
「デジタルシンセサイザー」と似たような成り立ちで、
さらにその次の世代の、ソフト無線は、
処理能力が猛烈に高くなったパソコン上で、
シンセサイザーエミュレートソフトを走らせて、
16bit/44.1khz出力のサウンドカードから音を出すだけで、
「1台のパソコンが、「DX7」としても「D-50」としても使える。
ということなのですね。
(一つのプロセッサーとD/Aコンバーターで、IEEE 802.11bとBluetoothとPHSが処理できる)
ということは、SDR(ソフトウエア無線)を実用化する為には、
パソコンのサウンドカードのD/Aコンバーターは44.1khzだけれど、
無線送信用に2GHz帯の搬送波を作るには、
動作クロック4GHz以上のD/Aコンバーターが必要なのですか・・・。
高価で特殊な測定機器では無く、家庭用の機器としてそこまで凄い物が作れる時代が来るんですね。
なぜだか少し、空恐ろしい気分・・・。
機械いじりは好きなのですが、私には、
トランジスタラジオ組み立てとかアマチュア無線国試問題丸暗記、
程度の単純な知識しか無いので、
最近どんどん民生品レベルにまで降りてきたスペクトラム拡散とか
CDMAとかUWB(ウルトラワイドバンド)のような新しい概念の技術を知るたびに、
「こんな、宇宙人のテクノロジーみたいなのが動くのか!」と驚きっぱなしです。(笑
Re:そうか、用途は3G携帯基地局やソフト無線 (スコア:0)
カワ(・∀・)ィィ!!
Re:ふーん (スコア:0)
という結論でどう?
それはどんなことでもそうだろうが (スコア:0)
>と思わせ、想像力に欠ける人には「くだらん」と思わせる
>チップである。
>という結論でどう?
なぜ、それほど結論したがるのかね。
しかも盆暗な結論で
Re:ふーん (スコア:1, すばらしい洞察)
# 偉い人には(本当は)わからん方がいいんですよ。
Re:ふーん (スコア:0)
自体が消えてしまいます。
# 10年も経つと、一部の物好きの記憶にのみ存在することになる。
Re:ふーん (スコア:1)
まぁ、3G な携帯電話の基地局に使うのなら有効でしょうね。何せ(基地局の)数が多いので仕様追加などでチップを交換する手間やコストを考えれば、あらかじめプログラマブルにしておいて、センターから更新できた方がコストが安くつくから。
確かに携帯電話や無線 LAN の基地局でも暗号は必要だから、コプロセッサなしの CPU ではきついけれど...。
ですね(まさに基地局向き)。
Re:ふーん (スコア:0)
Re:ふーん (スコア:1)
ええ、知ってます(^^)。基地局の初期投資は専用装置(専用チップなど)よりもかかるけど、それ以後のコストが安くなるんですよね。
で、いわゆる 3G な基地局だとそれなりに転送量が増え、負荷がかかるから今までの CPU ではなくこういう並列 CPU はもってこいですねというのが趣旨でした。
PHS事業者間の悲喜こもごも (スコア:0)
旧NTTパーソナルとアステルが営業開始当初は、
ファームウエアの書き換え自由度が低い出来基地局を採用して大量に設置してしまい、
営業開始当初から高いプログラマブル自由度を持った基地局を設置していたDDIポケットが、
32kbpsサービスや、32kbpsPIAFS対応化、AirH
Re:ふーん (スコア:1)
いったいいつの話ですか。
最近のはfloatのベクタと行列演算がコプロ (ベクタプロセッサ) で
ごりごり走ってもらわんと何もできませんぜ。
それともコプロって何か違うものを指してるの?
Re:ふーん (スコア:1)
オフトピック , -1
Re:ふーん (スコア:0)
開発キットが出たての頃試しにfloatでベクタと行列演算をごりごり演算させてみましたが、フレームレートが落ちまくって全くお話になりませんでした。
Re:ふーん (スコア:1)
Re:ふーん (スコア:1)
浮動小数点演算は必要なく、整数演算のみでよいのですし。
アルゴリズムが未だ進化中ですが更に重くなる方向になりそうな中で、現状でもPentium4 3GHz で目標の2割り程度しか達成出来ないほど重い処理なので。
Re:ふーん (スコア:0)
たとえば、シグナル処理の基本、フーリエ変換などを考えると、常道では高速フーリエ変換(FFT)アルゴリズムで、三角関数&浮動小数演算(とその応用解法で)でごりごり解くんでしょうが、演算ユニットが数百あるなら、必要とする要素数が256とか512程度なら、各演算ユニットに1要素を割り当てて元信号の積和で相互相関を求めてしまってもいいわけで。FPUなくても整数積和ならそれなりに早いわけ
整数演算限定のワンチップスーパーコンピュータ (スコア:1)
スーパーコンピューターのアーキテクチャー [nifty.com]
低価格なRISCプロセッサにソフトウェア的にベクトル化可能な機構を組み合わせて実現する、擬似ベクトル型スーパーコンピューター(日立SR8000/SR2201)や、
SMP稼動させた大量な数のCPUとメモリの間を、クロスバースイッチによって結んだ密結合システムであるNUMAアーキテクチャー型スーパコンピュータ(SGI3000)、
のような考え方のシステムを、丸ごと1チップ上に集積した、
機能限定のワンチップスーパーコンピュータ。
たしか、FPUやSIMDは、ARM10やARM11以降のコアでしか実装できないはずですが、
ARM9でも、DSP拡張のIPコアは追加できるので、
picoCHIPは、それを上手く使うつもりなのかもしれません。(素のARM9コアだけでは並列化の意味が薄そうなので)
ARMアーキテクチャの特徴 [atmarkit.co.jp]
そう考えると、picoCHIPがARM9を採用したのは残念だ。
ARM9では無く、
intelのMMXやSSEのようなSIMDユニットや、FPUが載っているCPUコアを
使っていれば、完全なワンチップスーパーコンピュータになれたかもしれないのに。
Re:ふーん (スコア:1, すばらしい洞察)
ルーティング管理が大変そうだ(笑 (スコア:1)
ここまで経路選択の自由度が高いネットワークだと、
ルーティング情報の管理が大変そう。
(経路がリアルタイムに動的変化するようだし)
TCP/IPでの、スイッチやルータの設定ミスで、
パケットが同じ所をグルグル回ったり、
すごく遠回りして辿りついたりするみたいに(笑。
動的再構成可能なプロセッサとは、つまり、
クロスバースイッチグリッド集積回路、と受け取って考えていいのかな?
コアを遊ばせないプログラミングテクニック (スコア:1)
(1つのARMコアを、普通のCPU内部のパイプラインの1段として、
さらに同時にそのパイプラインを、VLIWの並列ユニット1単位として使うようなアーキテクチャだから)
このPicoChipの能力を引き出すのには、
スカラー式の超並列スーパーコンピューターでの、
「できるだけプロセッサーを遊ばせずに、高い処理能力を引き出すプログラミングテクニック」
と同じスキルが必要になると思う。難易度高そうだ~。
自己訂正 (スコア:1)
↓
1つのARMコアを、普通のCPU内部のパイプライン内の1ステージとして
の方が正しい表現、伝わりやすい表現、だった・・・
Re:ふーん (スコア:0)
自分の想像力のなさが (スコア:0)
それともニヒルを気取るとかこいいとでも思ってるのかね?
Re:ふーん (スコア:0)
ほんとに「ふーん」だな
能力的に面白いが中途半端で用途に困る部類だね
汎用プロセッサ並なら
・小型スパコンのように使えるだろうけど
・シンセサイザー+エフェクタに使えそうだけど
#ふーん、より「ふ~~~ん」だね<悩むって事で
Re:ふーん (スコア:0)
Re:ふーん (スコア:0)
一画面を1/430に分割してそれぞれのエリアを各CPUに分担させて並列エンコードとかすれば、並列度が生かせそう。
メモリアクセスがネックになってくるだろうけど。
ねぼけた (スコア:0)
Re:ねぼけた (スコア:0)
次の目標は512個だったりして(笑)
これ430個より
汎用16個くらい+プログラマブルのハード方速そうな気がするのですが
#↑クロック1GHzで...
Transputer? (スコア:0)
パラレル動作の記述用に、Occamとかの言語がありましたが、ハードデバッグの手伝いをしただけなので良く知らなかったり。