[ アカウントをゲット! ]
elfbin 曰く、
PC Watchの後藤弘茂さんの記事にて、 数年後の高スループットCPUはDRAMダイをCPUと同じパッケージに封入する可能性が高いとの予測が出ている。 つまり、CPU+GPUという流れから、さらにCPU+GPU+DRAMという姿へということで、 理由としては、TFLOPSパフォーマンスを狙うCPUが数百GB/secのメモリ帯域を必要とするが、 現在のDRAMロードマップではこの帯域を到底実現できないということのようだ。 GPUとは違って業界コンセンサスを取るのが難しい領域ではあるが、未来はまあそうなるのだろう。
コメントを書く
親コメント
このページのすべての商標と著作権はそれぞれの所有者が有します。 コメントやユーザ日記に関しては投稿者が有します。 のこりのものは、© 2001-2010 OSDN です。
過負荷 (スコア:5, おもしろおかしい)
CPUがPCの中で1個の巨大なSlot3に変わっているのを発見した。」
コメントを書く
勘違いコメント多すぎ (スコア:3, 参考になる)
マザーボード上はメインメモリも必要。
現状のCore i7の場合
L1:32KB+32KB×4(命令とデータを分離)
L2:256KB×4(コア毎に分離)
L3:8 MB
L3を少数のコアグループ毎に分離して、L4に256M-512Mぐらい載せたいのかな
コメントを書く
Re:勘違いコメント多すぎ (スコア:3, 興味深い)
GB単位のメインメモリをプロセッサに統合しようという流れは、アーキテクチャ径のアカデミアでは最近多いです。
3Dスタッキングで全レイヤーをCPUコアにしてしまうと廃熱が追いつかなくなるので、
メインメモリを載せたいとか、キャッシュがよいとか、フラッシュだとか、クロックを下げたコアだとかネタは百出していますが、
これだという答えは今のところ見えていません。
コメントを書く
親コメント
Re:勘違いコメント多すぎ (スコア:2, おもしろおかしい)
1を聞いて0を知れ!
コメントを書く
親コメント
外付けは MRAM から (スコア:2, おもしろおかしい)
fjの教祖様
コメントを書く
つまり (スコア:1, 興味深い)
いやまあ、配線長短縮の意味だけでも大きいとは思う。
コメントを書く
system in package (スコア:1, 参考になる)
削減コストと統合チップの価格を比較して妥当だったので採用しました
インテルなら量産効果も出るので安く作れそう
コメントを書く
GPUならDRAM混載はすでに行われてる (スコア:1, 興味深い)
DRAM屋さんに、
ダイの片面にしか回路を作らないのはモッタイナイって言ったら、
両面に回路を作るための製造装置と技術がないんだよって返された。
普通のDRAMを両面に作るのであればコストが割りに合わないでしょうが、
ダイをスタックするくらいなら、片面にDRAM、片面にプロセッサでもコストが割に・・・合わないから現実にやってないんだろうなぁ。
コメントを書く
Re:GPUならDRAM混載はすでに行われてる (スコア:3, 参考になる)
チップに切り出すときに裏面を研磨して薄くしてしまうので、
一から製造方法を構築しなおさないと裏面に回路を生成するようなことは無理かと。
裏面回路は無理だけど、積層構造による立体化はIBMとか東芝とかで研究が進んでる。
まだ、平屋を2~3階のビルにするところまでの技術なんです。
コメントを書く
親コメント
Re:GPUならDRAM混載はすでに行われてる (スコア:3, 参考になる)
新プロセスを開発するのと変わらないぐらいコストがかかりそうです。
フラッシュメモリでは、微細化に限界が見えてるので、3次元積層も積極的に研究してますが。
> #でもそれをどうやってパッケージに組み込むのよ?(それもめんどい)
2枚貼り付けるだけなら、こんな感じで組み込みます。
http://resource.renesas.com/lib/jpn/edge/13/focuson.html [renesas.com]
一部では、実際に量産品として出荷されてる段階ですね。
コメントを書く
親コメント
IOが解決するとメモリがネックになるしね (スコア:1, 興味深い)
それで、データのほとんどはキャッシュにひっかかるような構造にしたんですよ。
そんで、プロファイラとってみたら memcpy が一番時間数かかっていたりしたからなー。
IOを減らすとかだったらキャッシュすればいいんだろうけど、memcpy が一番遅いって言われたらもうどうすることもできないという。
これ以上は無理、、って思ったもんです。
コメントを書く
Re:IOが解決するとメモリがネックになるしね (スコア:2, 興味深い)
コメントを書く
親コメント
Re:memcpy()は汎用だから遅いですよ (スコア:2, 興味深い)
転送元・転送先のバイトアライン関係ないし
転送サイズが大きいのか短いのかもわからないし
そういうのを最初に判定するmemcpy()もありますが、そういうのは判定の分のオーバーヘッドが転送サイズが小さい時に出てきてしまいます。
memcpy()をもう少し細分化したものを作ったらよいのかもしれません
速度がいるときはみんなその場でガシガシ作ってしまってるようです
コメントを書く
親コメント
Re:memcpy()は汎用だから遅いですよ (スコア:2, 参考になる)
ただしコンパイラはこの実装を使わずインライン展開できますので、その際にはオーバーラップしているか、アラインメントなど推測可能なら省略してしまうのでしょう。
コメントを書く
親コメント
ビジネス向けノートを考えると現実性は高そうですね。 (スコア:1)
コメントを書く
Re:その次は (スコア:1, おもしろおかしい)
コメントを書く
親コメント
Re:その次は (スコア:2, おもしろおかしい)
>本当に1チップですね。
電源とNICと液晶とかも入れてもらえると嬉しいかも
コメントを書く
親コメント
Re:その次は (スコア:5, おもしろおかしい)
>>本当に1チップですね。
>電源とNICと液晶とかも入れてもらえると嬉しいかも
OSとアプリと各種入力デバイスとプリンターも頼むよ
……
……ほんの出来心だったんです!
まさか、進化した技術の先にワープロが再発明されてしまうなんて!!!
コメントを書く
親コメント
電源!? (スコア:2, おもしろおかしい)
でもそれだとそのうち発電所までの距離が問題になってきますから、
原子力発電所まで統合して欲しいところです。
コメントを書く
親コメント
Re:その次は (スコア:3, おもしろおかしい)
...知恵熱?
コメントを書く
親コメント
Re:統合って言うから期待したんだけど (スコア:1)
結果的にどっちつかずのものができるか、コストが合わなくなるかのどっちかじゃないでしょうか
コメントを書く
親コメント
Re:統合って言うから期待したんだけど (スコア:2, 参考になる)
混載DRAMだと集積度が犠牲になるが,それを承知で力ずくをやってしまうのがデバイス屋さん.............
(まあIntelのハイエンド製品がすぐそうなるとは思わないが)
コメントを書く
親コメント
Re:統合って言うから期待したんだけど (スコア:2, 参考になる)
今はロジックとL1とL2とL3までは1ダイで生成されてますけど、メモリの歩留まりの悪さがそのまま
CPUの歩留まりを悪くするので、コストを下げられないから安いチップには使えないハズです。
だからCore i7もL2容量増やしてきましたけど、来年出るCore i7の安価版は同じ構成にならないようですよ。
いまだと、Sharpや東芝がCPU+DRAM+FlashROMの別ダイを同じパッケージに入れた混載ワンチップマイコン出してますよね。
コメントを書く
親コメント
Re:統合って言うから期待したんだけど (スコア:2, 興味深い)
ロジック部分はモジュール毎に構成が違うので基本的に代替が効かないが,メモリは同形のモジュールが大量にあるだけなので,モジュールを多めに作ってやるだけで歩留りを大幅に改善出来る.もちろん面積は増えるけど,ロジック部分ほど歩留りを悪化させるわけではないので,「メモリの歩留まりの悪さがそのままCPUの歩留まりを悪くする」という表現は微妙.おそらく,歩留りのボトルネックはL1~L3キャッシュではない.
安いチップに大容量キャッシュを混載できない理由は,単純にコア面積が大きくなり過ぎるからだと思われる.
# メニーコア時代になれば,多少事情は変わるだろうけど。
コメントを書く
親コメント
Re:時代はめぐりめぐってこうなった・・・ (スコア:1)
コメントを書く
親コメント