パスワードを忘れた? アカウント作成
5029 story

NECが128CPU内蔵の高性能コントローラを発表 44

ストーリー by yourCat
動画認識が身近になる 部門より

von_yosukeyan 曰く、 "NECのプレスリリース及び、日経エレクトロニクスオンライン(要無料の会員登録)から。NECは、13日までの日程で開催されていたISSCC(国際固体回路学会)で、128CPUをワンチップに集積した組み込み向けマイクロプロセッサーを発表した (講演番号2.6)。このマイクロプロセッサは、リング状に結合され4Wayのプロセッサと2kbの容量のメモリーが結合されたプロセッシング・エンジン (PE) が合計128個と、制御用のRISCプロセッサによって構成される (仕様)。ITS用の車載チップやロボットの制御用に出荷したいという。" (…)

"PEに使用されるプロセッサは、8bitのVLIWプロセッサで、主に画像認識に頻繁に使用される命令に特化している。PEが独立したメモリーを持つことや、VILW命令の工夫によってコンパイラによる最適化が行いやすいのが特徴で、消費電力の面でも100Mhz動作時に最大4W程度と極めて有利。試作品は0.18μmルールだが、年を目処に0.13μmルールでの量産化を目指す。
ブロック図を見たタレコミ者は、一瞬並列ベクトル型HPCをワンチップ化したかのように錯覚した。NECは、過去にもISSCCの場においてV860命令互換の低消費電力VLIWプロセッサを発表しているが、その研究が実を結んだのだろうか? 識者のコメントを待ちたい"

最新鋭パソコン4台分の処理をPDAでこなすイメージ、というのはぐっとくるな。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • 要するに (スコア:2, 興味深い)

    by take0m (4948) on 2003年02月19日 13時44分 (#262467) 日記
    単一の演算装置を高速に回転させるよりも、複数の演算装置を並列やマトリクスなどで協調動作させることで、動画認識に必要な計算量を捌かせるってことでしょうかね?それによってクロックを下げられるので消費電力も下がるということかなぁ。

    人の脳もクロック低くて、超並列処理な感じでしょうから、それに近づいて行くのかな。面白いですね。最近の流れとして、I/Oまわりはシリアル化で高速化しているのに、CPU内部ではパラレル化で高速化していくんですね。
    • 実行ユニットが128個程度では、
      128x128 の画像を処理する場合でも、128 回繰り返しが必要です。
      所詮このCPUもノイマン型な訳で、
      処理速度を考えると、動作クロックが100MHzはかなり弱点だと思います。

      だから、処理速度だけでなく 消費電力もセールスポイントとしてあげているのでしょう。
      実際、NECはかなり昔からこの手のCPUを開発し、
      画像処理ボードに積んだりして販売しています。
      でも、昔は消費電力の単語はありませんでした。

      実際に、処理速度の問題は重要で、
      昔は、画像処理といえば 今回のようなCPUを積んだ画像処理専用ボードを使うのが主流でした。
      しかし、最近はほとんど intel のCPUを使う方法に切り替わっているように思います。そっちのほうが、速い!安い!なのです。

      intel のCPUは MMXを考えても 4並列、
      HyperThreading で なんちゃって2並列なわけで、
      NECの目指しているであろう*超*並列には足下にも及ばないのですが、
      もうしばらくはクロックを上げて処理速度を稼ぐのが一番ベストな方法なのかもしれません。

      まだまだ、脳みそは作れないっす。
      親コメント
      • by Dobon (7495) on 2003年02月20日 2時21分 (#263038) 日記
        用途を限定し、低価格低消費電力に仕上げた組込用チップと汎用CPUを比較するのは無意味です。

         組込の場合、特定の処理のみを可能な限り低消費電力で行わないと落第点が付きます。
        (電源ユニットの容量やコンデンサの数が製品コストを決めるため)

        要するに、制限時間内に一応の解が出る性能があればよいのです。
        ・制限時間よりも消費電力の方が優先されるケースもあります。
        # 電話機組込の仕事で14kのクロックでCMOSのZ80を動かした事がありました。

        このチップは自動車用のようですが、他の応用例は幾らでも思いつきます.
        自走式掃除機とか、手話→音声変換機能付き携帯電話とかに高性能チップが必要ですか?

        # 自動車用でも、エンジン停止時に電力を馬鹿食いするようでは困ります。
        --
        notice : I ignore an anonymous contribution.
        親コメント
      • by NotEnough (9948) on 2003年02月19日 15時27分 (#262534)
        製品発表もまだまだ先であろう、未承認特許の話をしてもアレなんですが...
        SCEの【特開2002-366534】なんかも用途やアプローチは違いますが、似たような構成になってますね。

        これは1コアにコントロールプロセッサ+(演算器+RAM)*8という構成
        のように見えますが、DMAでマイクロプログラムを演算器にディスパッチして
        スループットを上げようという風に見えます。

        もっとも、どちらかと言うとチップ単体よりもさらに複数チップ
        を継いで、LANやらWAN全体でグリッドコンピューティングを...と
        いう風な狙いのようですが、チップ単体でみればキャッシュを
        持たずに、RAMをぶらさげて個々に処理させるあたりは似たよう
        な構成かなぁと。
        --
        Just a whisper. I hear it in my ghost.
        親コメント
    • by picard (4667) on 2003年02月19日 14時41分 (#262503) 日記
      >CPU内部ではパラレル化

      CPUのシリアル化ってどういうのを言うのでしたっけ?

      親コメント
      • by YF19 (12943) on 2003年02月19日 14時44分 (#262505) 日記
        伝言ゲーム?(違)

        でも、実際、電圧などとは性質が全く異なるんで、高速化するには、並列させるしかない気がしなくもない
        親コメント
        • by picard (4667) on 2003年02月19日 14時51分 (#262509) 日記
          > 並列させるしかない気がしなくもない

          やはりそうでしょうね。ところで、何でハードディスクのインターフェースが シリアルで高速化しているかというと、同期の問題だそうで、 どちらにせよ同期の問題がネックというのは共通しているように 思えます。

          親コメント
          • Re:要するに (スコア:2, すばらしい洞察)

            by Abendrot (8840) on 2003年02月19日 17時39分 (#262627) 日記
            >同期の問題

            従来のパラレルATA/SCSIは、各ビット間の位相ずれ(スキュー)の影響で今以上に高速化しにくい、という話でした。

            #多芯ケーブルのハンドリングやコストなどももちろんありますが。

            >どちらにせよ同期の問題がネック

            高速インタフェースのビット同期とマルチプロセッサ間の同期というのとは問題が違うんでは?
            タレコミのプロセッサは画像処理向けなので並列処理時の同期問題は比較的小さくできるように思いますが、プレスリリースによると確かにコンパイラの方でも頑張って高速化に寄与しているのでしょうね。
            親コメント
      • by NotEnough (9948) on 2003年02月19日 14時59分 (#262515)
        > CPUのシリアル化ってどういうのを言うのでしたっけ?

        パイプラインやアウトオブオーダ...
        はちょっと違うけど、横(並列)に対して縦(行列)といえなくもない。
        --
        Just a whisper. I hear it in my ghost.
        親コメント
    • low costで data転送の bus幅が増えることがとても大切です。
      特に data間の結合がよわくて同じような計算を多量にする場合は、とても便利です。

      よく processor powerで演算unitの性能だけを見ることがありますが、その演算unitへの I/O性能もまた重要だという良い実例かと。
      designerとしては、data処理において必要な resourceの balanceをとることで cost(経済, 電力, chip面積など)を下げられるというのを忘れないようにしたいですね。

      親コメント
    • 最近の流れとして、I/Oまわりはシリアル化で高速化しているのに、CPU内部ではパラレル化で高速化していくんですね。

      内部のベースクロックが違うからそうなるのは当然ってのは分かるけど、こうして言葉にしてみると不思議な感慨を感じてしまうのは私だけ?
    • by Anonymous Coward
      Transputer [home.ne.jp]使って並列画像処理のプログラムを書いてたことを思い出した
      あの頃はシリコン回路の周波数限界からムーアの法則の危機が予想されて, ガリウム砒素半導体なんかの研究開発がHOTだったな~(遠ひ目)
      #たんなる思ひ出話なのでAC
    • by Anonymous Coward
      10年後、このような超並列演算器型CPUが隆盛を極めてるとしたら、
      あなたのパソコンは痴呆症が始まっていますとか、
      数演算器バカでも交換は致しませんとか、
      言われるようになっているのだろうか?
      • by Jadawin (2174) on 2003年02月19日 20時30分 (#262744) 日記
        バイオ系チップが一般的になって、CPUの数なんて動的に増えたり減ったり
        するのが常識になってたりして。

        ユーザマニュアルに「工場出荷検査時に、CPU検出プロトコルに応じた数は
        規定数(32Kモル)以上ありましたが、お客様の御使用環境によっては、これ
        より増減することがあります。演算速度が急激に遅くなった場合は、少し
        休ませるか栄養剤を補給してCPUの再生を待って下さい」と書いてあるとか。

        #さすがに10年では無理っぽい感じ。
        親コメント
        • by Anonymous Coward
          32kmol = 32 * 10^3 * 6.02 * 10^23 個 = 1.9264 * 10^28
                        = 19,264,000,000,000,000,000,000,000,000 個
          ヨタの次まで逝ってしまいますか
          大脳の神経細胞の数を約100億個、世界の人口を約100億として
          15,000,000,000 * 10,000,000,000 = 1.5 * 10^10 * 10^10 = 1.5 * 10^20 個
          人類の全脳細胞の約10^8=1億倍の個数のCPUがワンチップに・・・
  • by jack_mexfer (3850) on 2003年02月19日 14時22分 (#262490) 日記
    タレコもうと思っていたのでZDNNの記事 [zdnet.co.jp]のリンクっす.
     
    これで,ゴリゴリとべたな画像処理の組み合わせが出来そう.
    ロボットが家庭に入り込むには 物理的には小さくて,(メモリ
    も処理も)大きな規模でプログラマブルなボードが要るなー
    などと思っておりました.
     
    ぜひぜひ アカデミック版ボードも作って>NEC
     
    --
    // jack_mexfer
    • 仕様書を見ると、ピーク性能が51.2GOPSと・・・
      アカデミック版でも円で7桁にゃなりそうな気配がするのですが。

      • >アカデミック版でも円で7桁にゃなりそうな気配がするのですが。

        そんなんじゃあNECのプレスリリースにあったITSにも使えなよー
  • キャッチコピーは (スコア:1, おもしろおかしい)

    by Anonymous Coward on 2003年02月19日 14時13分 (#262484)
    8bitコア*128個で「1024bitCPU」
  • by bushidoh (12670) on 2003年02月19日 17時40分 (#262629)

    • リング状に結合され4Wayのプロセッサと2kbの容量のメモリーが結合されたプロセッシング・エンジン (PE) が合計128個
    • "PEに使用されるプロセッサは、8bitのVLIWプロセッサ


    2bit が 4way の VLIW プロセッサで 8bit PE なのか。8bitプロセッサ が 4way で 32bit PEなのか。32bit x 128 という意味でよろしいか。

    仮に 1clk で処理するとしたら、32bit x 128 x 100MHz = 50GB/s の transport が必要か。8bit としても 1.3GB/s 必要だ。
    • by boo (899) on 2003年02月19日 17時57分 (#262644) 日記
      命令語長とデータ語長が同じである必要な無いのではないかと…

      ところで、コンパイラによる最適化が行いやすく工夫したVLIWの命令体系ってどんなんでしょう。
      今まで碌なのを見たことが無かったので、興味あります。
      --
      あぁ、「ン」が消えてるんですよ。「ビーフン・カレー」ね。
      親コメント
      • by bushidoh (12670) on 2003年02月19日 20時26分 (#262737)
        > 命令語長とデータ語長が同じである必要

        そんな事を言っていませんよ。"4Wayのプロセッサ" プロセッシング・エンジン (PE) が合計128個 " "8bitのVLIWプロセッサ"。 これらの意味について聞いたのです。

        > コンパイラによる最適化が行いやすく工夫したVLIWの命令体系

        変な文章ですね。まるで "コンパイラによる最適化" や "VLIWの命令体系" が主語であるように書かれています。"コンパイラによる最適化が行なわれやすいように工夫されたVLIW 命令体系" という意味でしょうか。
        親コメント
        • ・8bit長のVLIW命令
          ・4命令同時実行可能

          という特徴を持つプロセッサと、2kbのRAMが結合されたプロセッシング・エレメント(PE)が128個という意味で。つうか、引用先くらい読めや

          ついでに、PEはプロセッシング・エンジンじゃなくてエレメントだから訂正よろしく>編集者
          親コメント
        • by Anonymous Coward
          タレコミの冒頭にあるプレスリリースくらいは読めば?
          ページの最後の(注2)に簡単にまとめてあるのだし。
    • by megalith (4791) on 2003年02月19日 20時55分 (#262755)
      8bitの4wayが32個で、4x32=128個ってことじゃないかな。
      で、結合された単位でアクセスするとしたら、
      8bitx32x100MHz = 3.2GB/s?
      親コメント
  • by hi-kin (11760) on 2003年02月19日 21時35分 (#262778)
    PE は「プロセッシング・エンジン」ではなく、「プロセッシング・エレメント」のようです。
    このプロセッサも DAP/DNA のような再構成可能プロセッサの仲間のようですね。
    • by Anonymous Coward
      PEって、並列計算ではごつ普通に使われる略語ですが。
      • by hi-kin (11760) on 2003年02月20日 12時11分 (#263234)
        > PEって、並列計算ではごつ普通に使われる略語ですが。
        ???
        いや、NEC のプレスリリースに、「プロセッシング・エレメント、以下PE」と書いてあるのに、
        タレコミがプロセッシング・エンジンになってるから、指摘したんですが…
        Coarse-Grain な FPGA や再構成可能デバイスでは、
        PE は「プロセッシング・エレメント」の略のことが多いような…
        親コメント
typodupeerror

身近な人の偉大さは半減する -- あるアレゲ人

読み込み中...