パスワードを忘れた? アカウント作成
10660 story

言葉を瞬時に文字化するCPU 84

ストーリー by yoosee
「コンピュータ、スラドに繋いでくれ」 部門より

Anonymous Coward曰く、"asahi.comの記事によると、NECは、話されている言葉を瞬時に文字化できる携帯電話用CPUを開発した。携帯電話の音声操作や、携帯電話での自動翻訳機能の実装を目指す。
記事によると、NECは「音声信号を区切ったそれぞれの言葉の後ろから処理を行い、マッチする言葉の候補を絞りこむ」「3個のCPUで並行処理を行う」等で処理時間を従来の5分の1に短縮した。認識率は約85%。"

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by Anonymous Coward on 2005年08月15日 12時42分 (#781882)
    ヤッターマン コーヒー ライターは
    どのように文書化するのか気になるところ
  • by skimsr (9280) on 2005年08月15日 14時22分 (#781915) ホームページ 日記
    関連情報:NECのプレスリリース(2005/01/26) [nec.co.jp]

    以下は勘ですが,

    • 音声認識処理を並列化可能なブロックに分割する際に,各ブロックの負荷が極端に偏らないように分割すること
    • 各ブロック間で共有すべき情報を共有メモリ上で管理する際のメモリ管理ロジックのデザイン

    あたりが技術的課題となったんじゃないかと想像します。
  • by Anonymous Coward on 2005年08月15日 12時49分 (#781884)
    85%の認識率じゃ、結構な確率で偽装サイトに繋がりそうだなぁ。
  • 何に使うんだ? (スコア:1, おもしろおかしい)

    by Anonymous Coward on 2005年08月15日 12時53分 (#781886)
    >言葉が瞬時に文字化けするCPU
    と空目しちゃっターyo!
  • by Anonymous Coward on 2005年08月15日 12時59分 (#781889)
    PCのような膨大なデータをもてないので、文脈から類推するというのが
    できなさそうな。
    文脈を考慮しないと、音声認識ってほとんど実用にならないですよね。

    まぁそれもいずれメモリの高密度化で解決されるのでしょうが。
    ギガバイト単位のフラッシュメモリを持つのが当たり前になるんでしょうかね、
    将来の携帯電話は。
    • by gigo (21150) on 2005年08月15日 14時23分 (#781916)

      文脈といっても、短い会話だけでは情報の絶対量が足りないよね。翻訳ソフトの結果とか見ると、今のソフトは結構物知りみたいだが、知識が偏ったヘンな人って感じがする。人間の場合は、何年~何十年もかけて蓄積したデータをうまく使って話をしている。会話した相手とその内容、履歴をずっと記憶しておいて、この相手なら今度はこういうことを言いそうだと類推するのだろうが、判断が正しかったかどうか機械に教えて学習させないといけないはずだ。それはどのようなユーザーインターフェースになるんだろう。

      親コメント
      • by Ryo.F (3896) on 2005年08月15日 16時00分 (#781939) 日記
        > 文脈といっても、短い会話だけでは情報の絶対量が足りないよね。

        短い会話だけですむ、ということは、内容がそれだけ単純なのか、文脈が十分に共有されているか、のどちらかではないでしょうか?
        『たほいや』を辞書で引いてもらう、って場合はあまり文脈の共有は無いんでしょうけど、そういう場合は相手が人間であっても、「は?たほ…なに?もう一遍言ってみて」って会話になるんじゃないでしょうか。
        親コメント
        • by GkCker (15170) on 2005年08月16日 13時21分 (#782349)
          >『たほいや』を辞書で引いてもらう、って場合はあまり文脈の共有は無いんでしょうけど、
          >そういう場合は相手が人間であっても、「は?たほ…なに?もう一遍言ってみて」って
          >会話になるんじゃないでしょうか。

          人は、相手が人間の場合はミスに寛容になれますが、相手が機械だと全然寛容になれない
          ということが最大の問題です。
          親コメント
  • by keta (21371) on 2005年08月15日 13時28分 (#781903)
    いろんな国の人と携帯で気軽に話せそうです。
    でも、認識率85%だと日本語OCRと比較してもずいぶん悪いし、
    たぶん丁寧な言葉でないと認識されないだろうし、
    翻訳ソフトの精度の方も機能向上待ちだし、実現はずいぶん先でしょうか。
    • by toworu (27387) on 2005年08月15日 14時17分 (#781913)
      認識率と一口に言っても、”文字認識”か”単語認識”かで違い、単語認識で85%は(他と比べて)悪くは無いと思えます。
      今回のは、認識率を誇るというよりは、携帯電話に内蔵してリアルタイムに使える、というのがミソなのでしょう。
      親コメント
  • by Anonymous Coward on 2005年08月15日 13時58分 (#781910)
    文脈からどうだのぜいたくは言わないから
    一刻も早くPCに取り込んで欲しいのはこういうデバイスだったりする。
    キーボードに慣れちゃったせいで言葉づかいから脳みその使い方から
    どこか変になっている実感が確実にある。
    すでにあるものは一通り試したのだがどうもいかん。
    85%どころの騒ぎじゃなかったし、あまりにリアルタイム性に欠けていた。

    声に出して考えるのとキーボードとマウスで打ちながら考えるのでは
    どちらがよいかは別として全くちがう感覚だろうし
    PCに向き合う際の感覚が増えるというのは実は、
    キーボードでかちゃかちゃやるしかなかったPCが
    マウス中心のGUIになった時くらいの大変革を生むかも
    などと個人的には思っているのだが。
    • Re:一刻も早くPCに (スコア:2, おもしろおかしい)

      by lunatic_sparc (15416) on 2005年08月15日 16時51分 (#781955)
      Windows のオペレーションを音声で行う想像をしてみた。

      複数のファイルをフォルダ間で移す場合:

      「あ。それをつまんで」
      「もっと。そっちのも」
      「そう、そこ」
      「もっと、もっと左の方…」
      「そう。そこへ入れて」
      「あっ、ちがう。そこなくて…」

      なんってのを後ろの席のきれいなおねいさんにやられた日には仕事になりません。
      親コメント
      • by Anonymous Coward on 2005年08月15日 19時01分 (#781988)
        「トジル」、「ヒラク」、「メニュー」など音声でオペレーションするソフトは7年ぐらい前のNECのPCにバンドルされていたと思います。同じ研究所のモノじゃないかな。

        当時は認識率が悪い上に、コンピュータが聞き取りやすいようにテイネイに話さないといけないので苦痛でした(使用前にクセを登録する仕組みだったのに全然役に立たなかった)。
        親コメント
    • Re:一刻も早くPCに (スコア:1, すばらしい洞察)

      by Anonymous Coward on 2005年08月15日 14時24分 (#781917)
      音声入力は、雑音などのせいで正常に判定できない場合に正常に入力されたか確認しなければならないし、ながら入力ができなくる上に使用環境を制限されるのでPCのデバイスとしては一般には普及しない気が。

      #意図しない命令が入りやすい&命令を覚えないとだめとかある悪寒。
      親コメント
    • 確かにViaVoice [scansoft.co.jp]とか、画期的だと思って試したんですが、
      滑舌よく話す必要があったり、誰かがいるところで使えないという心理的な抵抗感が拭いきれませんでした。

      電車など公共の場での携帯電話が、せっかく通話や着信音以外で容認されてきていますが、
      文字入力のために携帯に向かってしゃべっているようでは、傍目に通話と変わらないのでは。
      --
      モデレート したいときには 権利なし
      かつかれー
      親コメント
    • by Anonymous Coward on 2005年08月15日 14時38分 (#781922)
      音声認識による入力・制御、と言うと、
         やっている本人はいいかもしれないが周りから見ると
         「ぶつぶつうるさい奴」「機械に話しかける変な奴」
         でしかない
      という点で実用性に難あり、と思っていました。
       なので、音声認識・制御のPCへの応用に関しては、爆発的な普及はないものの、
      認識精度とスピードがあがれば執筆関係など特定用途には定着していく、
      そんな性格のものと捉えています。

       ただ、携帯電話に関してはそれ自身が「話しかけて使う機械」なので、
      これを突破口として屋外での利用を中心に音声認識・制御が
      広まることもあるかもしれないと、最近思い直しています。
      少なくとも「携帯電話でしゃべっている人間」を見ても、
      すでに「機械に話しかけている変な奴」とは思わないでしょう?

      #夜道で向こうからぶつぶつ言いながら歩いてくるやつは
       間違いなく携帯で話している奴だ。
       もしそうでないと分かったら、その瞬間に俺は逃げるよ。
      親コメント
      • by ruto (17678) on 2005年08月15日 15時07分 (#781927) 日記
        親コメント
      • もしそうでないと分かったら、その瞬間に俺は逃げるよ。

        すいません。debugでハマっている時にロジックのおさらいをしていてぶつぶつ言いながら歩いていることがあります。(^_^;もっとも私の場合、会社敷地内の駐輪場まで。歩きとか電車通勤だったら逃げられそうですね。(笑)

        そういえば20年以上前ですが、「巨人阪神広島、巨人阪神広島」と独り言を言いながら、私の脇を自転車ですり抜けていった人がいました。え?と思って見ていると、突然止まって空を飛んでいる飛行機に手拳銃を向けて「バーン」。再び自転車をこぎだした彼の姿はあっという間にみえなくなりました。

        「あれは何だったんだろうか?」というのは未だに私にとって謎です。

        --
        vyama 「バグ取れワンワン」
        親コメント
    • by greentea (17971) on 2005年08月15日 21時54分 (#782034) 日記
      口語なら音声入力でどうにかなるけど、きっちりした文章なんていきなり喋れといわれても無理じゃないかと。

      おそらく、下書きをキーボードで入力してそれを印刷して、
      紙を見ながら読み上げて認識させるのが一般的なスタイルになるかと思います。
      --
      1を聞いて0を知れ!
      親コメント
  • NECのVrシリーズは携帯向け…ぢゃないよな…
    (新しく携帯向けのVr41xx系を作ったとか?)
    可能性が高いものとしてはV800シリーズかな?
    (V85x+ARMのマルチコアあたり??)
    まさか78Kコアを数百個実装したとか(^^;)
    NECの既存のCPUファミリとは別系統のシリーズになる?
  • 「解析不能。あなたは訛ってます。」とか言われちゃうといやだなぁということ。

    「標準語」とか言う得体の知れない言葉は話せない! という人もけっこう多いと思うんですけど、そのあたりはどうなんでしょうかね。システムに合わせた発音矯正が必要だったりすると本末転倒。
    #博多弁モジュールとか名古屋弁モジュールとかを加える?
  • これでギャートルズの世界 [wikipedia.org]にまた一歩近づいた。
  • NECの音声認識と言えば、つい最近、話し言葉音声認識 [impress.co.jp]を出してましたね。
    そっちの認識率は「70~80%」ということだから、このCPUは話し言葉用じゃないってことでしょうね。

    あと音声認識関連だと、音声認識ベンチャーのアドバンストメディアの株価が凄い [cnet.com]ことに…。
  • by gob (27319) on 2005年08月15日 23時46分 (#782100)
    「キット、裏口へ回せ!」
    「はいマイケル。」

    まだ無理?w
  • by Li-ion (25837) on 2005年08月16日 17時33分 (#782444) 日記
    この技術、早く製品化して欲しいですね。手が不自由な方や、目が不自由な方で点字以外で文書を書きたい方には最高の技術だと思います。
    ただ、一方で速記を職としている方には迷惑かも。

    SF映画のコンピューターと対話するシーンが現実になると言う事ですね。
    人間「コンピュータ、情報103(イチ・マル・サン)を画面に表示せよ」
    コンピュータ「ファイルにパスワードが掛けられています。パスワードを言ってください。
    人間「12345」
    コンピュータ「パスワード一致、ファイルオープン。」

    なんていう、映画のワンシーンを想像しました。

    この記事のタイトル読んだとき「文字化」が「文字化けに」見えてしまった org
    --
    Li-ion DC 1.2V(定格:3.7V) 500mA 乾電池はリサイクルへ
typodupeerror

日本発のオープンソースソフトウェアは42件 -- ある官僚

読み込み中...