パスワードを忘れた? アカウント作成
7728 story

口まわりの動きをリアルに再現する技術 28

ストーリー by yoosee
田中邦衛の口元は再現可能? 部門より

Masw. 曰く、 "Japan.internet.comによると、セガが音声解析技術「Magical VEngine(仮)」を開発したそうです。 ニュースリリースによると、リアルタイムに入力された音声から感情などの情報を解析し、CG・アニメーションなどの 表情付けに反映させることが出来るようになるとのこと。 これによって今までどこかしら非人間的な印象の強かった「モデルの演技」はより人間臭さを持てるようになるのでしょうか。"

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • タイトルの「口まわりの動きをリアルに再現する技術」を見て
    CGの生成方法 と勘違いしてしまいました。
    タイトルから、重要なものが抜けている気がします。

    これは、音声解析技術です。
    音声から顔の表情を獲得する技術であって、
    再現する技術ではありません。

    セガの公式発表のタイトルも
    セガ、リアルタイム音声解析技術を開発
    [sega.co.jp]
    となっています。
    • > 顔アニメーションの制作において、発話時における口、及びその
      >周辺の顔の動きをCG・アニメーション上にて再現するためには、音
      >声解析技術が、アニメーションの質の向上、及び作業効率化を図る
      >上で必須の技術とされています。しかし従来の技術は制限が多く、
      >質、作業効率の向上は限定的なものとされてきました。
      >
      > この度セガは、新たに開発した解析方法を用いることにより、
      >アニメーションの制作において、飛躍的な質、作業効率の向上を実
      >現する
      音声解析技術「Magical VEngine™(仮)」を開発致しました。
      (ニュースリリースより抜粋)

      顔アニメーションの制作(技術)の一部として「Magical VEngine(仮)」が
      開発されたわけですから問題ないと思われますが。

      例えばこれが単体で作られた場合には確かにタイトルのつけ方に
      問題がありますが、このニュースリリースを読む限りでは
      そうであるとは読み取れません。

      むしろこのタイトルのほうがMVEの主用途や開発の背景が
      現れていて良いと思います。
      親コメント
      • McGurk効果 (スコア:2, 参考になる)

        by Ragamuffin (14676) on 2004年03月12日 21時48分 (#513379)
        音声認知と視覚認知には切り離せない関係があります。
        McGurk(マガーク)効果と呼ばれるものがあります。
        これが顔アニメーションと音声を合わせたときの違和感の原因でしょうね。
        マガーク効果の分析 [chiba-u.ac.jp]から。
        言語知覚は単に耳だけで行われているわけではない。マガークとマクトナルド(McGurk, 1976, MacDonald, 1978)は音素と視覚的情報が食い違っているビデオを作って、このことを証明した。耳の情報と目の情報が食い違うことで、全く新しい第3の音が聞こえてくる。たとえば、口の動きが/ga/というビデオに/ba/という音をダビングした場合、被験者には/da/という音が聞こえる。この効果は年長の研究者であるハリー・マガーク博士の名が付けられた。
        この効果は大変強力で、被験者がこの効果について知っているときでさえ、マガーク効果は起こる。また、マガーク効果は子音、母音、語、そして文など様々なレベルで起こることが証明されている。幼い子供の場合でも起こることが証明されているが、大人の方がより強い効果が現れる。
        ちょっとだけ解説を入れておきますが
        /ga/ や /ba/ は発音記号ではなく音素記号です。
        例えば日本人は [l] と [r] の発音聞き分けが苦手だと言われますが
        これは日本語での音素「ラ」、/ra/ が [ra] と [la] を区別しないからです。
        厳密には日本語のラ行子音は [l] でも [r] でもなくて
        IPA (International Phonetic Alphabet) での
        Latin Small Letter R with Fishhook だったはずです。
        UnicodeのIPA発音記号の一覧 [nifty.com]を参照ください。)
        弾音であり、英語でタッピングを起こした [t]
        (崩れた [t] や [d] で日本人にはラ行の音に聞こえる)
        と似ていると言われます。
        逆に英語(米語かな)では、崩れていない [ta] と
        タッピングの [ta] の音はとても異なるのに、
        音素 /ta/ を区別していない(ネイティブ話者は区別できない)
        ということになります。
        親コメント
    • 確か、京セラコミュニケーションがASPとして提供していた気がします。
      (なので、これはOEMかも...)

       顔とみなせる絵なら何でも表情が付けられるので
      新幹線の前面写真を話している様にモーフィングしている
      デモを見たことがあります。
       丁度ライトが目で、台車の辺りが口として動いていました。

       誰か国際フォーラムの展示会で見ていませんか?
      親コメント
      • by marimo (8013) on 2004年03月12日 22時53分 (#513424)
         おそらく、これ [kccs.co.jp]のことではないかと思います。京セラのプレスリリースはこちら [datacenter.ne.jp]です。ITMediaの記事はこちら [itmedia.co.jp]です。

         親コメントの方でも言及されていますが、顔とみなせるものならなんでも対象とできます。これは、顔の目、口、輪郭といった特徴的な部位を検出し、人間の頭部の3Dモデルに投影することで、モーフィングする方向、量を判断しているからです。
         3Dモデルに顔の写真を投影し、モーフィングのパラメータとして利用する手法については、擬人化音声対話エージェントgalatea [u-tokyo.ac.jp]で用いられている手法ですので、こちらを参考にされるとわかりやすいと思います。

         後、SEGAというと、この「Magical VEngine」よりも前に、「Magical Face [sega.jp]」という前身にあたるソフトを作っていて、SIGGRAPH2002で発表しています。
        親コメント
    • >CGの生成方法 と勘違いしてしまいました。
      こーいうのは LipSync (日本語でいうところの口パク) といって、 CG をちゃんと生成します。3D モデラーなんかのプラグインや SDK などで、既存の画像や3次元モデルとテキストまたは WAV ファイルなどからアニメーションを作成します。LipSync で検索すればたくさんアプリやらプラグインやら見つかります。
  • 次はXbox? (スコア:2, おもしろおかしい)

    by snurf-kim (10835) on 2004年03月12日 16時02分 (#513119) 日記
    シーマン「また俺の出番かい?」
  • 想像してごらん (スコア:1, おもしろおかしい)

    by Anonymous Coward on 2004年03月12日 15時56分 (#513109)
    口の先から肛門までキャプチャされ感情を読み取られる未来
  • えーと、残念ながらどの番組かは忘却のかなたなので、関連情報を示すことが
    できないのですが、というか思い当たる方は教えていただきたいのですが、大昔
    のアメリカ産アニメーションで、人物がしゃべるときは必ずアップになり、かつ
    その口元だけ実写の口が合成されていた、というものがありました。
    (耳の不自由な人への配慮かなと思いますが)

    ところが、ほかがアニメ絵(ハンナバーベラ絵?)でリミテッドゆえに秒間数フレーム
    なのに口だけフルフレームで動くもんですから、なにやらそこだけ別の生き物に
    なったかのように見えて気持ち悪いこと気持ち悪いこと…

    現状のモデル等があまりにリアルな口元をすると、こんなことにならないだろうか
    とちょっと危惧した次第でした。

    # 口元以外も十分にリアルになってるから問題ないのかもしれませんね。
    --
    -- Tig3r on the hedge
  • by nackey (3237) on 2004年03月12日 16時33分 (#513160)
    今度東工大大岡山キャンパスである信学会の総合大会(いわゆる全国大会)で発表 [ieice.org]があるようですね。
    ネタ元 [itmedia.co.jp]はSOFTBANK GAMESなのですが、電子情報学会ってどの学会?(笑)

    正しくは電子情報通信学会
  • ゲーム関連で結構前に似たような技術 [impress.co.jp]がありましたね。「音素適応型リップアニメーション」というらしい。
    2002年3月の記事ですが、これはリアルタイムではないけど、セガの技術はリアルタイムも可能とのことですので、MMORPG等応用ソフトの登場が期待されます。
  • by virtual (15806) on 2004年03月13日 9時51分 (#513618)
    この技術 [google.com]は用済みになってしまうのでしょうか?
  • by Anonymous Coward on 2004年03月12日 16時34分 (#513161)
    きっとこの技術が シェンムー に生かされるのですね。
    • by gesaku (7381) on 2004年03月12日 17時12分 (#513197)
      いやいや、バーチャファイターonlineとかが作られて
      ボイスチャットでリアルタイムにキャラクターの表情が変化するとか・・・

      もちろんその為のハードとしてドリームキャスト2が作られて(以下略
      親コメント
      • by Anonymous Coward
        エロゲでフェ(以下略
        • by gesaku (7381) on 2004年03月12日 17時57分 (#513239)
          収録スタジオで声優がどういう表情でエロゲ音声の収録をやってるのか
          見ると萎えますよ。たぶん。
          皆さん結構真面目な顔してああいう声を出すので、このシステムに
          通したらえっちぃ表情の絵にならないかも。

          #チュパ音の出し方を知って更に萎(略
          親コメント
  • by Anonymous Coward on 2004年03月12日 23時42分 (#513454)
    たぶん、シェンムーで採用された技術の発展形ですね。 キャラクターの口の表情が声優の音声に合わせて動くので リアルさにこだわってていいなぁ、と思いました。
  • by Anonymous Coward on 2004年03月13日 18時03分 (#513760)
    「マジカル ベンジン」?
typodupeerror

Stableって古いって意味だっけ? -- Debian初級

読み込み中...