口まわりの動きをリアルに再現する技術

口まわりの動きをリアルに再現する技術 28

ストーリー by yoosee 2004年03月12日 15時50分
田中邦衛の口元は再現可能? 部門より

Masw. 曰く、 "Japan.internet.comによると、セガが音声解析技術「Magical VEngine（仮）」を開発したそうです。ニュースリリースによると、リアルタイムに入力された音声から感情などの情報を解析し、CG・アニメーションなどの表情付けに反映させることが出来るようになるとのこと。これによって今までどこかしら非人間的な印象の強かった「モデルの演技」はより人間臭さを持てるようになるのでしょうか。"

この議論は賞味期限が切れたので、アーカイブ化されています。新たにコメントを付けることはできません。

記事ページを表示すべてのコメント取得

検索28コメント Log In/Create an Account

タイトルから、重要なものが抜けている気がしますよ・ (スコア:3, 参考になる)

by annoymouse coward (11178) on 2004年03月12日 17時16分 (#513200) 日記

タイトルの「口まわりの動きをリアルに再現する技術」を見て
CGの生成方法と勘違いしてしまいました。
タイトルから、重要なものが抜けている気がします。

これは、音声解析技術です。
音声から顔の表情を獲得する技術であって、
再現する技術ではありません。

セガの公式発表のタイトルも
セガ、リアルタイム音声解析技術を開発 [sega.co.jp]
となっています。
- ツッコミから、重要なものが抜けている気がしますよ・ (スコア:2, 興味深い)
  
  by gesaku (7381) on 2004年03月12日 17時51分 (#513234)
  
  >　顔アニメーションの制作において、発話時における口、及びその
  >周辺の顔の動きをCG・アニメーション上にて再現するためには、音
  >声解析技術が、アニメーションの質の向上、及び作業効率化を図る
  >上で必須の技術とされています。しかし従来の技術は制限が多く、
  >質、作業効率の向上は限定的なものとされてきました。
  >
  >　この度セガは、新たに開発した解析方法を用いることにより、顔
  >アニメーションの制作において、飛躍的な質、作業効率の向上を実
  >現する音声解析技術「Magical VEngine™(仮)」を開発致しました。
  (ニュースリリースより抜粋）
  
  顔アニメーションの制作（技術）の一部として「Magical VEngine(仮)」が
  開発されたわけですから問題ないと思われますが。
  
  例えばこれが単体で作られた場合には確かにタイトルのつけ方に
  問題がありますが、このニュースリリースを読む限りでは
  そうであるとは読み取れません。
  
  むしろこのタイトルのほうがMVEの主用途や開発の背景が
  現れていて良いと思います。
  
  シェア
  
  親コメント
  - McGurk効果 (スコア:2, 参考になる)
    
    by Ragamuffin (14676) on 2004年03月12日 21時48分 (#513379)
    
    音声認知と視覚認知には切り離せない関係があります。
    McGurk（マガーク）効果と呼ばれるものがあります。
    これが顔アニメーションと音声を合わせたときの違和感の原因でしょうね。
    マガーク効果の分析 [chiba-u.ac.jp]から。
    言語知覚は単に耳だけで行われているわけではない。マガークとマクトナルド(McGurk, 1976, MacDonald, 1978)は音素と視覚的情報が食い違っているビデオを作って、このことを証明した。耳の情報と目の情報が食い違うことで、全く新しい第３の音が聞こえてくる。たとえば、口の動きが/ga/というビデオに/ba/という音をダビングした場合、被験者には/da/という音が聞こえる。この効果は年長の研究者であるハリー・マガーク博士の名が付けられた。
    この効果は大変強力で、被験者がこの効果について知っているときでさえ、マガーク効果は起こる。また、マガーク効果は子音、母音、語、そして文など様々なレベルで起こることが証明されている。幼い子供の場合でも起こることが証明されているが、大人の方がより強い効果が現れる。
    ちょっとだけ解説を入れておきますが
    /ga/ や /ba/ は発音記号ではなく音素記号です。
    例えば日本人は [l] と [r] の発音聞き分けが苦手だと言われますが
    これは日本語での音素「ラ」、/ra/ が [ra] と [la] を区別しないからです。
    厳密には日本語のラ行子音は [l] でも [r] でもなくて
    IPA (International Phonetic Alphabet) での
    Latin Small Letter R with Fishhook だったはずです。
    （UnicodeのIPA発音記号の一覧 [nifty.com]を参照ください。）
    弾音であり、英語でタッピングを起こした [t]
    （崩れた [t] や [d] で日本人にはラ行の音に聞こえる）
    と似ていると言われます。
    逆に英語（米語かな）では、崩れていない [ta] と
    タッピングの [ta] の音はとても異なるのに、
    音素 /ta/ を区別していない（ネイティブ話者は区別できない）
    ということになります。
    
    シェア
    
    親コメント
- Re:タイトルから、重要なものが抜けている気がします (スコア:1)
  
  by doctor_d (4392) on 2004年03月12日 18時02分 (#513241) ホームページ
  
  確か、京セラコミュニケーションがASPとして提供していた気がします。
  （なので、これはOEMかも...）
  
  　顔とみなせる絵なら何でも表情が付けられるので
  新幹線の前面写真を話している様にモーフィングしている
  デモを見たことがあります。
  　丁度ライトが目で、台車の辺りが口として動いていました。
  
  　誰か国際フォーラムの展示会で見ていませんか？
  
  シェア
  
  親コメント
  - 「μSCENE SeeStorm Avatar」の事でしょうか (スコア:2, 参考になる)
    
    by marimo (8013) on 2004年03月12日 22時53分 (#513424)
    
    　おそらく、これ [kccs.co.jp]のことではないかと思います。京セラのプレスリリースはこちら [datacenter.ne.jp]です。ITMediaの記事はこちら [itmedia.co.jp]です。
    
    　親コメントの方でも言及されていますが、顔とみなせるものならなんでも対象とできます。これは、顔の目、口、輪郭といった特徴的な部位を検出し、人間の頭部の３Ｄモデルに投影することで、モーフィングする方向、量を判断しているからです。
    　3Dモデルに顔の写真を投影し、モーフィングのパラメータとして利用する手法については、擬人化音声対話エージェントgalatea [u-tokyo.ac.jp]で用いられている手法ですので、こちらを参考にされるとわかりやすいと思います。
    
    　後、SEGAというと、この「Magical VEngine」よりも前に、「Magical Face [sega.jp]」という前身にあたるソフトを作っていて、SIGGRAPH2002で発表しています。
    
    シェア
    
    親コメント
- Re:タイトルから、重要なものが抜けている気がします (スコア:0)
  
  by Anonymous Coward
  
  >CGの生成方法と勘違いしてしまいました。
  こーいうのは LipSync (日本語でいうところの口パク) といって、 CG をちゃんと生成します。3D モデラーなんかのプラグインや SDK などで、既存の画像や３次元モデルとテキストまたは WAV ファイルなどからアニメーションを作成します。LipSync で検索すればたくさんアプリやらプラグインやら見つかります。
次はXbox？ (スコア:2, おもしろおかしい)

by snurf-kim (10835) on 2004年03月12日 16時02分 (#513119) 日記

シーマン「また俺の出番かい？」
想像してごらん (スコア:1, おもしろおかしい)

by Anonymous Coward on 2004年03月12日 15時56分 (#513109)

口の先から肛門までキャプチャされ感情を読み取られる未来
気持ちが悪そうな気もしなくもなく (スコア:1)

by Tig3r (17335) on 2004年03月12日 16時15分 (#513138) 日記

えーと、残念ながらどの番組かは忘却のかなたなので、関連情報を示すことが
できないのですが、というか思い当たる方は教えていただきたいのですが、大昔
のアメリカ産アニメーションで、人物がしゃべるときは必ずアップになり、かつ
その口元だけ実写の口が合成されていた、というものがありました。
(耳の不自由な人への配慮かなと思いますが)

ところが、ほかがアニメ絵(ハンナバーベラ絵?)でリミテッドゆえに秒間数フレーム
なのに口だけフルフレームで動くもんですから、なにやらそこだけ別の生き物に
なったかのように見えて気持ち悪いこと気持ち悪いこと…

現状のモデル等があまりにリアルな口元をすると、こんなことにならないだろうか
とちょっと危惧した次第でした。

# 口元以外も十分にリアルになってるから問題ないのかもしれませんね。

--
-- Tig3r on the hedge
- Re:気持ちが悪そうな気もしなくもなく (スコア:1)
  
  by Tig3r (17335) on 2004年03月12日 16時18分 (#513141) 日記
  
  …すいません、勘違いコメントでした。口元限定ではないですよね。
  # 部門名につられちゃったよっ(顔まねしつつ)
  
  --
  -- Tig3r on the hedge
  
  シェア
  
  親コメント
- Re:気持ちが悪そうな気もしなくもなく (スコア:1)
  
  by snurf-kim (10835) on 2004年03月12日 16時21分 (#513144) 日記
  
  ＞大昔のアメリカ産アニメーションで、人物がしゃべるときは必ずアップになり、かつその口元だけ実写の口が合成されていた、というものがありました。
  
  こういうやつ [google.com]でしょうか？
  実写だから違うと思いますけど。
  
  シェア
  
  親コメント
- Re:気持ちが悪そうな気もしなくもなく (スコア:1)
  
  by Jadawin (2174) on 2004年03月12日 16時21分 (#513146) 日記
  
  頭の片隅から「キャプテン・ファドム」とささやく声がする。
  
  シェア
  
  親コメント
  - Re:気持ちが悪そうな気もしなくもなく (スコア:0)
    
    by Anonymous Coward
    
    「口だけ実写」でググると『キャプテンファドム』はじめいろいろなのが引っかかりますが、
    特にトラウマ度が高いものとして『クラッチ・カーゴ』 [toontracker.com]（冒険王クラッチ）というやつがよく引き合いに出されてます。
- Re:気持ちが悪そうな気もしなくもなく (スコア:1, 参考になる)
  
  by Anonymous Coward on 2004年03月12日 17時03分 (#513188)
  
  >アメリカ産アニメーションで、人物がしゃべるときは必ずアップになり、かつ
  >その口元だけ実写の口が合成されていた、というものがありました。
  
  それは「クラッチカーゴ」だと思います。
  最近でも、カートゥーンネットワークの深夜にやっていたりして、
  ギョッとしますよ。
  ちなみに描画もセルアニメじゃなくて、猫目小僧方式です。
  
  シェア
  
  親コメント
みんなで目黒に行こう (スコア:1)

by nackey (3237) on 2004年03月12日 16時33分 (#513160)

今度東工大大岡山キャンパスである信学会の総合大会(いわゆる全国大会)で発表 [ieice.org]があるようですね。
ネタ元 [itmedia.co.jp]はSOFTBANK GAMESなのですが、電子情報学会ってどの学会?(笑)

正しくは電子情報通信学会
- Re:みんなで目黒に行こう (スコア:1)
  
  by nackey (3237) on 2004年03月12日 16時52分 (#513179)
  
  ニュースリリースに載ってました。
  申し訳ない。
  
  シェア
  
  親コメント
- Re:みんなで目黒に行こう (スコア:0)
  
  by Anonymous Coward
  
  「信学会」って一瞬宗教団体かと錯覚してしまいました。
  
  ＃毎春高齢の脊髄反射
  - Re:みんなで目黒に行こう (スコア:1)
    
    by stosh (4158) on 2004年03月13日 2時15分 (#513542) 日記
    
    s/高齢/恒例/
    
    ＃毎春恒例の校正厨
    
    シェア
    
    親コメント
  - Re:みんなで目黒に行こう (スコア:0)
    
    by Anonymous Coward
    
    昔大学のゼミで長野のほうにスキーに行ったとき、信学会ゼミナールなる看板が大量に立っていて、
    どんな予備校だよ(w
    と大笑いになったことがあったな。
やはり目指すはリアルタイム (スコア:1)

by miri (12057) on 2004年03月13日 8時31分 (#513590) 日記

ゲーム関連で結構前に似たような技術 [impress.co.jp]がありましたね。「音素適応型リップアニメーション」というらしい。
2002年3月の記事ですが、これはリアルタイムではないけど、セガの技術はリアルタイムも可能とのことですので、MMORPG等応用ソフトの登場が期待されます。
もう (スコア:1)

by virtual (15806) on 2004年03月13日 9時51分 (#513618)

この技術 [google.com]は用済みになってしまうのでしょうか？
使い途 (スコア:0)

by Anonymous Coward on 2004年03月12日 16時34分 (#513161)

きっとこの技術が　シェンムー　に生かされるのですね。
- Re:使い途 (スコア:1)
  
  by gesaku (7381) on 2004年03月12日 17時12分 (#513197)
  
  いやいや、バーチャファイターonlineとかが作られて
  ボイスチャットでリアルタイムにキャラクターの表情が変化するとか・・・
  
  もちろんその為のハードとしてドリームキャスト２が作られて（以下略
  
  シェア
  
  親コメント
  - Re:使い途 (スコア:0)
    
    by Anonymous Coward
    
    エロゲでフェ（以下略
    - Re:使い途 (スコア:1)
      
      by gesaku (7381) on 2004年03月12日 17時57分 (#513239)
      
      収録スタジオで声優がどういう表情でエロゲ音声の収録をやってるのか
      見ると萎えますよ。たぶん。
      皆さん結構真面目な顔してああいう声を出すので、このシステムに
      通したらえっちぃ表情の絵にならないかも。
      
      #チュパ音の出し方を知って更に萎(略
      
      シェア
      
      親コメント
もう、ほとんど懐かしいですが (スコア:0)

by Anonymous Coward on 2004年03月12日 23時42分 (#513454)

たぶん、シェンムーで採用された技術の発展形ですね。キャラクターの口の表情が声優の音声に合わせて動くのでリアルさにこだわってていいなぁ、と思いました。
読み (スコア:0)

by Anonymous Coward on 2004年03月13日 18時03分 (#513760)

「マジカルベンジン」?

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

口まわりの動きをリアルに再現する技術 28

口まわりの動きをリアルに再現する技術 More ログイン

タイトルから、重要なものが抜けている気がしますよ・ (スコア:3, 参考になる)

ツッコミから、重要なものが抜けている気がしますよ・ (スコア:2, 興味深い)

McGurk効果 (スコア:2, 参考になる)

Re:タイトルから、重要なものが抜けている気がします (スコア:1)

「μSCENE SeeStorm Avatar」の事でしょうか (スコア:2, 参考になる)

Re:タイトルから、重要なものが抜けている気がします (スコア:0)

次はXbox？ (スコア:2, おもしろおかしい)

想像してごらん (スコア:1, おもしろおかしい)

気持ちが悪そうな気もしなくもなく (スコア:1)

Re:気持ちが悪そうな気もしなくもなく (スコア:1)

Re:気持ちが悪そうな気もしなくもなく (スコア:1)

Re:気持ちが悪そうな気もしなくもなく (スコア:1)

Re:気持ちが悪そうな気もしなくもなく (スコア:0)

Re:気持ちが悪そうな気もしなくもなく (スコア:1, 参考になる)

みんなで目黒に行こう (スコア:1)

Re:みんなで目黒に行こう (スコア:1)

Re:みんなで目黒に行こう (スコア:0)

Re:みんなで目黒に行こう (スコア:1)

Re:みんなで目黒に行こう (スコア:0)

やはり目指すはリアルタイム (スコア:1)

もう (スコア:1)

使い途 (スコア:0)

Re:使い途 (スコア:1)

Re:使い途 (スコア:0)

Re:使い途 (スコア:1)

もう、ほとんど懐かしいですが (スコア:0)

読み (スコア:0)

スラド