口まわりの動きをリアルに再現する技術 28
ストーリー by yoosee
田中邦衛の口元は再現可能? 部門より
田中邦衛の口元は再現可能? 部門より
Masw. 曰く、 "Japan.internet.comによると、セガが音声解析技術「Magical VEngine(仮)」を開発したそうです。 ニュースリリースによると、リアルタイムに入力された音声から感情などの情報を解析し、CG・アニメーションなどの 表情付けに反映させることが出来るようになるとのこと。 これによって今までどこかしら非人間的な印象の強かった「モデルの演技」はより人間臭さを持てるようになるのでしょうか。"
タイトルから、重要なものが抜けている気がしますよ・ (スコア:3, 参考になる)
CGの生成方法 と勘違いしてしまいました。
タイトルから、重要なものが抜けている気がします。
これは、音声解析技術です。
音声から顔の表情を獲得する技術であって、
再現する技術ではありません。
セガの公式発表のタイトルも
セガ、リアルタイム音声解析技術を開発 [sega.co.jp]
となっています。
ツッコミから、重要なものが抜けている気がしますよ・ (スコア:2, 興味深い)
>周辺の顔の動きをCG・アニメーション上にて再現するためには、音
>声解析技術が、アニメーションの質の向上、及び作業効率化を図る
>上で必須の技術とされています。しかし従来の技術は制限が多く、
>質、作業効率の向上は限定的なものとされてきました。
>
> この度セガは、新たに開発した解析方法を用いることにより、顔
>アニメーションの制作において、飛躍的な質、作業効率の向上を実
>現する音声解析技術「Magical VEngine™(仮)」を開発致しました。
(ニュースリリースより抜粋)
顔アニメーションの制作(技術)の一部として「Magical VEngine(仮)」が
開発されたわけですから問題ないと思われますが。
例えばこれが単体で作られた場合には確かにタイトルのつけ方に
問題がありますが、このニュースリリースを読む限りでは
そうであるとは読み取れません。
むしろこのタイトルのほうがMVEの主用途や開発の背景が
現れていて良いと思います。
McGurk効果 (スコア:2, 参考になる)
McGurk(マガーク)効果と呼ばれるものがあります。
これが顔アニメーションと音声を合わせたときの違和感の原因でしょうね。
マガーク効果の分析 [chiba-u.ac.jp]から。 ちょっとだけ解説を入れておきますが
/ga/ や /ba/ は発音記号ではなく音素記号です。
例えば日本人は [l] と [r] の発音聞き分けが苦手だと言われますが
これは日本語での音素「ラ」、/ra/ が [ra] と [la] を区別しないからです。
厳密には日本語のラ行子音は [l] でも [r] でもなくて
IPA (International Phonetic Alphabet) での
Latin Small Letter R with Fishhook だったはずです。
(UnicodeのIPA発音記号の一覧 [nifty.com]を参照ください。)
弾音であり、英語でタッピングを起こした [t]
(崩れた [t] や [d] で日本人にはラ行の音に聞こえる)
と似ていると言われます。
逆に英語(米語かな)では、崩れていない [ta] と
タッピングの [ta] の音はとても異なるのに、
音素 /ta/ を区別していない(ネイティブ話者は区別できない)
ということになります。
Re:タイトルから、重要なものが抜けている気がします (スコア:1)
(なので、これはOEMかも...)
顔とみなせる絵なら何でも表情が付けられるので
新幹線の前面写真を話している様にモーフィングしている
デモを見たことがあります。
丁度ライトが目で、台車の辺りが口として動いていました。
誰か国際フォーラムの展示会で見ていませんか?
「μSCENE SeeStorm Avatar」の事でしょうか (スコア:2, 参考になる)
親コメントの方でも言及されていますが、顔とみなせるものならなんでも対象とできます。これは、顔の目、口、輪郭といった特徴的な部位を検出し、人間の頭部の3Dモデルに投影することで、モーフィングする方向、量を判断しているからです。
3Dモデルに顔の写真を投影し、モーフィングのパラメータとして利用する手法については、擬人化音声対話エージェントgalatea [u-tokyo.ac.jp]で用いられている手法ですので、こちらを参考にされるとわかりやすいと思います。
後、SEGAというと、この「Magical VEngine」よりも前に、「Magical Face [sega.jp]」という前身にあたるソフトを作っていて、SIGGRAPH2002で発表しています。
Re:タイトルから、重要なものが抜けている気がします (スコア:0)
こーいうのは LipSync (日本語でいうところの口パク) といって、 CG をちゃんと生成します。3D モデラーなんかのプラグインや SDK などで、既存の画像や3次元モデルとテキストまたは WAV ファイルなどからアニメーションを作成します。LipSync で検索すればたくさんアプリやらプラグインやら見つかります。
次はXbox? (スコア:2, おもしろおかしい)
想像してごらん (スコア:1, おもしろおかしい)
気持ちが悪そうな気もしなくもなく (スコア:1)
できないのですが、というか思い当たる方は教えていただきたいのですが、大昔
のアメリカ産アニメーションで、人物がしゃべるときは必ずアップになり、かつ
その口元だけ実写の口が合成されていた、というものがありました。
(耳の不自由な人への配慮かなと思いますが)
ところが、ほかがアニメ絵(ハンナバーベラ絵?)でリミテッドゆえに秒間数フレーム
なのに口だけフルフレームで動くもんですから、なにやらそこだけ別の生き物に
なったかのように見えて気持ち悪いこと気持ち悪いこと…
現状のモデル等があまりにリアルな口元をすると、こんなことにならないだろうか
とちょっと危惧した次第でした。
# 口元以外も十分にリアルになってるから問題ないのかもしれませんね。
-- Tig3r on the hedge
Re:気持ちが悪そうな気もしなくもなく (スコア:1)
# 部門名につられちゃったよっ(顔まねしつつ)
-- Tig3r on the hedge
Re:気持ちが悪そうな気もしなくもなく (スコア:1)
こういうやつ [google.com]でしょうか?
実写だから違うと思いますけど。
Re:気持ちが悪そうな気もしなくもなく (スコア:1)
Re:気持ちが悪そうな気もしなくもなく (スコア:0)
特にトラウマ度が高いものとして『クラッチ・カーゴ』 [toontracker.com](冒険王クラッチ)というやつがよく引き合いに出されてます。
Re:気持ちが悪そうな気もしなくもなく (スコア:1, 参考になる)
>その口元だけ実写の口が合成されていた、というものがありました。
それは「クラッチカーゴ」だと思います。
最近でも、カートゥーンネットワークの深夜にやっていたりして、
ギョッとしますよ。
ちなみに描画もセルアニメじゃなくて、猫目小僧方式です。
みんなで目黒に行こう (スコア:1)
ネタ元 [itmedia.co.jp]はSOFTBANK GAMESなのですが、電子情報学会ってどの学会?(笑)
正しくは電子情報通信学会
Re:みんなで目黒に行こう (スコア:1)
申し訳ない。
Re:みんなで目黒に行こう (スコア:0)
#毎春高齢の脊髄反射
Re:みんなで目黒に行こう (スコア:1)
#毎春恒例の校正厨
Re:みんなで目黒に行こう (スコア:0)
やはり目指すはリアルタイム (スコア:1)
2002年3月の記事ですが、これはリアルタイムではないけど、セガの技術はリアルタイムも可能とのことですので、MMORPG等応用ソフトの登場が期待されます。
もう (スコア:1)
使い途 (スコア:0)
Re:使い途 (スコア:1)
ボイスチャットでリアルタイムにキャラクターの表情が変化するとか・・・
もちろんその為のハードとしてドリームキャスト2が作られて(以下略
Re:使い途 (スコア:0)
Re:使い途 (スコア:1)
見ると萎えますよ。たぶん。
皆さん結構真面目な顔してああいう声を出すので、このシステムに
通したらえっちぃ表情の絵にならないかも。
#チュパ音の出し方を知って更に萎(略
もう、ほとんど懐かしいですが (スコア:0)
読み (スコア:0)