パスワードを忘れた? アカウント作成
6797621 journal
日記

aitoの日記: 2012年12月20日 音声言語シンポジウム@東工大まとめ

日記 by aito

10:20-12:00 セッション1 言語モデル・音声対話

・文脈類似度と認識信頼度に基づく音声認識結果の自動語彙適応(NTT)
音声中の未知語の推定と適応。文脈中に現れる可能性が高く、音響的に未知語部分と近い単語を未知語として推定する。また、推定した未知語の出現確率を推定する。文脈類似度(認識結果と未知語の類似度)は、認識結果の文書ベクトルと関連文書の未知語周辺の文の文書ベクトルとのコサイン類似度。音響的な適合度は、その未知語を加えて再認識したときの当該未知語の信頼度を使う。組み合わせは線形結合。未知語確率の推定はクラスn-gramによる。未知語のunigram確率を、関連文書との文脈類似度に比例させる。認識タスクはコールセンター音声。

・方言対訳コーパスを用いた日本語方言音声認識システム(京大)
方言における発音変動と語彙に対応した音声認識。方言コーパスが少ないので、少ない方言コーパスからWFSTを構成し、統計翻訳の枠組みで疑似方言コーパスを生成する。さらに、認識結果を標準語に変換して出力する。実際にやっているのは発音の変換で、しかも音素インベントリは標準語と同じというのが前提。方言発音を考慮するのに、単語表記をクラスとして発音を「単語」とするクラスn-gramを使ったと行っているが、それはふつうの発音モデルじゃないのか。認識対象は関西弁。関西弁音声認識の結果が(適応によって精度が上がっているとはいえ)標準語音声認識に比べるとだいぶ低い。議論が活発だった。

・対話システムにおける単語間の関係性を用いた話題誘導応答文生成(奈良先端)
例の「あらゆる現実をすべて自分の方にねじまげる対話システム」。対話の話題をシステムが意図する方向に強引に持って行く手法。この発表では、現在のユーザ発話から話題を目標の方にねじまげる応答文(話題誘導応答文)の生成を提案。手法はテンプレートベースで、あるキーワードから別なキーワードに誘導するときのテンプレートが定義されている。このときのキーワードペアを抽出するために、概念辞書を利用する方法とWeb検索を利用する方法の2つを検討。また、誘導応答文テンプレートだけでなく、各キーワードを説明する文を用意する。評価は主観評価(自然性)。概念辞書を使い、概念間の関係が近いものだけから文を生成した場合がもっとも自然性が高い(そりゃそうだろう)。また、複数回誘導する場合に、自然性を高く保ちつつ誘導回数が少なくなる方法を検討。「自然性」が何を評価しているのかいまいち明確でない点が気になった。

・説得対話システムにおける話題誘導に基づく対話制御(奈良先端)
ひきつづき説得対話。対話を誘導する際に、説得目標に近く、かつユーザの嗜好にもっともあった話題を選択する。嗜好の推定はベイジアンネットによる。また、説得目標と対立する目標に誘導される話題を避ける。さらに、話題の切り替えを行うために、「ユーザの興味状態」を導入して、同じ話題を提示し続けることを避ける。被験者実験をやっているのだが、どの程度結果が妥当なのか疑問。

13:20-14:20 セッション2 招待講演
・音声・画像情報の融合処理を目指して(有木康雄・神戸大学)
○マルチメディアコンテンツの高次処理
*実世界のマルチメディアコンテンツの構造化・収集・検索・編集
 構造化されていないコンテンツ(映画など)をどう構造化するか
*ニュース映像の構造化:話者インデキシングと音声ディクテーション
 音声によるニュース音声記事の検索
*話者とトピックの統合検索システム
 誰が何を話しているかをキーにする
*テロップと音声の相互検索
*映像編集システム
 ビデオデータベースと映像文法に基づく編集支援
 映像理解と音声認識が必要
○インタラクティブ視覚拡張型放送
*対話型テレビ
 質問できるテレビ
 フロントエンド:ハンズフリー音声認識、ジェスチャ認識
 バックエンド:映像の構造化
        野球中継、放送大学、商品紹介映像
○音声認識とシミュレーション
*英国エジンバラ大CSTR、航空管制の誤り指示検出(1990)
 音声認識+シミュレーションでヒューマンエラーを低減する
○状況認識、コンテキストアウェアネス
 いまテレビで言っている話題を「それ」で参照する
 野球中継の構造と試合状態に依存した認識理解
 サッカー映像の自動撮影
○意図理解
*マルチモーダル発話認識
 顔の特徴点に基づく顔向き補正→口唇による音声認識
 Active Apperance Model
*顔表情と興味度推定
 顔の特徴点→興味度判定(SVM)
*対話の中で自然な学習
 未知物体の検出:ロジスティック回帰による
○画像から音声、音声から画像へ
*因子分解法
*話者認識・話者照合
 直交補空間GMM
*声質変換
*超解像

14:35-15:35 セッション3 招待講演
・Making A Technology Seem Natural (Eric Chang, MSRA)
マイクロソフトアジアのEric ChangによるKinectと人間モデリングの話。
○歯磨きの習慣づけの話。 Cue -> Routine -> Reward->Craving のループ。
○Fast thinking and Slow thinking (すぐわかるものと、考えないとわからないもの)
 自然な物は"fast thinking"
○元々技術は「自然」ではない
 自然に感じる技術は、すでに知っている物に適応
 新しい物を覚えるには強力なrewardが必要

○Kinectの話
 ゲームだけでなく健康管理、販売、科学など様々な領域で使われている。
○Avatar Kinectの紹介
○技術が自然であるためには
*Reliablity: 雑音耐性(マイクロフォンアレイによる音声強調)
○Kinectによる姿勢認識とトラッキング(CVPR2011)
*XBOXで超高速な姿勢認識・トラッキングを行う
*体の部品の認識
 フレームごとの処理、部品ごとに独立な処理、単純な深度画像だけを使う
*パイプライン処理
 背景消去→部品認識→位置推定→姿勢認識
*Mocapデータからの学習データ生成
*特徴量:注目する点とその周辺の点との深度の差の分布
*決定木による認識、生成学習データ量と背有為訂正脳
*骨格の推定
○顔と表情の認識
*望ましい性質:頑健、高精度
*パラメトリックでない推定を行う
 Boosted regression
 従来法よりも2000倍以上高速
○Kinect-based 3D Face Avatar
*あらかじめ用意した3Dモデルをキャプチャ画像にフィッティングして3Dアバタを作る
*画像から毛髪モデルの生成
 単一画像+ユーザによる簡単な指定からモデル生成
*応用
  飛び出すポートレート
  髪型のきせかえ
○音声合成
*言語間・個人化TTS
 ある人の英語音声を元に、その人の声で中国語の音声合成
*トーキングヘッドと個人化TTSの組み合わせ
*音声から音声への翻訳 augmented self
 講演における自動音声翻訳のデモ。英語で話すと本人の声で中国語で翻訳音声が流れる。非常にスムーズ。

15:50-17:30 セッション4 オーガナイズドセッション
・対話ターン中のユーザ状態の推定に有用なモダリティの分析(東北大)
うちの研究室の千葉君。システムの質問を受けたユーザが困っているかどうかの推定。人間によるラベル付けの過程で、人間はユーザ行動のどこを見て状態推定をしていたのかを分析した。

・高精度なマルチモーダル音声認識の実現に向けた取り組み(岐阜大)
田村先生。マルチモーダル音声認識のレビューと、速水研での取り組み。前半はマルチモーダル音声認識のデータベース、特徴量、統合方法などについて。取り組みとして、CENSREC-2-AVの紹介。認識手法(3ストリームHMMなど)。リアルタイムマルチモーダル音声認識システムの開発の話。システムの比較的細かいところまで説明があって参考になる。実際に作成したシステムのデモがあり、割とスムーズに動いていた。

・雑談可能な目的達成型音声対話システム(関西学院大)
タスク指向型の対話システムに雑談機能を付けたらユーザがどう感じるおかを印象評価。タスクは映画のチケット販売。ベースラインは通常のスロットフィリング型の対話だが、特定のキーワードに反応して雑談的発話をするように仕込まれている。タスク指向の部分では、埋めるスロットの順番は固定。ゴーストとしてCGキャラクタを表示する(口パクはない)。主観評価の結果、雑談を交える対話システムの方が「楽しい」「面白い」「人間的」などの評価だったが「使いたい」とは思わない。まあそれはそうだろう。チケット売場で「どうしてその映画を見ようと思ったの」とか聞かれたらなんだこいつと思うよね。

・ELIZA的アプローチによって未知語彙を疑似獲得する音声対話システム(関西学院大)
対話を通じて語彙を獲得しようというアイデア。音声から未知語部分を推定して、その部分の元音声の声質を変えて(サンプリング周波数を変える)応答文に混ぜて応答する。認識文法に音節連鎖を入れておいて、認識時に音節連鎖となった部分を未知語と推定する。獲得がうまく言ったかどうかを実験するのかと思ったら、シナリオで対話させたときの自然性などを主観評価している。なんか目的と評価が一致していないような。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

物事のやり方は一つではない -- Perlな人

読み込み中...