パスワードを忘れた? アカウント作成
255563 journal

aitoの日記: 9/16 音響学会 音声A 午前まとめ

日記 by aito
○音環境コーパスの利用による音声インタフェースの高度化(静岡大)
桐山先生。家庭環境での音声インタフェースが目標。「音環境デザイン」を掲げているけど、騒音振動とか建築音響での音環境デザインとはだいぶ違うものを指している気がする。音声行動コーパス、対話型Web映像ナビゲーションなどの紹介があったが、全体として「音環境デザイン・チューニング」が具体的にどういうことを指しているのか理解できなかった。李先生の的確なつっこみ。

◎発話目的の推定による柔軟なコールセンター対話の検討(東北大)
うちの千葉君が発表。レガシーなIVRをそのまま使って制御ロジックだけ変えると想定外の発話に対しても動くという発想だったのだが、いまいち伝わらなかった気がする。

○ウェブ収集発話に基づく子ども向け対話インタフェースの開発(和歌山大)
声を使った大人・子供の判別。Web上で大規模(約1000名)のデータ収集を行っている。w3voice普及活動の効果かなあ。識別手法はHMMかSVM。12歳か13歳が大人と子供の境目として最適らしい。16歳前後で判別すると、人間の判別性能はF-measure 0.73、HMMで0.67、SVMで0.74。

◎単語断片を含む複数候補の動的構成によるマルチモーダル単語入力インタフェース(静岡大)
音声による単語入力結果から候補を効率よく選ぶためのUIの提案。認識した単語自体、あるいはその一部(「○○市」など)を選択したときの操作回数の期待値を最小化するように提示候補を選ぶ。多段階の絞り込みを前提として候補を提示するというアイデアが新しい。

ここから後半。

☆多言語音声の同時認識における翻訳スコア計算の高速化(龍谷大)
テレビ放送音声や国際会議など、複数言語の対訳音声が流れる状況での方法。同音異義語などの問題を解決するために、副音声の英語も同時に認識し、その翻訳を併せて認識結果を算出する。翻訳確率を求めるための日本語と英語のアラインメントの算出方法に閾値を導入し、計算時間を削減する。どういう状況で有効なのかという相川先生のつっこみ。

○H21年度全国音声翻訳実証実験の概要(NICT)
河井さん。総務省委託で全国5カ所での音声翻訳実証実験の模様。前半はプロジェクト管理の話。実運用に持っていくのは大変だなあ。総発話20万ぐらい。問題のない入力は3~4割。「使いものになる」割合はざっと6割。実環境使用にしてはわりと使えるんだなあという印象。

◎意志決定支援を行う音声対話における強化学習を用いた対話戦略の最適化(NICT)
翠さん。ユーザに会わせた対話応答の生成をするために、対話をしながらユーザタイプを推定する。ユーザタイプを隠れ状態としたPOMDPでモデル化。タスクは京都観光案内。ユーザの知識・嗜好などを表すベクトルをユーザタイプとする。

☆音声認識の信頼度・複数候補を利用したWFSTに基づく対話制御の拡張(NICT)
WFSTに基づく対話制御で、これまでは書き起こしを使って対話制御実験を行ってきたが、実際の認識結果を使った実験を行ってみた。また、当然性能が落ちるので、認識結果の信頼度などを使って頑健性を上げる。発話単位がわからないことによる性能劣化がもっとも大きく、書き起こしから認識結果にすることによる劣化よりも大きい。信頼度などを入れることで少し改善。また、発話境界の推定によってかなり劣化を挽回することができる。

○対話データを用いたPOMDPによる統計的対話制御手法の解析(NTT)
南さん。発話タグtrigramによる対話制御とPOMDPによる対話制御の比較。POMDPの特殊な場合がtrigramとほぼ等価。
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

アレゲは一日にしてならず -- アレゲ見習い

読み込み中...