パスワードを忘れた? アカウント作成
6808197 journal
日記

aitoの日記: 2012年12月21日 音声言語シンポジウム@東工大まとめ

日記 by aito

9:00 - 10:40 セッション5 音声分析

・EMA計測値のnormalizationの検討 ~ 子音クラスタ調音時の舌運動について ~(広島大/国語研)
研究の目標は、子音クラスタ調音時の母音添加(/st/→/suto/みたいな?)現象の原因が生成の問題なのか知覚の問題なのかを検討することだが、今回はそのために子音クラスタを日本語とドイツ語の母語話者に発声させ、舌の運動を計測した。舌の変異の最大点と最小点の間の距離が発話速度とどう関係しているかを測っているようだったのだが、距離と発話速度の相関は非常に低くて、意味のある計測なのかどうかわからない。また、それを測ることが目的に対してどういう意味があるかもよくわからなかった。

・気導音声と骨導音声を組み合わせた基本周波数抽出(埼玉大)
島村研。F0抽出の耐雑音性能を上げるため、気導音声と骨導音声を組み合わせる。それぞれの音声から抽出したパワースペクトルをべき乗して雑音を抑制した後、2つのスペクトルをかけ算する。調波成分以外は無相関なので、かけ算によって減衰するだろうというアイデア。発表では処理後のスペクトルを時間領域に戻してピーク検出をしていたが、ケプストラム領域だと単純に2つのケプストラムを定数倍して加算していることに相当する。それにどういう意味があるのかよくわからない。

・骨導音声における子音-母音間の相対振幅(埼玉大)
同じく島村研。学生さんのネクタイの締め方がおかしい。母音と子音の振幅の関係が気導音声と骨導音声でどう違うかを調べた。子音を調音様式によって分け、それぞれを子音と母音の相対的な振幅の違いにより3つのクラスに分けている。それはいいんだが、「子音<母音」と「子音母音」ってどう分けているのだろう(と思ったら質疑の時間に小坂賛成が質問した。なんか適当に分けているみたいだ)。定性的な分析のみ。

・音響伝達特性を用いたシングルチャネル音源位置推定における局所的回帰に基づく未学習位置の補間(神戸大)
有木研。単一マイクロホンでの音源位置推定。音源位置ごとに伝達特性を学習し、識別的方法で音源の位置を推定する。この方法では原理的に学習サンプルがある位置のどれかにしか識別できないが、この発表では回帰によって学習サンプルがない位置の推定を行うという方法を提案。音源の方向と伝達特性を線形回帰・非線形回帰によってモデル化して、認識時には推定された伝達特性と伝達特性モデルを使って方向を推定する。回帰分析には局所的回帰(推定点のk近傍のサンプルだけを使って回帰関数を推定する)を使っている。伝達特性の推定にはクリーン音声から推定したHMMを利用する。評価が学習データに対してclosedである場合には非常にうまく行くが、openの場合は(ある程度可能ではあるものの)性能が下がる。回帰方式はSVRがもっとも良い。

10:55 - 11:45 セッション6 音声検索

・複数認識結果を用いて構築したSuffix Arrayに対する音声検索語検出(豊橋技科大)
新田研。サフィックスアレイを用いたSTDにおいて、複数の認識結果を統合することで性能を上げる。やりかたは簡単で、複数の認識による音素列をくっつけて1つの音素列(内容が複数回繰り返されている)を作ってサフィックスアレイを作るだけ。1文に対して同じ単語が複数回検出されるので、重複検出を削除する処理を後処理で行う。単語モデルと音節モデルによる認識結果を組み合わせたところ、再現率が向上。同タスクについての最高性能の方法には及ばない性能だが、速度は高速。同じようにn-best認識結果を統合しても性能は変わらなかった。

・Improving the performance of Letter-To-Phoneme conversion by using Two-Stage Neural Network (Toyohashi U Tech)
新田研。英語の文字列→音素列変換。統計翻訳の枠組み(GIZA++)で文字列と音素列との割り当てを作る。単語の文字列をgraphemeにするのではなくて、1文字ずつを対応する音素(nullを含む)に変換するニューラルネットをまず学習して、その出力を数音素分まとめてもう一度ニューラルネットに入力して最終的な結果を出力する。

13:00 - 14:00 セッション7 招待講演 (3)

・観測経験と体系化作業を通して本質に迫ること(新田恒雄・豊橋技科大/早稲田大)
○最初はクーンのパラダイムシフトの話。
○新田先生のこれまでの研究歴。オーディオ機器→音声言語システム(音声ワープロ、音声合成)→マルチモーダル対話システム→ワンモデル認識合成など
○メディアの体系
 スライド数枚を流す。人類の誕生からネットメディアまで。
○意図を理解し生成するMMIの研究
○マルチモーダル対話の記述言語 XISL
○マルチモーダル対話の味わい
 音声言語・情動によって「重要性」を伝える
  その他 満足度、好意度、etc.
○MMIシステムの標準化、ツール化
 Galatea MMIシステム
○今後の携帯・スマートフォントXISL
 情報ネット社会とマルチモーダル対話 コンテキスト情報から対話をカスタマイズ
 XISLと同等なJavaScriptライブラリの開発
○言語を持つエージェントの知の体系
 ロボットがその場の状況(情景と音声)からタスクを自動推定する昨日の実現(LSA)
○人間の背景
 人間はone-systemかtwo-systemか?
 McGurk効果
○ワンモデル音声認識合成
 話者不変特徴を使う
○局所特徴の抽出
 時間・周波数方向微分→NNによる調音特徴スコア→グラムシュミット直交化
  時間・周波数方向の両方に対して離散化される(プリミティブな音声イベント)
○調音運動HMMによる音声合成
 調音運動→音声、音声→調音運動
○今後
 高性能音素認識
 発音学習
 音声ドキュメント高速検索

14:15 - 15:30 セッション8 音声特徴量
・統計的雑音抑圧法の強調的適用による雑音環境下音声区間検出(日立)
大淵さん。このまえAPSIPAで聞いた内容とほぼ同じ。OM-LSA法による雑音抑圧手法を通常より強力にかけた上で、単純なパワー閾値によるVADを行う。簡単な手法だが性能は従来法よりも高い。雑音抑圧の強調処理なしと比べて21%ぐらいフレーム誤り率を改善。発話単位で見るとあまり性能は上がらず(発話が複数に分かれてしまうなど)、まだチューニングが必要とのこと。

・特徴量領域音源分離のためのクロススペクトル抑圧(名大)
パワースペクトル領域でICAなどの音源分離を行うため、音声と雑音のクロススペクトルをできるだけ0に近づける方法。従来法は時間方向にパワースペクトルの移動平均を取るが、提案法ではそれを複数のマイクロホンの平均に拡張する。実験結果から、パワースペクトル領域ではやや効果があるが、メルフィルタバンク領域ではうまくいかない。

セッション終了後、東大の齋藤さんからSLP音声言語コンペティションのアナウンス。組織化ができていない時点で背水の陣でアナウンスをする度胸は尊敬に値する。PRMUのアルゴリズムコンテストのようなものになる感じ。

15:50 - 17:20 セッション9 ポスターセッション

・波形包絡を用いた音節核の自動抽出とそれを用いた構造的表象による単語獲得プロセスのモデル化の初期検討(東大)
音節核(音節の母音部分)を波形のみから推定して、そこから発話中の母音区間を抽出し、例の構造的表象を作って、それを使って単語認識をする。全部がボトムアップで事前知識が極めて限られているところに意味があるようだ。発表では充分伝わらなかった気もするが。

・Sparse Codingを用いた唇情報からの音声変換(神戸大)
唇の画像情報だけから音声を生成する。Sparse codingを使って唇画像の特徴量の辞書に対する重みを求め、その辞書の唇画像に対応する音声を重み付き和で生成して流す。当然だが生成できるのは母音のみ。

・話者クラス音響モデルを用いた講演音声認識におけるクラスタリング手法の各種検討(山形大)
単一の不特定話者音響モデルではなく、似た声質の話者を集めて作った話者クラス音響モデルを複数作っておき、並列にデコーディングしていいやつを選びましょうというアイデア。話者クラスを作るときには、ハードクラスタリングで話者をどれかのクラスに割り当ててしまうよりも、一人の話者が複数のクラスに属するソフトクラスタリングを使ったほうが良い。

・特徴量強調における教師なし話者適応に関する検討(東大)
GMMを使って特徴量レベルで雑音抑圧を行い(VTS)、それに対して更にMLLR適応することで性能が上がるという発表。話としてはわからなくもないが、雑音抑圧や残響除去は方法がたくさんあるので、それに比べてどうなのかはよくわからなかった。

・音声中の検索語検出における音素トライグラム照合による高速検出法(岩手県立大)
音素トライグラムの転置インデキシングによって発話を予備選択し、選択された発話候補に対して連続DPをかけることでSTDを高速化する。似たようなことを昔やったなあ。

・トピック関連語推定とSTDによる未知語推定の評価(東北大)
うちの研究室の佐藤君。音声ドキュメント中に含まれる未知語の推定。いちど自動書き起こしした内容と類似した文書を選び、その文書に含まれる未知語候補を使ってSTDを行い、話題が似ていて音響的にも出現している可能性の高い単語を選ぼうというアイデア。再現率が高いエリアでは、STDを使わない場合よりも適合率がやや高い。

・シンタックスとセマンティックスに基づく音声認識結果の2段階訂正(神戸大)
音声認識結果の訂正。最初にN-gram特徴(シンタックス)を使って誤り訂正をやってから、セマンティクス(LSA)を使って更に誤り訂正をする。2段階で訂正したほうが、両方の特徴を入れて一度に訂正するより性能が上がる。N-gramとLSAをそれぞれシンタックスとセマンティックスと読んだらNLP方面から怒られそうだ。

・クラスタ選定によるボトムアップ話者ダイアライゼーションの高精度化(名大)
聞きそびれた。

・音声の到来方向により対象言語を切り替える自動通訳システム(NEC)
タブレット端末にマイクを2つつけて、タブレットの両側から話した音声を別々に拾う。タブレットを水平において、その両側庭者がいて自動翻訳を使う想定。単純なアイデアだが、いろいろ面倒なことをするより性能がいいらしい。

・音声ツイートを想定したtwitterクライアントの試作・評価と発話特徴の利用に関する一考察(静岡大)
音声でツイートすると、それを自動で書き起こしてtwitterに投稿。音声自体は独自のSNSに投稿されている。本当の意味でtwitterと連携しているわけではないのが今ひとつ。感情を込めた音声についての認識精度の違い(感情を込めると認識制度が下がる)なども検討しているが、検討が中途半端な感じが否めない。

・Reactive Control of Expressive Speech Synthesis Using Kinect Skeleton Tracking (U Edinburgh)
山岸先生。Kinectを使ってジェスチャーをセンシングし、右手と左手の高さによって合成音声のF0と発話速度をコントロールする。面白いんだけど制御は難しそうだ。それとは別に、タッチパッドを使って制御した合成音声をロック演奏に使うデモを見せてもらった。こちらのほうがどっちかというと面白かった。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

私は悩みをリストアップし始めたが、そのあまりの長さにいやけがさし、何も考えないことにした。-- Robert C. Pike

読み込み中...