音響学会3月9日午後音声Aメモ | aitoの日記

aitoの日記：音響学会3月9日午後音声Aメモ 0

日記 by aito 2011年03月09日 21時11分

1-5 音声A「音響特徴量・耐雑音」

◎変動長スペクトル特徴量を用いた朗読音声と歌声の識別（東大）
途中から聴講。変動長スペクトルってなんだろう？音素長の変動の周波数成分だろうか。AdaBoostで識別。

☆調音運動HMMに基づく高精度音素認識の検討（豊橋技科大）
新田研。調音特徴量による音素認識。調音特徴を特徴量としたHMMは、モノフォンについては、混合数が少なく、学習話者が少ない場合にはMFCCよりもよい。HMMの状態数を増やして5状態にしたら、トライフォンでもMFCCに勝った。

○The effect of environmental noise to automatic lip-reading (ATR/CREST)
パニコスさん。ロンバード効果がリップリーディングに及ぼす影響。ロンバード効果があると唇の動きにも変化が起きて、認識性能が下がる。それ用にモデルを作ることで性能が上がる。

○雑音抑圧法とモデル適応法の重み付き組み合わせに基づく耐雑音音声認識手法（NEC）
ウィーナフィルタによる雑音抑圧と雑音に対するモデル適応法（VTS法）を併用。それぞれに重みをつけて近似をすると、1つの重みでWF法とVTS法を同時にコントロールできる。テストはAurora2。0次VTSでは効果があったが、1次VTSの場合にはWFを使わない場合の方がよかった。

音声A「音響モデルI」
◎AdaBoost音素識別器によるNベストリスコアリングの検討（東芝）
大語彙音声認識をやった後に、後処理的に音素識別を行うことで精度を上げる試み。第1パスではLVCSRでNベスト候補を出す。その結果から音素セグメンテーションによって音素と特徴量の対応をとって、識別によって新たなスコアを求め、HMMの尤度と加えて最終的にリスコアリングする。識別特徴量として、セグメント内の特徴量に対してすべてのHMMで出した尤度の組み合わせの差。識別はAdaBoost。

◎Gibbsサンプリングに基づく多重混合ガウス分布モデルの提案と話者クラスタリングへの適用(NTT)
渡部さん。音響モデルでの隠れ変数推定にGibbsサンプリングを行うことを提案。タスクは話者クラスタリングで、各話者をGMMで表現し、それを重み付きで加えて全体の分布を算出するときに、人による重みのモデル化にGibbsサンプリングを使う。MAPよりも局所最適解にはまりにくく、高性能。計算時間はEMの7倍ほど。

◎音響モデル学習のための相対エントロピーを用いた学習文選択手法（東工大）
温泉で聞いた話のような気がする。音響モデル学習のためのコーパス設計。認識精度が低い認識単位を多く含む文を選ぶ。各音素の誤り個数の離散分布と、コーパスの文に含まれる音素の分布のＫＬダイバージェンスが小さい文から逐次獲得する。ランダムに選択するよりもよい。

☆複数のパラメータ共有構造を考慮したベイズ基準による音響モデリングの検討（名工大）
HMMのパラメータ共有構造とパラメータを同時推定するのが目標。従来は共有構造決定とパラメータ推定を交互に行い、DAEMで局所解の問題を回避していたが、パラメータ数の決定問題などがあり理論的に困難。そこでパラメータ共有構造を隠れ変数として、変分ベイズの枠組みですべての推定を行う。DAEM＋ベイズによる構造決定で従来法より1.5ポイントほど向上。ノンパラベイズでやったらどうなのという渡部さんのコメント。

音声A「音響モデルII」
☆HMM音声認識における平均・分散パラメータの共有構造に関する検討（名工大）
HMMのパラメータ共有で、平均と分散の共有構造を別々にしてみた。音声合成においては有効性が示されているらしい。観測系列を、変動のない平均だけの成分と、平均0で変動だけがある成分の和としてモデル化する。最適化は平均と分散を独立にはできないので、両方同時に最適化する枠組みを作った。従来よりほのかに改善。分散の方が推定が難しいので、分散はより共有化される傾向にあるようだ。

○カーネルマシンを内包する音響モデルの高速化に向けた部分空間追跡法（NTT）
従来のHMMの確率出力は低次元特徴＋GMMだが、高次元特徴＋対数線形モデルを使ってみようという発表。そのまま高次元空間でパラメータ推定をすると遅すぎるので、パラメータを低次元に写像してその上でパラメータを求める（要するにカーネル法）方法を使う。そのための方法として、SVM用に提案されたCutting plane subspace persuitを使う。完全には理解できなかったが、おもしろそうだ。

☆日本人英語学習者の発音レベルを考慮した音響モデルに関する検討（東北大）
うちの安斎君が発表。日本人英語の認識の高精度化のために、発音の良さごとに複数のHMMを作って組み合わせるという方法。

◎３ストリームHMMを用いたマルチモーダル音声認識（岐阜大）
田村先生が発表。音声と口唇画像で認識するときに、音声HMMと画像HMMだけでなく、その2つを融合したHMM（特徴量を単に並べてPCA）の3つを使って認識する。パラメータの初期統合と結果統合の両方をやったことに相当すると思われる。雑音が大きいときに性能が向上する。

音声A「音声区間検出」
☆オンライン処理を考慮した条件付き確率場による音声区間検出の検討（名工大）
CRFを使うVADで、オンライン検出を行える方法。素性としてフレーム間の情報を使うと、入力全体の情報が必要なので、直ちに検出をすることができない。提案法では、1フレームの情報を未来の数フレームまで使う方法と、限られたフレーム内で強制的にViterbi探索をする方法の２つを検討。

☆調音特徴を用いた確率モデルに基づくVAD（豊橋技科大）
新田研。調音特徴をVADに利用。調音特徴を抽出するためのニューラルネットの学習に雑音頂上音声を使う。調音特徴の出力から、音声と非音声GMMを使って識別。MFCCには及ばない。

○Using Spectral Fluctuation of Speech in Robust Voice Activity Detection （東大）
嵯峨山研。従来のVADのための特徴量に加えて、スペクトルの変動を特徴として使う。音楽の音源分離に使っていた多段HPSSを使って定常雑音や衝撃性雑音を分離したうえで、残った音に対してMFCCを計算し、それを特徴量に加えてVADを行う。従来法よりも性能が向上。

aitoの日記：音響学会3月9日午後音声Aメモ 0

音響学会3月9日午後音声Aメモ More ログイン

スラド