パスワードを忘れた? アカウント作成
255223 journal

aitoの日記: 9/15 音響学会2日目 音声A 午前前半まとめ

日記 by aito
音声A 9/15 午前前半

○音声区間検出と木構造辞書における深さを利用した音声認識の高速化(KDDI研)
デコーダの探索において、音声が始まる前に探索候補が増えてしまうことによる計算量増加を抑える。VADによって確定的あるいは確率的に「非音声」と判定されたフレームでは、無音モデル以外にペナルティを加えることによって候補の増加を抑え込む。計算量の削減は数%だが、モノの開発ではこういう地道な改良の積み重ねが効くんだろうなあ。

○割り込み発話に頑健な音声認識エンジンの開発(東芝)
バージインを許容するためにエコーキャンセラ付きの認識システムを作った。技術的には新しくないが、システム開発的におもしろい。適応フィルタはNLMS法。エコーキャンセラの消し残し音声にVADが反応することを防ぐため、適応フィルタへのガイダンス音声入力をVADにも供給して、ガイダンス音声の消し残しが多くなりそうなところでは音声検出を抑制する。「多くなりそう」かどうかの判定はヒューリスティック。VADの誤検出抑制が結構効果的。篠田先生の「ガイダンス音声にウォーターマーキングしたらどうなの」という指摘が面白い(答えとしては、システム化はお客さんがやるので認識エンジン側ではガイダンス音声をコントロールできないと言うもの)。今度それをやってみようかな。騒音が大きいほどVADの誤検出が少ないという指摘も面白かった。

○VADの信頼度を利用した音声認識デコーダの高精度化(東工大)
古井先生。大西さんがGoogleに拉致されたので代理で発表。音声・非音声確率を探索の仮説評価に使う方法を提案していたが、その精度を上げるため、音声・非音声GMMをオンライン適応する。適応手法はMAP。適応データを信頼度で重み付けして利用する。適応の効果は大きく(CSJから音声非音声モデルを作って車内音声を認識しているので)、人手での切り出しに迫る性能。

☆認識単位の異なる認識器から得られた信頼度に基づく音声認識(同志社大)
カーナビの地名認識。N-best候補の一貫性と、異なる認識器の出力の一貫性を特徴量として、認識結果が正解かどうかを識別する。一貫性の測り方は、「同じ単語が含まれているか」「音節の長さの差」など。識別器はSVM。組み合わせる認識器は、文法(単語単位)、N-gram(単語単位)、N-gram(部分単語単位)。識別器の併用によって性能が改善。多数決よりもどの程度よいのか聞いてみたが、まだ実験していないそうだ。
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

身近な人の偉大さは半減する -- あるアレゲ人

読み込み中...