パスワードを忘れた? アカウント作成
5502357 journal
日記

aitoの日記: 音声研究会・音声言語情報処理研究会@天童温泉 7月21日まとめ

日記 by aito

雑音下音声認識 (9:00-10:30) 座長:藤本 雅清(NTT)
SLP-11 Wavelet packet decomposition approach to reverberant speech recognition
            ○Randy Gomez and Tatsuya Kawahara (Kyoto Univ.)
音声信号と後期残響を異なるウェーブレットパケット分解で推定し、それぞれの信号を使ったウィナーフィルタで後期残響を抑圧しようという方法。ウェーブレットパケットのBest Basis Selectionはわかるのだが、それがうまいこと音声信号と後期残響で別々になるのがどういう原理によるのかよくわからなかった。性能は従来の方法よりも良いようだ。

SLP-12 帯域に応じた位相判定閾値に基づく音源分離法SAFIAによる機械雑音下音声認識
            ○徳竹 啓佑、川端 豪(関西学院大)
音源分離手法SAFIAを使ってロボットの動作雑音を抑圧する。SAFIAを使うと音声の低域部分をうまく抽出できないので、しきい値を決めて低域の音はそのまま使うようにした。また、櫛形フィルタを使って音声の調波構造を強調する。割とスタンダードな手法のような気がする。

SP-7 雑音環境下における静的・動的情報を用いた音響モデル適応
            ○田村 哲嗣、速水 悟(岐阜大)
音響特徴を静的特徴(MFCCとパワー)、動的特徴(Δ特徴)にわけてマルチストリーム認識を行う枠組み。それぞれのストリームでまず独立にテスト音声認識を行い、認識性能でストリームを並べ替える。次にストリームごとにモデル適応を行うが、認識性能が低いストリームの適応の際には性能が高いストリームも同時に使うところがポイント。適応手法はMAPとMLLR。

高精度音声認識 (11:00-12:30) 座長:駒谷 和範(名大)
SLP-13 Comparison of Discriminative Models for Lexicon Optimization for Speech Recognition
            ○Mijit Ablimit, Tatsuya Kawahara (Kyoto Univ.),
                Askar Hamdulla (Xinjiang Univ.)
ウイグル語の音声認識における発音辞書の最適化の話。ウイグル語は屈折語なので、形態素単位にすると短い語尾が誤りやすい。単語単位と形態素単位で認識した時に、単語だと当たるのに形態素だと間違うケースが3割弱。単純な方法だと、誤った形態素を単語と結合して認識単位にする。この方法でも誤りはだいぶ減る。
提案法では、単語と形態素の特徴からその形態素列が誤りを含んでいるかどうかを推定する識別器を学習し、新しい学習テキストに出現した各単語を構成する形態素列について判定を行う。誤ると判定された形態素列は、くっつけてひとつの認識単位にする。識別機はSVMまたはロジスティック回帰。単純に頻度ベースで形態素を併合する方法と比べて1ポイントぐらい向上。

SLP-14 誤り分析に基づくTBC音素クラスタリングに関する一検討
            ○中村 貴亮、川端 豪(関西学院大)
音響モデル学習の時の音素環境クラスタリングに使う音素コンテキストの質問をいじる研究。音素認識誤りがどのコンテキストの音素で起きているかを調べ、その音素が属しているクラスタを切り出す質問を特定する。そのクラスタをより距離の離れたクラスタに分類しなおすために、アドホックに質問を追加した。音響モデル再学習の結果、音素単位では正解精度0.5%ぐらい上昇。単語単位ではほぼ変わらない。嵯峨山先生から25年前の研究経緯についてのコメントがあったが、どこまで発表者に通じていたのかな。

SP-8 Deep Learningに基づく音声特徴量の有限状態トランスデューサ型識別モデルによる識別
            ○久保 陽太郎、堀 貴明、中村 篤(NTT)
タイトルが全て。最近大流行のDeep Learningを使ったWFST音声認識。WFSTに統合したことで、各アークに対して音響モデルと言語モデルのスコアの和を直接出力するMLPを最適化する枠組みができた。全体同時最適化は難しいので、音響モデルMLPをまず学習して、それをWFSTとして展開したあと、音響モデルの最終段と言語モデル重みを最適化する。評価タスクはTIMITの音素認識。従来のGMMベースの出力確率でWER27%程度のところ、MLPを使って22%、特徴量をフィルタバンクそのままにすると20%、WFST同時最適化をすることでさらにちょっと下がる。ものすごい計算量な気がする。

SP-6 顔画像を用いた個人識別による話者適応型音声認識手法
            ○原 信一,今村 弘樹(創価大)
昨日キャンセルになった発表だが、なんとかリカバーできたらしく(スライドを作り直したのかも)、短時間で発表。個人用音響モデルを用意しておいて、顔認識によって個人識別を行い、その認識した相手の音響モデルを使う。顔画像はViola-Jonesで検出してSURF特徴量で認識。ロボット用途のようだ。顔認識は2m程度の距離から可能とのこと。

昼食(12:30-13:30)

言語モデル (13:30-14:30) 座長:伊藤 彰則(東北大)
SLP-15 日本語ユーザ発話を用いた英語音声対話システム用統計的言語理解部の準教師つき学習
            ○翠 輝久、水上 悦雄、柏岡 秀紀(NICT)
京都観光案内対話の言語理解部。統計的言語理解なので学習データがたくさん必要。そこで、ある対話システムを多言語に移植するときに、元言語(日本語)の学習データを使って移植先言語の統計的言語理解モデルと学習する。従来はパラレルコーパスとアノテーション付きコーパスを使っていたのだが、この研究ではどちらも使わない。システム利用時の実際の音声認識結果と機械翻訳を使って言語移植を行う。対象は日本語から英語。基本的な考え方は、認識結果とその自動アノテーション結果、および認識結果の自動翻訳結果を学習データとして使う。認識誤り、翻訳誤りの影響をいかに抑えるかが問題。誤りデータを除去するために、折り返し翻訳結果を言語理解したものが元と同じになるかどうかを指標にする。概念抽出(Named Entityの抽出など)はCRF、発話意図抽出はCRF。誤りデータを除くことで、人手による書き起こしを使う場合と同程度の理解性能を得ることができる。日本語の理解部があるということはその学習データがあるので、それも使えばいいのにと思った。

SLP-16 大規模コーパスへのクラス付与に基づく音声対話システム用言語モデルの構築
            ◯森 祥二郎、駒谷 和範、佐藤 理史(名古屋大)
データベース検索型(レストラン検索とか)の音声対話。言語モデルは対象データベース内の単語をカバーする必要があるが、そんな都合の良いコーパスはないのでなんとかする。そこで、検索対象DB、対象ドメインの少数の文、および類似ドメインの大量の文(Yahoo知恵袋とか)を使ってクラスn-gram言語モデルを作る。類似ドメイン文を利用するために単語や単語列へのクラス付与が必要。クラス付与のために機械学習を使うので、少数の文を種にしてブートストラップ開発を行う。機械学習はMaxEnt。クラスは4クラス(場所、駅、食べ物、料理ジャンル)+非内容語。クラスの付与誤りもあるが、音声認識の性能には悪影響はない。Yahooの文が結構多い割にはクラスになる単語が少ない気がする。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

あと、僕は馬鹿なことをするのは嫌いですよ (わざとやるとき以外は)。-- Larry Wall

読み込み中...