パスワードを忘れた? アカウント作成
10024152 journal
日記

aitoの日記: 9月25日 音響学会1日目 音声A午後後半

日記 by aito

午後-後半(15:15~16:15)[学習モデル・サーチ] 座長 篠崎 隆宏 副座長 倉田 岳人
1-8-10 重みベクトルの適応的正則化手法の発音推定における評価 ☆久保 慶伍,Sakriani Sakti,Graham Neubig,戸田 智基,中村 哲(奈良先端大)
Grapheme-to-phonemeタスク。AROW(Adaptive Regularization of Weights)を構造学習に応用した手法を提案し、それをg2pタスクに適用した結果を報告。MIRA学習に比べて性能は同程度、学習時間は半分程度で済む。また、不正解データが含まれる場合でもその影響を受けにくく、安定に推定ができる。学習アルゴリズム自体の説明は完全には理解できなかった。

1-8-11 重み付き有限状態トランスデューサの構造推定とそのGrapheme-To-Phoneme変換への応用 ○久保 陽太郎,堀 貴明,中村 篤(NTT)
従来のWFSTは、それぞれ単語辞書・言語モデル・音響モデルなどから変換されているが、それぞれは天下りな定義なので、全部合わせたときに最適かどうか定かではない。そこで、WFSTの構造自体も機械学習的に推定する。NU SingaporeのTehによる階層ディリクレ過程を使ったHMM推定手法をWFSTの構造推定に適用。アーク系列のサンプリングのところに少し工夫を入れている。g2pに使ってみたが、計算量が多すぎて十分な性能な性能が出ない。

1-8-12 動的言語モデルを用いるワンパス WFST デコーダ ○堀 貴明,中村 篤(NTT研究所)
WFSTは高速だが、言語モデルなどを少し変更するとモデルの再構築が必要。この発表では、言語モデルをオンライン適応した時に高速にWFSTを再構築する方法。従来のon-the-fly WFSTと同じ枠組みで、適応した言語モデルをWFSTにして、その部分をふたたびon-the-flyで展開してデコーディング。

1-8-13 会話シーン分析の複数人自由会話音声認識におけるディープラーニングの効果 ○堀 貴明,久保 陽太郎,小川 厚徳,荒木 章子,中村 篤(NTT研究所)
以前からNTTでやってる会議の遠隔発話音声認識にDNNを使ってみた。音響モデルにDNNを使うだけでなく、WFST-DNN(WFSTの重みをDNNで学習することによって、WFST全体を最適学習する)も使う。WFST-DNNは出力層が約100万という大規模なもの。WERで6~10ポイント改善。追加学習の効果がGMMベース音響モデルよりもDNNのほうが大きい。WFST-DNNの効果はあるが、それほど大きくない。

午後-後半B(16:30~17:30)[言語モデル] 座長 秋田 祐哉 副座長 土屋 雅稔
1-8-14 誤り率推定器を用いた識別的言語モデルの教師なし学習 ○大庭 隆伸,小川 厚徳,堀 貴明,政瀧 浩和,中村 篤(NTT研究所)
最初に言語モデルを取り巻く状況のレビュー。入力機器は限定的であるのに対し、タスクは多様であり、書き起こしはコストが高いので、それに対処するために様々な取り組みをしている。この発表では、音声だけを使って言語モデルを学習する教師なし学習。認識仮説に対する「誤り率推定器」を推定して、それでオラクル候補を選んで識別的言語モデルを学習する。誤り率推定器は、各単語に「正解」「置換」「挿入」「脱落」の4つのラベルを振る系列ラベル問題をCRFで解く枠組み。認識実験対象はMIT coursewareで認識はGMM-HMM。誤り率推定器も同じデータから推定。パラメータ推定にR2D2を使うと、教師有り学習と近い性能が得られる。

1-8-15 Latent Words Language ModelのViterbi近似による音声認識 ◎増村 亮,大庭 隆伸,政瀧 浩和,吉岡 理,高橋 敏(NTTメディアインテリジェンス研究所)
LWLMは、語彙サイズと同じ数だけクラスがあり、各クラスからあらゆる単語が生成される言語モデル。NTTでは、従来LWLMを通常のN-gramで近似する枠組みを提案していた。提案法では、Viterbi近似によってLWLMを直接利用する方法(近似的)を提案。2パス手法で、1パス目は普通のN-gramを計算してN-best候補を出して、2パス目ではN-best候補に対応する潜在語系列候補を推定したうえで(推定にはGibbsサンプリングを利用)、最終的に潜在語と単語の同時確率を言語スコアとして利用する。In-domainでは2~3ポイント、Out-of-domainでは3~5ポイント改善。言語モデルによる改善としては大きい。

1-8-16 対話音声認識のための話者間のトピック共有に基づく言語モデル教師なし適応 ◎増村 亮,大庭 隆伸,政瀧 浩和,吉岡 理,高橋 敏(NTTメディアインテリジェンス研究所)
対話音声認識のためのトピック言語モデル。対話は話者が二人いるので、従来のトピックモデルでは二人の発話に対するトピックの共通性や話者の立場による単語分布の違いをうまくモデル化できない。ここではコンタクトセンターの対話を対象にして、話者間で共通のトピックからの単語生成と話者の役割からの単語生成を切り替えるモデル(RPDTM)を提案。単語生成がトピック依存なのか話者依存なのかを表す「コンディション変数」を導入。教師なし適応では、二人の発話の認識結果からRPDTMを推定し、それによって二人分のユニグラムを推定したうえで、リスケーリングにより二人分の言語モデルを適応する。性能は微妙に改善。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

一つのことを行い、またそれをうまくやるプログラムを書け -- Malcolm Douglas McIlroy

読み込み中...