パスワードを忘れた? アカウント作成
306281 journal

aitoの日記: 音響学会3月11日午前音声Aメモ

日記 by aito
9:30~「言語モデル」
○PodCastle:動的トピック混合に基づく教師なし言語モデル適応(産総研)
緒方さん。コンテンツごとに、言語モデルに起因する認識性能の差があり、それが問題。言語資源としてWebニュースを利用する。また、Webニュースについているトピック(経済、スポーツなど)およびサブトピック(野球、モータースポーツなど)を活用する(全部で25種類)。トピックごとに言語モデルを作り、線形補間で重み付き混合する。初期認識結果を使った重みの最適化と再認識。また過去のPodCast認識結果からの言語モデルも加える。重みの最適化に使うテキストは正解書き起こしでも認識結果でも大差ない。2%ぐらい改善。

☆N-gramカウントを用いた言語モデルの効率的な選択学習(東工大)
古井研。パープレキシティ基準で文選択する場合、従来は開発セットのモデルで学習データを評価していたが、この研究では逆に学習データのブロックごとに言語モデルを作り、開発セットを評価してPPが低いものを選ぶ。選択方法はグリーディー。単なるPP基準ではなく、開発セットに含まれるn-gramを含むブロックが選ばれやすいように重みをつける。n^gramにおけるTFIDFみたいなものか。

◎Web上の言語資源を利用した大規模話し言葉データからの言語モデル作成(東北大)
増村君が発表。音声ドキュメント処理ワークショップで話したのと同じ内容。Web上から話し言葉を集めて言語モデルを作るとCSJと同程度の精度のモデルが作れる。プレゼンの中で触れた研究の著者たちからそれぞれつっこみがあった。

☆話し言葉音声認識のためのSTDを利用した語彙推定手法の検討(山梨大)
音声の中で使われている語彙を推定するために、単語検出(STD)の手法を使う。発話ごとにSTDにより単語を検出して、検出された単語を語彙に追加して認識を行う。発話ごとに推定された語彙だけを使って認識をしているらしい。そのため未知語率はかえって増加する。単語検出の対象は元々の認識語彙と同じなので、これは語彙を削減する方法ととらえるべき。

10:45~「衆議院会議録作成システム」
○衆議院会議録作成における音声認識システム-全体の構成と評価-
河原先生。従来の速記による議事録に替えて、音声認識による会議録作成システムを導入した(世界初)。2011年から運用開始。文字認識精度の目標85%。RTF目標1以下。厳格な表記に従うことが必要なので、他のデータソースから学習ができない。このシステムでは、大規模なコーパスを持続的に推定・作成するので、そこから実際の発言内容を確率的に予測し、確率モデルの推定に使う(統計的機械翻訳の枠組みによる)。また準教師付き学習により音響モデルを学習。60会議について作成した会議録で文字正解率89%、RTF0.5。

○衆議院会議録作成における音声認識システム-言語モデル-
秋田先生。衆議院会議録では、用字の問題で他のコーパスが利用できないので、これまでの会議録だけを使って話し言葉用言語モデルを作成する。そのために、話し言葉スタイルへの変換モデルを利用する。最新の内容で変換モデルを作るとN-gramの追加による認識精度が改善する。

○衆議院会議録作成における音声認識システム-音響モデル-
三村さん。統計的言語モデルを利用した準教師付き学習。会議の各ターンの会議録と変換モデルからそのターン専用の言語モデルを作り、それで当該ターンの音声を認識して、その結果により音響モデルを作成する。学習はMCE。VTLNも行う。データを追加することにより、文字正解精度87%を実現。

○衆議院会議録作成における音声認識システム-探索技術-
堀さん。NTTの高速on-the-fly WFSTデコーダ。WFSTへの単語の追加を可能にするために、クラス言語モデルを使う。またWFST再構築を最小限にすることで時間を短縮する。クラスN-gramを単純に使うとWFSTが大きすぎるので、単語からクラスへの変換部分もデコード時にon-the-flyで展開する。ビームをやや狭めにすることで最大RTFを0.6ぐらいにできた。

○衆議院会議録作成における音声認識システム-事前音響処理-
小橋川さん。収録は質問者と答弁者の2チャンネルだが、片方の音声がもう片方に残響として入り込むことに対処する。また、室の変化について対処する。最初に2チャンネルを1チャンネルに統合し、話者クラスタリングによって発話区間を区切る。CMN/CVN/VTLNで音声を正規化し、音響モデルを教師なし話者適応する。VTLNでは高速化のためのモノフォンGMMを利用。教師なし適応でも高速な方法を使う。前処理部分の計算時間は全体の2割ぐらい。
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

吾輩はリファレンスである。名前はまだ無い -- perlの中の人

読み込み中...