パスワードを忘れた? アカウント作成
258915 journal

aitoの日記: 9/28 Tue-ses2-O1: ASR: Language Modeling

日記 by aito
Decoding with Shrinkage-Based Language Models (IBM)
最大エントロピーベースのクラスモデルであるModel M をデコーディングに直接使った。(MaxEntベースなので直接デコーディングに使うのは難しく、これまではN-best rescoringのみだった)PPでは16~40%改善。WER改善は0.3%ぐらい。音声翻訳に使ったところ、BLEUで0.8~1.1ぐらい改善。

Enhanced Word Clustering with Model M (IBM)
おなじくModel Mについての発表。従来はクラスタリングによって単語クラスを求めてからModel Mのパラメータ推定を行っていたが、Model Mに合ったクラスタリングをするという話らしい。クラスタリングの基準をいままでと変えているようだったが、よくわからなかった。単語クラスタリング結果の例では、より妥当そうなクラスが獲得できていた。

Improved Neural Network Based Language Modeling and Adaptation (U. Cambridge)
ニューラルネット言語モデルの適応。単語をベクトルで表して3層ニューラルネットで表現するのが基本で、語彙(shortlist)サイズは小さいので最後にN-gramと線形補間する。ニューラルネットの語彙に入らない(Out-of-Shortlist)ことをあらわす入力ユニットを使う。適応をするために、3層ネットワークの中間層の次に適応のためのユニットを入れて4層にする。デコーディング時には、いったんラティスを吐いて、そこから適応した後ラティスから複数候補を生成し、それを併せてコンセンサスネットワークを作って、そこから候補を最終的に選ぶ。OOSノードと適応でPPは下がるが、WERの改善はわずか。

Recurrent Neural Network Based Language Model (Brno U of Tech)
RNNを使った言語モデルだが、実現方法が今一つ理解できなかった。過去の中間層出力を入力にフィードバックするので、ダイナミックな適応が可能になるという割には、結果はスタティックなネットワークに比べて良くない。通常のN-gramとの組み合わせで、WSJでWERが2%ほど改善。音声翻訳に利用するとBLEUが1.7ほど向上。最後に、これまで提案された様々なモデル(Kneser-Nay 5-gram, Structured LM, Random Forest LM, RNN LM)を組み合わせた全部入り言語モデルを作り、PPが140から85ぐらいまで低下。

Discriminative Language Modeling Using Simulated ASR Errors (Ohio State U)
音声データを使わずに識別的言語モデルを学習する。WFSTを使うことで、音素間の誤認識確率を含んだ音素グラフが得られる。誤認識確率はHMMの状態間距離から推定する。WERの改善は1.2%ぐらいだが、実音声を使って学習した場合とほとんど同じ。

Learning a Language Model from Continuous Speech (Kyoto U)
Neubigさん。7月のSLPで聞いたのと同じ話。WFSTとPitman-Yor過程を使って、連続音声の音素認識・単語分割・N-gram学習を同時に行う。
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

開いた括弧は必ず閉じる -- あるプログラマー

読み込み中...