パスワードを忘れた? アカウント作成
255031 journal

aitoの日記: 9/14 音響学会1日目 音声A(午後前半)まとめ

日記 by aito
音声A 午後前半

○雑音混入音声の特徴空間における軌道を考慮した音声認識(北大)
聞きそびれた。

◎残響と騒音が存在する環境で最適な音響モデルの作成法(三菱電機)
雑音と残響が両方ある環境での音響モデル作成のためのデータはどういうものがいいか調べた。当然というか、雑音と音響が両方含まれたデータを使った場合がベスト。雑音と残響が両方含まれていれば、SNが多少違っていても効果がある。残響入りモデルを使っていても、前処理に残響除去を入れた方が性能が上がる。残響除去を使うなら、学習に残響除去音声を使った方が性能が上がるんじゃないだろうか。鹿野先生とかそういうのやってなかったっけか。

○Quinphone HM-Netに基づく講演音声認識(山形大)
加藤さん。D論の関係研究なので私も連名。複数のQuinphone(状態数とかが違う)をそれぞれ使ってデコーディングした単語グラフを統合して最終的な結果を得る。グラフ統合によって、単独条件のQuinphoneの中から事後的に最適なモデルを選んだ場合よりも性能が高い。さまざまなQuinphoneを用意する動機を「話速への対応」というのはいかがなものか、という意見が古井先生から出た。河原先生からは、状態数の違うQuinphoneを併せてよくなるのが理解できないという突っ込み。

○WFSTを利用した構造化データの線形分類に基づく大語彙連続音声認識(NTT)
渡部さん。WFSTのデコーディングを、超高次元空間での線形識別として定式化。実際にはWFSTネットワークは膨大すぎるので、bigramとtrigramを除いたネットワークを使い、on-the-flyデコーディングを行う。線形分類器の学習アルゴリズムはDistributed perceptron。富豪的方法。
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

あと、僕は馬鹿なことをするのは嫌いですよ (わざとやるとき以外は)。-- Larry Wall

読み込み中...