7/24 SP&SLP研究会まとめ | aitoの日記

aitoの日記： 7/24 SP&SLP研究会まとめ 0

日記 by aito 2014年07月24日 22時16分

■マルチモーダル（14:00-15:00）
（1）多人数会話における視線情報を用いた話者区間検出
　　　井上昂治，若林佑幸，吉本廣雅，河原達也
ポスターセッション会話のマルチモーダルコーパスで、視線情報を利用してVADを高性能化。視線といいつつ実際はKinectで推定した頭部方向。特徴量は、音源到来方向推定値(MUSIC法による）、視線の先にある対象（視線配布）とその動き。識別は、音響と視線を同時に使うモデル、この2つを独立に使うモデル、ベイズ則によるモデルの３つ（モデルはロジスティック回帰）。評価指標は11ptAP。説明者については画像を使わなくても性能が高いが、聴衆については提案法の方が性能がやや高い（2ポイントぐらい）。どういうところで視線（方向）情報が効いているのかな？「あさっての方角を見ながらしゃべる確率が低い」というのが効いているのだろうか。

（2）口唇の深度画像を用いたマルチモーダル音声認識
　　　押尾翔平，岩野公司，篠田浩一
くちびる周辺のKinectの深度画像を併用する音声認識。Kinect Face Tracking SDKによって顔を検出し、顔の下半分から唇を抽出。縦方向の顔のパーツを表すHMMを作り、それを連結したものを唇の検出に用いる。口唇の特徴量は幅と高さに加えて、凹凸を表す特徴量（唇の断面の深度をPCA圧縮して2番目の次元だけ抽出）を使う。認識はマルチストリームHMM。長母音/o:/と/u:/,子音では/n/や/t/などが改善。

■講演音声認識（15:20-16:50）
（3）講演スライドの文字認識結果を用いた音声認識の改善
　　　童弋正，秋田祐哉，河原達也
講演の映像と録音しかない状態で、スライドの文字を認識して音声認識の言語モデルを改善する。文字認識には富士ゼロックスのTalkMinerを利用。文字認識の再現率は67%ぐらいだが、音声認識辞書に対する未知語の約半分をカバーする（OCRエラーがなくても比率は大して変わらない）。また、重要なキーワードのうち音声認識で誤認識したものがOCR結果で9割近くカバーされる。OCRによる誤認識をフィルタリングするため、認識結果をKyTeaで形態素解析し、記号・未知語を除去。また、文字認識結果に近い新聞記事を持ってきて、その記事とスライドの文字認識結果の両方に含まれる単語だけを抽出する。言語モデル適応として、元の言語モデル(CSJ)・フィルタリングしたスライド文・類似新聞記事を線形補間する。また、スライドに出現した単語のスコアを上げる方法（キャッシュモデル）を使った。OCRを使った認識結果は、正しいスライドテキストを使った結果に比べて1ポイント未満の低下にとどまる。キャッシュモデルはほんのちょっと改善。

（4） Classifier-based Data Selection for Lightly-Supervised Training of Acoustic Model for Lecture Transcription
　　　Sheng Li，Yuya Akita，Tatsuya Kawahara
認識結果から怪しい候補を除いて、それを学習データとして再学習する方法(lightly-supervised training)。この研究では認識結果と字幕の一致度を使う。従来はどれだけ一致するかだけを見ていたが、この方法ではCRFを使って候補が信頼できるかどうかを識別する。識別の特徴は単語n-gram、品詞、TF-IDF、認識の信頼度、単語の継続時間など。識別を階層的にやってるらしい。認識対象はCCLR（中国中央電視台の講演番組コーパス）、100時間超。一部は書き起こしと字幕あり。従来の単純な候補選択に比べてちょっと改善（1ポイント未満）。

(SP-1) 日本語話し言葉音声認識における複数言語モデリング技術併用時の性能評価
増村亮，浅見太一，大庭隆伸，政瀧浩和，阪内澄宇
複数の言語モデリング技術・データ収集技術・教師なし適応技術を全部使うとどうなるかやってみた。利用する技術を、初期デコーディング用、教師なし適応用、リスコアリング用の3つに分類して整理している。デコーダはWFSTで、初期デコーディングに使うのはHPYLM、LWLM、Webを使った学習データ拡張。教師なし適応ではLDAと関連文書検索を使う。リスコアリングにはRNNLMと識別的言語モデルを使う。全部入れてみてどの方法が効くのか、という検討は、思ってはいても実際にやるには馬力がいるので、実行したのは偉い。結果として、データを集めることの効果が大きく、初期デコーディング時に様々な検討を入れると教師なし適応による改善は小さい。RNNによる改善は小さく、DLMでは少ないが一定の効果がある。

■SLP招待講演(17:10-18:10)
（5）残響下音声認識のための音声強調・認識技術：REVERBチャレンジにおけるNTT提案システムについて
デルクロアマーク，木下慶介，吉岡拓也，小川厚徳，久保陽太郎，藤本雅清，伊藤信貴，エスピミケル，堀貴明，中谷智広，中村篤
国際ワークショップReverb Challangeで1位をとったシステムの解説。Reverbチャレンジには音声認識と音声強調のタスクがあり、さまざまな残響時間と定常雑音環境下、さまざまなチャネル数でのカテゴリが用意され、学習・評価データとしてはシミュレーションデータと実録音データが提供されている。2014年は27機関が参加。チャネル数(1-2-8)、学習データ(clean-multicondition-external)、音響モデル(GMM-DNN)の全体傾向。トップシステムでは、まず8チャネルの音声強調をしてから1チャネルの音声強調を行い、そのあと音声認識（DNN、識別学習、システム統合、話者適応、話者クラスタリングなど）を行う。シミュレーションデータと実データの結果の相関は高い。
NTTのシステムについて。最初にWPE法による多チャネル残響除去をした後にMVDRビームフォーマで対象音声だけを拾い、その後でモデルベース雑音抑圧を行っている。音響モデルは残響化音声で学習したDNN-HMM。教師なし環境適応を行う。言語モデルはRNNLM。デモビデオが流されたが、音声強調部だけでもかなりうまく動いている。音声認識の改善でエラー率48.9→22.2%まで下がり、8chマイク＋前処理を全部使うとエラー率9%まで下がる。

■SLP企画（夕食後）
　「音声研究の最新動向：ICASSP2014の発表より」
司会は佐藤庄衛さん。
・最初に篠田先生が概要。DNNがほとんどの分野に入り込んでいて、「とりあえずDNNを使った」という時期は終わりつつある。
・信号処理：太刀岡さん。
　　DNNによるシングルチャネル信号分離。
　　LSTMを使ったRNNによる音声強調。
　　複数のDNNを別のDNNでマージすることで長いコンテキストを考慮する音響モデル。
・DNN学習：篠原さんがとりまとめ。
　　RNNで過去だけでなく未来のユニットの出力も入れる。最終出力だけでなく隠れ層もフィードバックする。
　　Trigraphemeを使うDNN
　　学習高速化。
　　　AveragedSGDにより1～2回の更新でよく収束が速い。
　　　学習が進むとともにデータを間引く(Stochastic Data Sweeping)
　　　GPUを利用するDNNのSGD学習の最適な並列数の理論解析
　　限られた学習データを水増ししてDNNの性能を上げる。VTLNのワーピングパラメータを変えてデータを増やす/fMLLRを利用
　　DNN学習を高速化するために2次の最適化を行う Mean-Normalized Stochastic Gradient
　　分散非同期SGDでシーケンス学習(Google)
　　Convolutional NN と Non-convolutional NN の同時学習
　　GMM-Free DNN training
・耐雑音：増村さんがとりまとめ。
　　SPLICE的なアプローチにHMM音声合成を利用
　　Factorized Adaptation for DNN: 環境要因を音声とは別に入力として与え、最終段の出力をクリーン音声に合わせる
　　雑音音声の特徴強調処理と音響モデルを同時に学習。フロントエンドまでDNNで学習
　　雑音抑圧音声だけでなく、抑圧前の音声や雑音の推定値も入力として与える
　　オートエンコーダで隠れ層のノードに制約を加えて学習する
・適応：松田さんとりまとめ
　　DNNの話者適応。特異値分解に基づいてパラメータを低ランク近似
　　i-Vectorを入力として加えることで話者適応
　　DNNのSAT(standard, stacked SAT)
　　特定の層を話者正規化層として、その層だけを適応
　　DNNとGMMの両方を加えて出力確率を計算。話者適応はGMM部分だけに行う
・言語モデル：堀さんとりまとめ
　　Cache-based RNN: デコーディング時のRNNの計算を高速化して1st passで利用可能にする
　　RNNLMの出力にsoftmax演算が必要ないような拘束をかけて学習する（高速化）
　　マルチドメイン対話でのドメイン分類にRNNを使う（対話履歴をリカレントに入力することで履歴を考慮）
　　言語理解のためのRecurrent CRF
・応用・その他：齋藤さんがとりまとめ
　　モバイル端末で動くコンパクトなDNN(Google)
　　RASR/NN: RWTH NN Toolkit アーヘン工科大のニューラルネットツールキット。オープンソース
　　Small-footprint keyword spotting: "OK Google"をDNNで実現。キーワード単位で出力層を設計
　　LSTMニューラルネットで笑い、フィラー、その他を識別(Nuance)
　　単語のベクトル表現で、ローカルな文脈とグローバルな文脈を両方利用するためのNN
　　DNNによるパラメータ音声合成（全さん）DNNでGMMのパラメータを推定。
　　DNNによる言語識別。セグメントを入力として、フレーム単位で言語を識別するDNNを学習。i-Vectorによる手法を上回る。
　　話者同定。2つのi-Vectorが同一の話者のものかどうかを判定。

aitoの日記： 7/24 SP&SLP研究会まとめ 0

7/24 SP&SLP研究会まとめ More ログイン

スラド