パスワードを忘れた? アカウント作成
9586439 journal
日記

aitoの日記: 7月25日 SP・SLP研究会@遠刈田温泉 まとめ

日記 by aito

・雑音対策(14:10~16:10)
SP-1 断片的な環境測定に基づく雑音除去の検討
              ○町田晃平・伊藤彰則(東北大)
うちの町田君が日帰り参加.環境雑音のFBANK特徴量をGMMでモデル化し,その平均ベクトルをSSによって除去した音声を混合数の分だけ作り,並列デコーディングする.最後に信頼度が最も高い候補を採用.非常に単純な方法だけれど結構有効.

SP-2 Single Channel Dereverberation by Feature Mapping Using Limited
                Stereo Data
                ○Aditya Arie Nugraha(Toyohashi Univ. of Tech.)
              Kazumasa Yamamoto(Toyota Nat. Coll. of Tech./Toyohashi Univ. of Tech.)
              Seiichi Nakagawa(Toyohashi Univ. of Tech.)
メルスペクトルドメインで残響除去.残響の影響が過去フレームの同じ次元から線形に現れるので,そのときの次元ごとの逆フィルタをニューラルネットワークで推定する(線形なのになぜNNなのか謎).ネットワークとしてカスケードNNというアルゴリズムを使う.残響があるチャネルとないチャネルのステレオデータが少量あればNNが推定できる.話者認識と音声認識のタスクで評価.単なるCMNと比較してだいぶ改善.

SP-3 騒音環境下音声認識に対する識別的アプローチの有効性 第2回CHiMEチャレンジ
              ○太刀岡勇気(三菱電機)・渡部晋治・ルルー ジョナトン・ハーシー ジョン(MERL)
非定常騒音・残響環境での音声認識チャレンジCHiMEの解説.評価は音声認識率.三菱では,フロントエンドよりも識別学習で音声認識部の性能を上げることで高性能を目指した.バイナリマスクの設定では,周波数ビンごとに2チャネルの位相差のヒストグラムを学習しておき,尤度が低いフレームをマスクする.識別的方法として,MMI特報量変換,音響モデルのMMI学習,識別的言語モデルなどを使う.音響モデル学習では特徴量を拡張する「拡張識別的特徴量変換」を使う.三菱のチームはCHiMEでは良い成績を残した.

SLP-1 Denoising Autoencoder を用いた残響下大語彙音声認識の検討
              ○小宮山大樹・石井敬章(千葉大)・篠崎隆宏(東工大)・堀内靖雄・黒岩眞吾(千葉大)
ニューラルネットを使った雑音除去(Denoising Autoencoder)で,ネットワークとしてDeep NNを使う.今回はそれを加法性雑音除去ではなく残響除去に用いる.特徴量として対数パワースペクトルをそのまま使い,Nフレームを入出力に使うオートエンコーダを学習する手法(DAE-RR)と,さらに長時間のメルスペクトルも使う方法(DAE-RRSL)の2つを提案.CMNやHybrid delta法よりも高性能で,DAE-RRよりもDAE-RRSLの方がよい.性能がいいのはよいのだが,非線形な推定である必然性があるのだろうか.

・話者(16:30~18:00)
SLP-2 効率的なサンプリング手法を用いた話者モデリング
              ○俵直弘・小川哲司(早稲田大)
              渡部晋治(Mitsubishi electric research laboratories)・中村篤(NTT)
              小林哲則(早稲田大)
ダイアライゼーション等での発話クラスタリング.発話を単位として話者のクラスタを推定する.1つの話者クラスタをGMMで表現し,話者全体をGMMの混合で表現する(多重スケール混合分布).推定はベイズ的アプローチで,推定方法はMCMCを使う.話者内変動をうまく個別GMMで表現するために,サンプリングの順序を変えて比較評価した.Gibbs sampling, Blocked Gibbs sampling, b-Gibbs+Iterative Conditional Modeの3つのサンプリング手法を比較.b-Gibbs+ICMが「適度な揺らぎ」があって最終的な性能が高い.サンプリングの際の制約と話者制約がどう対応しているのかわからんという峯松先生のコメントがあったが,同様の感想.

SLP-3 Fusing deep speaker specific features and MFCC for robust speaker
                verification
                ○Price Ryan・Biswas Sangeeta・Shinoda Koichi(Tokyo Institute of Technology)
話者照合のために,GMM-SVMとRegularized Siamese Deep Network (RSDN)を組み合わせる.SDNは,DNNを使った恒等写像を初期値とする2つのネットワークを並列に結合し,同じ話者と違う話者で中間層の値が識別的に変化するように学習する.同じ初期値のネットワークを2つ並列に学習するからSiameseなのか.RSDNは,SDNで特定の中間層だけに違いが現れるよう学習に制約を与えたネットワーク(だと思う).これをGMM-SVMと与わせるために,MFCCからRSDNを学習し,その中間層の値を特徴量としてGMMを学習する(話者依存特徴量).話者依存の話者モデルとUBMが得られ,その出力をSVMにかける.MFCCを直接特徴量とした場合と比較して0.6ポイントほど向上.また,スコアを合わせることによってもうちょっと向上.また,MFCCとRSDN特徴量を特徴量レベルでも統合したが,性能はいまいち.

SP-4 出力特徴量の状態識別と長時間特徴量を用いた区分的線形変換による声質変換
              ○池島 純・鈴木雅之・齋藤大輔・峯松信明・広瀬啓吉(東大)
声質変換のための特徴量変換を行うとき,従来法では変換前の特徴量と変換後の特徴量の結合特徴量のGMMを使って区間分割をするか,または変換前の特徴量のみのGMMを用いて区分分割を行う.提案法では,まず変換後の特徴量からGMMを作り,入力が出力のどの分布に属するのかを識別により決める.このために,変換前特徴量に対して,変換後の分布推定の性能が最も上がるように線形判別分析をかける.ケプストラム歪みは従来法より良いが,合成結果が違うかどうか微妙.主観評価実験では,同性の話者への変換について話者性で比較したときだけ有意な差が出た.手法と結果について,結構議論が盛り上がった.

・夕食後
SP企画「音泉居酒屋 遠刈田支店」
東芝の大谷さんがファシリテーター役.ワールドカフェ形式でディスカッションを行った.お題は「○○な対話システムとは?」で,さまざまな対話システムの可能性について(酒を飲みながら)自由に討論.話がいい具合に発散して,割とうまくいったのではないかと思う.

この後,同じ会場で24時ぐらいまで飲み続ける.

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

192.168.0.1は、私が使っている IPアドレスですので勝手に使わないでください --- ある通りすがり

読み込み中...