パスワードを忘れた? アカウント作成
347166 journal

aitoの日記: SP/SLP研究会@定山渓 3日目まとめ

日記 by aito
7月23日(土)

セッション1:ロバスト音声認識
・車載音声の解析と評価(その2)-アレイマイクロフォン加減算方式とスペクトルサブトラクションの融合-(東北工大)
畑岡研.車載複数マイクロホンで収録した音声の音声認識.スペクトルサブトラクションと,複数マイクロホンの値の加減算を併用する(遅延和アレイではない).発表の学生さんは良くわかっていない風で,突っ込みどころはたくさんあるが,比較的暖かい目で見たコメントが多かった.

・ウエーブレットに基づくウイナーフィルタを用いた雑音及び残響に頑健な音声認識(京大)
河原研のゴメスさん.ウェーブレットを使って音声,雑音および後部残響のパワーを推定し,それを使ってウィナーフィルタを推定する.音声および雑音データベースからGMMを作っておいて,ウェーブレットの特定の成分が音声なのか雑音なのかを推定する.残響については良くわからなかった.とりあえずそうやって各成分のパワーを推定し,それを使ってウィナーゲインを求め,ウィナーフィルタで雑音を抑圧する.

・Eigen-SPLICEを用いた雑音環境下における音声認識(東大)
広瀬峯松研.SPLICEは劣化音声を区分線形変換で改善する方法.雑音除去時にはすべての区分の変換を行い,入力音声の各区分に対する事後確率で重み付けする.道雑音に対してより頑健にするように,線形変換のバイアスを適応する.少量データで適応をするために,バイアスベクトルのスーパーベクトルをPCAで圧縮して固有空間を作り,その固有空間上で誤差を最小化するようなスーパーベクトルを求める.雑音が既知かつ定常で,しかもパラレルコーパス(同じ音声の雑音入りと雑音なし)および学習が必要なので,あまり筋の良い方法には思えない.

・Nonlinear normalization using q-logarithm for robust speech recognition (東工大)
雑音と音声に相関がある場合の加算性・乗算性雑音の抑圧がテーマ.q-logarithmはlogの一般化みたいな関数(q=0で通常のlog,q=1で線形).対数スペクトル正規化(CMN)のlogの代わりにq-logを使う.また,非線形SSを併用.q=0.3ぐらいでかなりの性能改善があるが,なぜq-logを使うと良いのか理論的な意義が良くわからない.ETSI AFEよりはやや性能が悪い.篠田先生の補足によれば,もともとの出自である統計力学でもq-logは「現象にはあうが理論は良くわからん」という状態らしい.

・確率スペクトル包絡を用いた混合音解析における制約付きスペクトル生成法の検討(神戸大)
NMFを使った楽音分離.楽音テンプレートを確率分布として表現し,実際に楽音を分離するときには分布から複数のテンプレートを生成してNMFを実行する.テンプレート生成と行列分解を最適化するために,GAによる繰り返しを使う.この発表では,ヒューリスティックとしてスパース制約(音源が少ない)と凝集制約(できるだけ同じ音が鳴り続ける)を導入して性能を上げた.

セッション2:アプリケーション

・CSP係数の識別に基づく話者の頭部方向推定の検討(神戸大)
有木研.話者がどっちを向いているかを2chマイクで推定する.2つのマイクのクロススペクトル位相(CSP)を音源位置と頭部方向ごとに算出して学習しておき,入力信号がどの位置・方向に近いかを識別する.識別はSVM.比較的高い性能が出るが,雑音には弱い.面白いが,頑健な方法になりうるのかはちょっとわからない.顔の向きなら画像とかKinectを使えば良いのにと思った.

・PodDiarizer:ポッドキャスト音声認識・理解のためのユーザ訂正活用型音響ダイアライゼーションシステム(産総研)
PodCastのどこが何の音なのかを当てる(ダイアライゼーション).PodCastleと同じように,ユーザによる訂正を許す.そのためのインタフェース.手法はMFCC+GMMとSACF.初期識別率は60~70%.これだけをユーザが直してくれることは期待できなさそうなので,他のサービスと組み合わせて何とかするつもりとのこと.

・住空間音環境コーパスを活用した適応型音声インタフェースデザイン(静岡大)
桐山研.住環境の中で音声インタフェースを使うときに現場で何が起きているかの可視化が目標.そのために実環境での利用を記録したコーパスを作成した.認識結果とマルチアングル記録映像を組み合わせて検索・確認ができる環境を作成.プラットフォームを作ったのは良いが,大規模な分析はまだ行っていない模様.
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

「毎々お世話になっております。仕様書を頂きたく。」「拝承」 -- ある会社の日常

読み込み中...