パスワードを忘れた? アカウント作成
2086775 journal
日記

aitoの日記: 音響学会2日目午後 音声B&音声A

日記 by aito

音声B 信号処理・符号化
・ACELPゲインコードブックの可変長符号化(NTT)
「G.718符号化のゲインコードブックがもし可変長だったら」という研究。G.718ではGeneric Coding とVoiced Coding という2つの符号化モードがあるが、それぞれに対して改めてVQでコードブックを作り直すことでSNRがちょっぴり向上したが、ビットレートもちょっと増えてしまった。そこで、「エントロピー制約ベクトル量子化」(ECVQ)でVQをやってみた。これはVQの評価関数(2乗歪み)にエントロピーを加えたもの。ECVQによってちょっぴり性能向上。LBGでVQをするとエントロピーが増えるのが自然なので、そこに制約を入れるとどういうコードベクトルが学習されるんだろうか。

・正弦波モデルに基づく付加情報援用型混合音楽信号操作システムの検討(東北大)
うちのMJこと佐々木君。付加情報を使う混合音楽信号操作で、櫛形フィルタではなく正弦波モデルを使う。ぶっちゃけ性能はよくないのだが、方式は面白いので、今後につなげたいところ。中野さんからLVTに関する質問をもらった。また、利用者としてどういう人をターゲットにしているのかという質問があった。

・無限オーダーの残響フィルタを持つ残響抑圧信号のベイズ推定手法(ヤマハ)
単一チャンネルの残響抑圧。従来の残響抑圧は音源にモデルを仮定するが、提案法ではその制約を弱くする代わりに、残響にもモデルを仮定する。残響モデルは、係数が密であることを仮定する。音源のパワースペクトルをガンマ分布、元音源と残響音の比率はベータ分布、残響分配係数にはディリクレ分布を仮定する。変分ベイズ法でパラメータを推定する。音源に強い制約を仮定する亀岡さんの方法と比べて、音数が多い音源に対しても安定して動く。面白い。発表も楽しげでよかった。

・時空間音響パタンによる情報伝達方式に関する研究(岩手県立大)
伊藤憲三先生のところ。情報を音に乗せて配布する方法(音響コード)。要するに音響モデムだが、DTMFみたいな感じで特定の周波数に音が乗っているかどうかを1ビットの情報とする。現在は雑音・残響がない環境でまあうまくいったというところ。無線通信の方法を参考にしたらどうですかというコメントをつけた。

・画像情報を併用した信号区間検出方式の検討(岩手県立大)
同じく伊藤憲三先生のところ。ロボットアームなどの機械の異常診断のために、動作音の切り出しを行う。切り出し精度を上げるために、信号波形を画像として処理する。波形を画像化し、圧縮・膨張処理をした後残った領域を抽出する。画像として処理する必要性がわからん。

・音声符号化のためのガウス混合分布によるセグメンタルNMF基底行列の表現(芝浦工大)
間野研。音声をSTRAIGHTで分析し、STRAIGHTスペクトルをNMFで分解することで、スペクトル系列を音素基底とそのアクティベーション(係数行列)に分解する。係数行列だけを送信し、基底行列を共有することで音声符号化に使うことができる。基底行列を圧縮するため、基底が表すスペクトルをGMMで近似することでパラメータを減らす。元のと端末間で共有される情報を圧縮する意義がいまいち理解できなかった。ちなみに伝送情報の圧縮は今後の課題。

音声A 自然発話・多言語処理
ちょっと「その他」的なセッション。

・文レベル情報と複数仮説を用いた音声認識結果の自動整形(豊橋技科大)
自然発話の文整形。複数仮説から作ったconfusion networkを使う。ここに文全体の制約を使うために、Iterative Decoding, Improved-SDAアルゴリズムを使う。Improved-SDAでは、CRFを使って文節をチャンキングし、逐次的に係り受け解析する。Iterative Decodingは、confusion networkのソーセージ一つ一つについて各候補に対するスコアを計算し、それを全ての箇所について実行する処理を繰り返す。評価時には文全体がそろっているので文全体にわたる制約を表現することができる。

・Recognition of Indonesian Code-Switching Speech (Tokyo Inst. Tech.)
Code-switchingとは、一つの会話の中で複数の言語が切り替わること。この研究では文の中でのcode-switchingを扱う。ドメインは音声コマンド。タスクが単純なので、code switchingを考慮した文法を書く方法と、最初に全部認識できる言語モデルで認識してから言語依存でデコードし直す方法の2つを試した。実験結果では2-passの方法がもっとも高性能。対象が短い(1発話あたり3~7単語)ので、その中でcode switchingが起きているかどうかを検出するって難しいんじゃないのかなあ。

・発話識別を利用した日本人英語音声認識の高精度化(東北大)
当研究室の安斎君(@taku0905)。文法誤りを含む発話の認識のために誤りを含む文から学習した言語モデルを使うが、そのときにどの程度間違った言語モデルを選ぶかを動的に決定する。決定には、音素タイプライタの認識尤度と、正解文アラインメントの尤度とのスコア差分を使う。「音響モデルは並列に使うのに、言語モデルは選ぶのはなぜか」という質問が中川先生から出た。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

192.168.0.1は、私が使っている IPアドレスですので勝手に使わないでください --- ある通りすがり

読み込み中...