パスワードを忘れた? アカウント作成
6586834 journal
日記

aitoの日記: 11/16 EMM&EA研究会@大分大学 まとめ

日記 by aito

○周波数軸変換とピーク強調を併用したロンバード音声の認識(大分大)
秋田研。ロンバード音声の認識。最初にロンバード効果でのフォルマントの変化と発声機構の関連の説明があったけど本当だろうか。認識対象は5母音で、方法はケプストラムを使ったDPマッチング。ロンバード音声ではフォルマント周波数が上がることで誤認識が起こるので、周波数軸を縮めて通常音声に合わせる。また、低域のスペクトルピークを強調することで認識性能が改善する(理由はよくわからない)。

○口唇画像の濃淡情報を用いた数字音声認識の基礎的検討(大分大)
秋田研。口唇画像を併用する音声認識で、口唇領域の特徴抽出の改善法。口の形ではなく、口領域の明度の平均値(shade)や、縦方向・横方向での画素の平均値のダイナミックレンジ(shape)などを使う。認識方法は線形マッチング。口唇領域を頑健に抽出するのが難しいので濃淡の平均値のような特徴量を使うのだが、その特徴量を計算するために口唇領域がわからないといけないという矛盾をはらんでいる。

○非最小位相音響空間においても音声強調が可能となる2マイクロホンアレーシステムの提案(兵庫県立大)
加法性雑音がある環境下での2マイクロホンによる音声強調。雑音源が遠い場合の性能を改善する。従来法の適応フィルタシステムがよくわからないので全体としていまひとつ理解できない。入力信号を安定して推定できる成分とそれ以外に分離した上で、安定して推定できる部分だけを使ってフィルタを適応させることで発散を防ぐという原理らしいことはわかった。

○周波数領域マルチチャネルシステム同定アルゴリズムの提案(兵庫県立大)
複数音源・複数マイクロホンのシステムでのシステム同定で、複数マイクロホンでの観測信号に相関があるとシステム同定に悪影響があるので、入力を無相関化してからシステム同定をするが、無相関化の計算量が多いのでそれを低減する。スライドに式は書いてあるが説明がほとんどなくて理解が困難。

○非最小位相音響空間における残響低減法に関する検討(兵庫県立大)
ブラインド残響除去。非最小位相空間では線形予測分析がうまくできないので、音源と室伝達関数を分離できず、逆フィルタの形成が困難。提案法では、2マイクロホンが同じ出力を吐くように調整した適応フィルタを学習し、それを使って逆フィルタを生成する。非最小位相空間では逆フィルタが不安定になるので、遅延を入れることでこれを回避する。

○MTFに基づいたパワーエンベロープ回復処理における統合的な雑音残響除去(北陸先端大)
鵜木先生。雑音・残響の影響の除去。前半はMTF(変調伝達関数)を使った雑音・残響処理の丁寧なチュートリアル。(サブバンドに分割された)時間信号の包絡線を利用した音声強調処理の考え方がよくわかった。鵜木先生の講演は、聴衆に何をわかってほしいかが明確でとてもわかりやすい。後半では、環境(加法性雑音に残響が乗るかどうか)と、処理順(残響除去が先か雑音除去が先か)の組み合わせで性能評価をしている。結論としては、処理順はそれほど関係ない(雑音除去を先にやったほうがやや良い)。

○非音声区間情報を用いた補助関数型独立ベクトル分析による音声強調(東大)
嵯峨山研。ブラインド音源分離では、分離した信号のどれが音声なのかがわからない(後処理が必要)なので、非音声区間の情報を使うことで、分離後の信号のどれが音声なのかを知る。音源分離は補助関数法を使った独立ベクトル分析。SN比で3~5dB改善し、ねらったチャンネルに音声を出力させることができる。

○周波数と波面の乱れを最小化する窓枠型スピーカアレイの駆動法(東工大)
東工大の学生さんのようだけど、NHK安藤さんとの連名。大型テレビの枠の部分にスピーカを並べたスピーカアレイ。音の「遠近感」を制御する(近い音は球面波、遠い音は平面波として合成する)。平面波を合成しようとすると、スピーカが有限個しかない影響による波面の乱れが大きくなる。また、音の波長が枠の大きさより小さくなると、枠の中にスピーカがないことの影響が出る。これらの影響を最小にするスピーカ制御。「周波数特性誤差」と「波面誤差」の2つの指標から評価関数を作り、それを最適化する。これを最小化する各スピーカの重みをシミュレーテッドアニーリングによって求めた。

○適応型マイクロホンアレーにおける性能劣化の検討(東京電機大)
金田研。一般化サイドロープキャンセラ(GSC)ベース。AMNORと同じく、目的音のある程度の劣化を許して雑音抑圧をすることによって、雑音抑圧性能を改善することができる。GSCでは隣接する2つのマイクロホンを減算することによって目的音を除去して雑音を抑圧するが、ここに擾乱を加えてわざと目的音を残す。それでなぜ雑音除去量が改善するのかについての詳しい理由は謎。

○実環境騒音下におけるインパルス応答測定波形の最適切り出し方法の検討(東京電機大)
金田研。雑音のある環境下でのインパルス応答測定。インパルス応答のしっぽの方は雑音に埋もれるので通常は切り捨ててしまうが、その部分でも周波数によっては雑音に埋もれていない部分がある。そこで、十分長く切り出したインパルス応答をサブバンドに分け、それぞれにWiener filterをかけて雑音抑圧をした上で別々に時間的に切り出し、最後に全部併せてインパルス応答を生成する。明快な手法。

○高騒音下における車内放送音声の最適音量の検討(東京電機大)
金田研。電車の中で放送をするときに、騒音と放送音声の音量が聞き取り安さにどのように影響するかを調べた。さまざまな騒音レベルと文章、騒音について「了解度」「耳障り感」「適切性」を評価した(ここでの了解度は通常の意味での了解度とは違って、「わかった気がする感」に近い)。文章と被験者による差は小さい。騒音レベルが高くなるにつれて最適音量も上がるが、比例しているわけではない(最適音量の上昇の方がゆるやか)。

○Data hiding schema for digital-audio in AM radio broadcasting systems (北陸先端大)
鵜木先生。AMラジオ放送に情報を埋め込む技術。AM変調された信号の上側波帯と下側波帯にそれぞれ原音と情報を電子透かしで埋め込んだ音を入れて、取り出し側では両方の側波帯を別々に取り出して透かしを検出する。ホワイトノイズ耐性を測っているが、それ以外にもAMではいろいろな擾乱があるという指摘があった。

○客観的評価値を用いたデータを埋め込んだ音響信号品質の推定の基礎検討(山形大)
近藤先生。いろいろな透かしを入れたときに、音質の主観評価と客観評価がどれほど一致するかの検討。客観評価はPEAQ, PEMO-Q, POLQA。主観評価はMUSHRA。使った透かしはLSB置換、スペクトル拡散、エコー法。主観評価との相関は、PEMO-Qでは高くPEAQは低い。PEAQはエコー法による劣化をほとんど反映しない。POLQAは中間的。スペクトル拡散とLSB置換については、主観評価値と客観評価値の関係がどの評価手法についても似ている。エコー法は傾向が違う。

○時間周波数領域におけるステレオ間位相差への分散埋め込みに基づく音響情報ハイディング(NII)
小野先生。ステレオ信号への情報ハイディング。STFT分析した時間周波数領域の左右チャネルの位相差に情報を埋め込む。量子化したときの量子化値が偶数か奇数かを使って1ビットの情報を埋め込める。振幅の小さいところに埋め込みができず、また攻撃態勢を上げるために、時間周波数領域の異なる部分に同じ情報を冗長に埋め込む。埋め込みブロック検出のために、M系列の位相だけをホスト信号に埋め込み、相互相関によって検出する。

○第1回電子透かしコンテスト実施結果とその講評(東京情報大ほか)
発表は西村先生。音響電子透かしの統一基準を考えるために、コンテストを行った。レギュレーションは、6bit/sでデータを埋め込み、ブラインド検出、PEAQ(フリーソフトを利用)で評価。攻撃は、MP3(128kbit/s)、ピッチ変換、スピード変換、ノイズ付加、遅延付加、BPF。評価基準値は、BER10%以下、ODGが-2.5以上。性能的には一つ前の発表の小野先生の方法がもっとも良かった。20種類の音源を使っているが、音源によって耐性などが違うので、多くの音源について調べてみないと本当の性能はわからないというメッセージがおもしろかった。もっとも難しい音源はグロッケンシュピールだけの演奏。

○補助情報による音響信号の価値創造(東北大)
私の発表。朝に小倉から大分まで移動する特急列車の中でスライドができた。補助情報を使った音響信号処理ということで、パケットロス隠蔽・混合音楽信号操作・電話音声の広帯域化の3つの話題について喋った。どのくらい受けたかはわからないが、とりあえず狙った時間ぴったりに終わったのでそれだけでまあ満足。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

コンピュータは旧約聖書の神に似ている、規則は多く、慈悲は無い -- Joseph Campbell

読み込み中...