パスワードを忘れた? アカウント作成
6407055 journal
日記

aitoの日記: 音響学会3日め 音声A・B 聞いた発表のまとめ

日記 by aito

音声Aポスターセッション

あまりたくさんは聞けなかった。聞いた(あるいは眺めた)ものだけ。

☆音響特徴量を用いた自閉症児と定型発達児の識別(神戸大)
音声から自閉症かどうかを識別する。どういう特徴がでているのか、どんな音声資料なのかはよくわからなかった(説明者がいなかったので)。openEARで抽出した1000個ぐらいの特徴から特徴選択をした。識別器はSVM。識別精度は73.5%。

☆怒りの感情を含む音声の認識性能への影響(九工大)
怒ったときの音声は通常音声に比べてどう変形していて、それが音声認識にどう影響するかを調べた。対象音声はコールセンター音声。分析対象単語に「誠意」とか入っているのが生々しい。結論としては、ある種の音声のスペクトル概形にかなり大きな変形があり、それが音声認識性能低下の原因であろうとのこと。

○観測時間の異なる特徴量を複数用いた漸次的な環境音認識(新潟大)
環境音認識だが、連続観測することで現在の環境音を逐次推定する試み。ベイズ則に従い、直前に推定された信号の確率を事前分布としてその次のフレームの推定をするという方法のようだ。

○CRFを用いた音声認識誤り訂正における素性の検討(神戸大)
認識結果の事後的誤り訂正。当該単語の周りの単語を使った素性(長距離言語情報)は、ある単語の周辺の単語のLSAによる単語ベクトルと、当該単語の単語ベクトルとの距離。それだけでなく、Confusion Networkを使った信頼度と組み合わせる。ベースラインと比べると4ポイントほどの改善だが、従来の誤り訂正結果との差分はわずか。

○Feature Space Variational Bayesian Linear Regression (NTT)
咸さん。fSMAPLR話者適応で、変分ベイズ法の枠組みを入れることにより、パラメータ推定を学習データだけから行う。式は難しくてよくわからなかった。最終的に計算した評価関数が情報量基準みたいな感じでパラメータ選択に使えるようだということはわかった。パラメータを開発データでチューニングした場合の結果とほぼ同等な結果が学習データだけから出せる。

○初等中等教育の授業音声認識のための子供向け表現の抽出と言語モデル学習(龍谷大)
南條先生。小中学校の教室での先生の発話の音声認識に向けた取り組み。Web上から「子供に向けた大人の発話表現」を集めて言語モデルを作った。タネは子供向けニュースサイト。

○識別的言語モデルにおける疑似仮説の生成に関する検討(NHK)
小林さん。識別的言語モデルを学習するには対立仮説が必要なので、音声のN-best認識結果(または単語ラティス)が必要だが、音声をたくさん集めるのは難しいので、これらを疑似的に生成する。音素ベースでやる方法と、さらに音素HMMからパラメータ系列を出してそれを再認識する方法を試した。結論としてはどちらも性能は大差なく、音素ベースの方が高速。

◎音声の到来方向を用いてスムーズな会話を実現する自動通訳システム(NEC)
タブレットPCを水平に置いて、両側から人がしゃべることを想定した音声翻訳。人の方向がわかっているので、マイクロホンアレイでそれぞれの人の声だけ収録する。技術的に新しいところはないような気がする。

☆入力音声の継続長を考慮した翻訳システム(NAIST)
中村研。強調発話をそのまま翻訳するのが目的。対象は数字なので、翻訳ペアは1対1に決まる。この発表での要点は、特徴ベクトルをそのまま変換することで対象言語(日本語→英語)の単語の特徴量を生成しようとするところで、おもしろいんだがいろいろ無理がある気がする。語彙サイズが増えると破綻するし。

○RNNLMとLMBRを用いたWFST駆動G2Pシステムの性能改善(東大)
広瀬峯松研。英語のGrapheme-to-phonemeシステム。複雑な方法ではなく、WFSTを使った割合単純な方法を使い、学習が高速なところが売りのようだ。文字素から音素ネットワークを生成するWFSTを作り、そこで生成された音素ネットワークから言語モデルを使って音素列を推定する。このときに、様々な仮説間にたくさんでてくる部分音素列を優遇するような重みを入れることで妥当な仮説が生成されやすくなる(Confusion Networkと似たような処理か)。言語モデルにRecurrent NNベースの言語モデルを入れるとやや性能が向上。

○生活支援ロボットのための音声対話システムにおける聞き返し発話の検出に関する検討(東北大)
三宅君。一問一答DBを基本とした音声対話システムで、複数のタスクを組み合わせたときに、それだけではタスクが特定できない発話を検出する。結構うまく言ってると思うのだが方法がヒューリスティックなのがいまいちなところ。

音声B ポスターセッション(見たり聞いたものだけ)
☆日本人英語の自動発音評定における誤り規則の検討(山形大)
誤り規則を使う発音評定で、どの誤り規則を使ったらいいかを自動選択する。多くの誤り規則のうち、どの規則を除くと主観評価との相関が上がるかを網羅的に調べ、有効性の順に規則に順番をつけて最適化した。最終的に、相関は0.757から0.858に上昇。

☆音高変化における歌声のスペクトル包絡の傾斜分析の検討(立命館大)
歌声でピッチが変化するとスペクトル包絡がどう変化するかを調べた。分析はスペクトル包絡の一次近似直線の傾きのみ。5母音でそれぞれ調べたが、傾向があるようなないような。

◎歌唱音声における基本周波数とパワーの変動量を反映するビブラート特徴量の提案(立命館大)
従来のビブラート特徴量はF0の変動を見ているが、ビブラート時にはパワーが大きくてしかも変動しているという特徴があるので、それを反映するような特徴量を考えた。それは妥当だと思うのだが、評価が「物まね音声の評価結果が本人の評価結果と似ているかどうか」というのはいかがなものか。ビブラートを評価したいならビブラートを評価すればいいのに。

◎スクリーム唱法による歌唱音声の基本周波数変動とスペクトル変動の間錬成の調査(名城大)
坂野先生のところでエクストリームボイスの分析を始めたらしくてびっくりした。この発表は、スクリーム音声に細かいF0とスペクトルの変動があるという観察結果の報告。分析窓長と分析周期が短いので、100~200Hzの振動をF0とスペクトル変動として観測してしまっているのではないかと思う。

○歌唱音声における濁声発声の分類とそれらの基本周波数の違いの調査(名城大)
こちらはスクリームだけでなくグロウル、ガテラル、ピッグスクイール音声のSTRAIGHT分析結果。F0がとれなくてうまく分析できない。この辺のエクストリームボイスの分類・命名は人によって一定しないのが問題ですねという話をした。

☆日本語スピーキングテストにおける文生成問題の自動採点の検討(筑波大ほか)
日本語自動スピーキングテスト(S-CAT)プロジェクト。日本語学習者の日本語作文課題音声を自動評価。人間の評価では、文の正しさだけでなく、発声のなめらかさとか発音も問題になる。自動評価としては、発音の良さ(次の発表)、聴解力と表現力(キーワードの一致、語尾表現のきちんとした発声などを使う)を推定して組み合わせ。人間の評価値と相関0.82。

○日本語スピーキングテストS-CATにおける並列セグメンテーションを用いた自動採点の検討(和歌山大ほか)
S-CATプロジェクト。発表していたのは西村先生。自由発話の良さを評価するのに、forced alignmentと音素認識の音素アラインメントの一致度を使う。各種の主観評価値と0.8近い相関が得られている。

☆日本語スピーキングテストにおける文章読み上げ問題の自動採点の検討(筑波大ほか)S-CATプロジェクト。こちらは文章読み上げの良さを測る。「発音の良さ」と「流ちょうさ」を組み合わせて総合スコアを計算する。それぞれは特徴量から重回帰で推定。最終的な主観評価との相関は0.83。

☆スクリーミング発声における声帯振動の分析(九大)
鏑木研。今回はどうしてスクリームの研究発表がたくさんあるのだろう。スクリームとグロウル発声時の声帯振動をEGGで計測した結果。声帯パルスは比較的はっきりしていて、基本周波数は600Hzを越える。F0の1/6ぐらいのサブハーモニクスが観測された。私と坂野先生とこの発表者の方でスクリーム研究会になった。

音声B「音声・オーディオ符号化」
☆行列演算を用いるオーディオ符号化のための可聴化雑音抑圧法の検討(東工大)
スケーラブル伝送は、多チャネルオーディオ信号を行列演算によってして少ないチャネルの信号との互換性を保つ方法だが、行列演算によって復号音声を多チャネルに戻すときに、量子化雑音が聞こえるようになってしまうことがある。そこで元に戻したときの雑音を抑圧する。量子化雑音を信号の多項式で近似し、雑音を推定する。

☆言い真似に基づく音声符号化における話者適応の検討(千葉工大)
音声認識・合成にもとづくCoding by Synthesis音声符号化において、話者適応を行う。話者適応として「母音マッチング法」というのを提案している。これは、5母音の相対位置を保存したままターゲット音声内の特徴ベクトルを動かす方法らしい(?)。男性の音声には効果があるが、女性については効果がない。デモ音声はだいぶ不連続な感じ。

☆歪みと符号長を考慮したACELPゲインコードブックの設計と評価(東大/NTT)
G.718符号化音声のゲインコードブックを可変長で符号化する。コードブックの設計においては、符号長と歪みを同時に最適化するVQを利用する。12kbpsの音声に対して1%ちょっと改善する。

○パラメータ冗長化とN-gramによる予測を併用したG.729におけるパケット欠落隠蔽(東北大)
うちの研究室の長野君。総務省プロジェクトによる、ヘビーなパケットロスの補償。対象はG.729。パケットロスのバースト長が大きい場合に、パラメータ冗長化とN-gram予測の両方を使うとやや品質が上がる。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

長期的な見通しやビジョンはあえて持たないようにしてる -- Linus Torvalds

読み込み中...