パスワードを忘れた? アカウント作成
346713 journal

aitoの日記: SP/SLP研究会@定山渓 1日目まとめ

日記 by aito
最初のセッションは25分ほど遅れて開始.

セッション1:合成

・調音運動に基づくワンモデル音声認識合成方式(豊橋技科大)
新田研.音声の認識と合成に共通して使えるモデルの作成法(ワンモデル音声認識合成).音源と伝達関数ではなく,調音特徴(調音運動ではないと思う)を特徴量とする.認識部では調音特徴を使ったtriohoneを使い,合成部では同じくtriphoneを使ってLSPベースの合成をする.いろいろな検討をしているが,認識と合成に同じモデルを使うことの意義が良くわからない.

・Prosody Improvement for HMM-based Mandarin Speech Synthesis Using the Tone Nucleus Model(東大)
広瀬峯松研.HMMによるF0生成の話なのだが,一般的な話とこの論文でのポイントが切り分けられていなくて,わかりにくい発表.発表も半分以上過ぎてから,ようやく提案法が何をするのかの説明が1ページだけある.対象は中国語で,声調のモデル化を問題にするようだ.ある声調の音節のF0を時間的に3つに分けて,真ん中の部分(tone nucleus)だけを使ってHMMでモデル化するという話のような.

・Prosody Conversion for Emotional Mandarin Speech Synthesis Using the Tone Nucleus Model(東大)
広瀬峯松研.前の発表と同じtone nucleus modelを使う.中国語の通常音声を感情音声に変換する方法.F0を変換する関数は,感情音声のパラレルコーパスから機械学習によって獲得する.方法はCART.Tone nucleus modelを使わずにF0全体を変換すると声調が狂ってしまうというところがポイントらしい.なので,音節の真ん中のF0列を最初に作ってから,それを声調にあわせてつないでいるようだ.

セッション2:話者認識・照合

・条件付きエントロピー最小化基準に基づくマルチカーネル学習を用いた発話スタイル変動に頑健な話者照合(早稲田大)
小川さん.マルチカーネル学習の最適化がテーマ.クラス間マージンが最大であるだけでなく,クラス内変動が小さくなるような学習(条件付エントロピー最小化)を行う.識別関数のエントロピーを一定に保ちつつ,クラスで条件付けられたエントロピーを最小にするように識別関数を調整する(複数のカーネル間の結合係数を最適化する).複数の発話スタイル(ロンバード音声)を含む学習データを使った話者照合で評価.判別分析のカーネル版みたいなものか.

・クラスタリングに基づくGMM学習法による話者のモデル構築(徳島大)
北研.GMMのパラメータ推定に,EMアルゴリズムではなくLBGみたいな方法を使う提案.クラスタリング時には,セントロイドとしてガウス分布を用いる.クラスとサンプルの関係が確率的か決定的かという違いと,分散の推定の方法が違うという点が相違点だが,どこが効いているのだろうか.質問をしてみたら,分布数を増やすときの初期値の増やし方が効いているのではないかという答え.

セッション3:音声ドキュメント・検索

・講演に対する読点の複数アノテーションに基づく自動挿入(京大)
秋田先生.音声認識結果に読点を挿入する.系列学習を使うが,学習の際に複数のアノテータによる結果を利用するところが特徴.3人のアノテータによる共通の読点は50~75%程度.モデル化はCRF.複数のアノテータの結果を使うために,何人が読点をつけたかに基づいてラベルをつけて,そのラベルを学習.あるアノテータの読点付与を再現する場合にも,他のアノテータのデータで学習したモデルで補間すると精度が上がる.音声認識結果に対して適用すると性能が激落ち.

・識別学習に基づく音声認識単語辞書の最適化(京大)
河原研.認識単位の最適化の話.対象はウイグル語.単語は種類が多すぎるが,形態素だと短すぎて認識率が上がらないので,認識率に寄与する形態素の組だけを新たな単語として辞書に登録する.形態素組の選択には,形態素の素性を使った線形モデルで算出したスコアを使う.素性として,品詞,語幹か語尾か,長さ,などを使う.

・音声認識・検索のための未知語の扱い(豊橋技科大)
中川先生.音声認識での未知語の扱いと,音声検索での未知語の扱いについての2本立て.音声認識については,APPによる言語モデル性能の推定,未知語の同定と登録,未登録語のクラスタリングによる未知語出現確率の推定.後半はサブワードを用いた高速なマッチングによる未知語検索.
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

にわかな奴ほど語りたがる -- あるハッカー

読み込み中...