パスワードを忘れた? アカウント作成
296102 journal

aitoの日記: 2月5日 SLP午前まとめ

日記 by aito
■声質変換[9:00 - 9:50]
        (10)音声翻訳システムのための声質変換法と日中英語間における評価(NAIST)
        鹿野研。音声翻訳で、入力の話者の声で出力するためには、異なる言語間でHMMの適応を行わなければならない。そのため、一対多固有声変換法を使う。一対多固有声変換法(既存手法)は、平均声と固有声からなる空間を教師なしで対象話者にマッピングすることで声の空間を作る。また、言語間でF0のばらつきが違うので、翻訳するときに言語依存のF0分布関数を使う。出力のF0を入力と大体同じにするのだが、イントネーションの変化が大きい言語とそうでない言語がある(日英中では日本語が一番変化が大きい)ので、それを考慮して「その言語として不自然でない」F0の変化幅に変換するということだろう。日本語と他の言語の間の変換では、F0の分布を考慮することで自然性が上がる。英中の場合にはF0変動幅が似ているので、大して効果なし。

        (11)統計的声質変換に基づく食道音声強調における声質制御(NAIST)
        鹿野研。食道音声から通常音声への変換手法において、出力音声を簡単なパラメータでコントロールする方法。手法は重回帰GMM。声質に関する主観的な評価語をパラメータとし、それを重みとして基底分布を足し合わせることで話者の平均ベクトルが表現できる。重回帰分析の元になるスコアをつける際には、元音声の話速・イントネーションをあらかじめあわせておくことで、評価のばらつきを抑える。また、重回帰でなくカーネル回帰を使うことで表現力を上げる。カーネル回帰を使うことで、声質のコントロールの範囲が広がる。評価語の表現力がいまいちな気がしたので「そんな評価語で大丈夫か?」と聞いてみたが、答えはいまいち。

        ■音声認識[10:05 - 11:20]
        (12)ウエーブレットの最適化と雑音プロファイルを用いた雑音抑圧による頑健な音声認識(京大)
        河原研のランディさん。Waveletを使った雑音除去。雑音プロファイルとなるWavelet係数を求めておき、ウィーナフィルタと同じような手法で雑音を低減する。適用時には複数の雑音プロファイルのどれを使うかを推定し、それを使って雑音低減をする。残存ノイズを音響モデルに合わせるために、ウィーナフィルタの雑音項に係数をかけて、それを調整する。

        (13)Hidden Conditional Neural Fieldsを用いた音声認識における目的関数と階層的音素事後確率特徴量の検討(豊橋技科大)
        中川研。HCNFを用いた音声認識。これまでは事後確率最大(MMI)を目的関数としていたが、MMIにエラー最小化の味付けをしたBoosted MMIの考え方を導入した目的関数を使うという提案。アラインメントが確定していない場合にも利用できるようBoosted MMIを拡張(Boosted Hidden MMI)。オリジナルBoosted MMIは対立仮説の確率に誤り率に応じた重みを入れる(誤りの多い仮設のスコアを重視する)が、誤り率が確定していない場合に、その期待値を使う。また、いったんHCNFで音素認識をしてから、そのスコアを入力としてもう一度認識をする。ケプストラムのみの認識の場合、Δケプストラムを入れた識別モデルHMMと同じぐらいの性能が得られる。

        (14)WWWから得られるTerm Frequency情報に基づくPLSA言語モデル(関西学院大)
        川端研。PLSAの計算のときに出てくる文書―単語頻度の代わりにtfidfを使うという提案。LSAだとtfidfを使うのは普通だが、PLSAでは提案されてなかったのだろうか。idfはYahoo APIの文書頻度を使う。通常の単語頻度だけを使う場合よりもパープレキシティが下がる。手法としては面白いが、パープレキシティが下がる原因が理解できない。

        ■発音,読み解析[11:35 - 12:25]
        (15)日本人英語発話からの文法誤り検出(東北大)
        うちの安斎君の発表。日本人英語のための音響モデルの学習の話。複数の発音習熟度(ここでは3段階)について別々に音響モデルを作り、それらを並列に使って音声認識を行う。学習データが少ない場合に対処するため、MLLR適応による方法も使う。峯松先生がInterspeech2002で類似の音響モデル化の研究をしているとのこと。質疑は結構盛り上がった。

        (16)多対多最小パターンアライメントアルゴリズムの提案と自動読み付与による評価(NAIST)
        鹿野研。未知語への読みの付与。漢字と読みのアラインメントを取るときに、複数文字対複数文字の対応(大和/やまと、など)をどう取るか。文字と読みの対応をHMMのような風味でモデル化する。事前に何の知識もなしに、データドリブンで対応を求める方法だが、事前知識の仮定なしに対応を取ることがどれぐらい有効なのかやや疑問。「twitter→ツイッター」みたいな対応も取れることを目指しているそうだ。
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

犯人は巨人ファンでA型で眼鏡をかけている -- あるハッカー

読み込み中...