パスワードを忘れた? アカウント作成
254948 journal

aitoの日記: 9/14 音響学会1日目 音声B(午前前半)まとめ

日記 by aito
音響学会1日目 音声B(午前前半)

☆Speaker-invariance verification of dialect pronunciation structure applied in dialect-based speaker classification (東大)
峯松流構造的表象を使った中国語方言音声の話者正規化。多数の異なる方言話者の音声を構造的表象でクラスタリングしたものと、同一話者が全部の方言を話したもののクラスタリング結果が一致する。だから構造的表象は話者性を排除できているという論理。また、スペクトルをいじった場合でも同じ方言は近い場所にクラスタリングされる。

◎ピッチ同期分析と周波数平滑化に基づくスペクトル包絡推定法の誤差評価(立命館大)
森勢さん。高速なスペクトル包絡推定法STAR。提案法とケプストラム法の比較の説明は大変分かりやすかった。ピッチ同期分析(基本周期の3倍)窓で分析した対数パワースペクトルを移動平均によって平滑化してスペクトル概形を推定する。計算量低減がテーマなので、TANDEM-STRAIGHTなどと比べてどこが計算量低減に効いているのかをもっと説明してもらうとよかったと思う。

○音声F0パターン生成過程の確率モデル(NTT)
亀岡さん。藤崎モデルの確率モデル化。フレーズ指令・アクセント指令からF0を生成する2次系を差分近似によって離散化すると、指令からF0への伝達関数が拘束付き全極モデルとして表される。次に、フレーズ指令・アクセント指令を生成するHMMを考えて、両者を合体してF0の確率モデルを作る。全体のパラメータはEMアルゴリズムで推定可能。エレガントな枠組み。

○全極型声道モデルとF0パターン生成過程モデルを内部に持つ統一的音声生成モデル(NTT)
亀岡さんその2。F0を含む音声生成全体を確率モデルで表現した。音声スペクトル生成をF0に依存したウェーブレットで表現するが、フィルタバンクが推定すべきパラメータを含むところがふつうと違う。そこに前の発表でのF0生成確率モデルを合体させる。全体をEM的に推定。F0とそれを生成する各種指令、スペクトル包絡が同時に推定できる。考え方はよくわかったが数式の詳細は追いきれない。

○加齢による声の音響的変化に関する通時的研究(宇都宮大)
粕屋先生が筆頭だが都合により森先生が発表。加齢による声の変化を同一人に対して長期間追跡した。F0は下がる場合が多いが個人性が大きい。F0の変動(shimmer)は大きくなり、高域の雑音成分が増える。
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

クラックを法規制強化で止められると思ってる奴は頭がおかしい -- あるアレゲ人

読み込み中...