パスワードを忘れた? アカウント作成
10030725 journal
日記

aitoの日記: 9月27日 音響学会3日目午後 音声A・Bスペシャルセッション「ここまで来た声質変換技術」

日記 by aito

第7会場 スペシャルセッション 音声B/音声A/聴覚 [ここまで来た声質変換技術 -実用可能性の視点からの現状認識と将来展望-]
午後-前半(13:00~14:30)[ここまできた声質変換技術I] 座長 川端 豪 副座長 齋藤 大輔
3-7-1 (招待講演)統計的手法に基づくリアルタイム声質変換による音声生成機能拡張 ○戸田 智基(奈良先端大)
 非言語情報を限定する物理的制約:見方を変えれば時として障壁になる(障害によって声が生成できなくなる、任意の声が出せない、等)。声質変換をおこなうことにより、不可能を可能とするバリアフリー音声コミュニケーションが可能となる(ただし変換がリアルタイムなら)。電気式人工喉頭の音声をリアルタイムで自然な音声に変換するデモ。ピッチ変動が乏しいのはどうしようもないが声質は非常に自然。
 声質変換の枠組み。「音声入力」「テキスト入力」「音声・テキスト入力」の3つ。音声入力では、リアルタイム処理が可能だが、韻律に関連した変換は難しい。テキスト入力はTTSの出力の声質変換。韻律的特徴の返還が可能だが、リアルタイム処理は不可能。音声とテキストの入力はVocaListenerみたいなシステム。
 統計的手法に基づくリアルタイム声質変換。基本は、パラレルデータによる変換モデル学習。入力がセグメント特徴量、出力がフレームごとの特徴+Δ特徴量。GlobalVarianceも利用。変換処理では、基本的に系列全体に対する尤度を最大化する(バッチ処理)。これをリアルタイム処理するために、通常の特徴量については短いセグメントに対してカルマンフィルタを使って状態空間分布を逐次更新して平均ベクトルを出力する。GlobalVarianceについては、GVポストフィルタを使う(GVを考慮せずに生成された特徴量をスケーリングすることで分散を合わせる)。
 応用例。
・無喉頭音声の強調。電気式人工喉頭や食道発声音声を声質変換によって通常音声に近づける。身体的制約を超えた音声生成が可能。
・サイレント音声通話。NAM音声を通常音声に変換。テレパシーのように使うことができる。
・ボーカルエフェクタ。特定のキャラクタの声で話すことができる。身体的制約を超えた音声生成。
最後に声質変換の有効性と危険性。「声質変換は包丁のようなもの」(後藤真孝)

3-7-2 (招待講演)ここまで来たHMM音声合成適応技術 ○山岸 順一(NII, エジンバラ大 )
HMM音声合成の話者適応についての包括的レビュー。最初にHMM音声合成の枠組みとMLLR話者適応の基礎。
MLLR,CMLLR,SMAPLR,CSMAPLR,などの比較
変換できるもの:話者、感情、発話様式(ロンバード効果)、年齢、方言など(年齢、方言の性能はいまいち)
適応データはどの程度必要か:特定話者モデルと比較できるレベルには5分~10分の適応データが必要
・音声認識より多いが、特徴量の次元が多いせいか
データが多い場合、少ない場合
・多い場合:MLLR+MAPとか
・少ない場合:固有声、VTLN、CATなど、VTLNの線形変換行列を事前分布としたMAP推定
適応 vs. 特定話者モデル
・60分ぐらいのデータで適応~特定話者
適応後の合成音声の品質改善
・平均声モデル推定のデータ量は重要だが、単にデータ量だけではない
・似た話者による平均声モデル、話者の構造化
最近の研究
・話者の自動構造化
・どうやって十分な話者を集めるか:インセンティブとしてのVoice Bank

3-7-3 (招待講演)歌声インタフェース:歌声を対象とした信号処理とそれに基づくインタフェース構築 ◎中野 倫靖,後藤 真孝(産総研)
歌声信号処理とインタフェースの相互作用。
・様々なユーザに技術を使ってもらうためには対象ユーザに合わせたインタフェース構築が必要。
・プロ向けのインタフェースは多いが、エンドユーザ向けのものは少ない
歌声信号処理・歌声インタフェースの全体像
・歌声分析(三要素、歌手、歌い方、楽曲特性、印象)
・歌声生成(変換、合成、表情付け)、歌声検索
歌声入力による歌声生成(VocaListener)
・VocaListenerの紹介(いつもの)
 インタフェース的な意味では「ダメ出しインタフェース」「歌唱力補正」など
 Vocaloid3 Job Plugin VocaListenerの紹介
・VocaWatcherの紹介(いつもの)
・VocaListener2の紹介(いつもの)
・VocaRefinerの紹介(いつもの)
 歌詞、歌い方などを複数のテイクで自由に混ぜることができる
 多重フレーム統合分析
・VoiceDrummer, MiruSinger(省略)

午後-後半(14:45~16:15)[ここまできた声質変換技術II] 座長 能勢 隆 副座長 大谷 大和
3-7-4 C言語によるTANDEM-STRAIGHTの実装とGPGPUによる高速化に関する検討 ○坂野 秀樹(名城大),森勢 将雅(山梨大),河原 英紀(和歌山大)
最初にTANDEM-STRAIGHTの説明。TANDEMスペクトル→STRAIGHTスペクトル推定と、F0抽出(XSX)。F0抽出は複数のF0候補周波数について検出器を並列に使って抽出するので、並列化が有効。15000ぐらいのスレッドを並列させた形でCUDA用に実装した。CUDA版はCPU並列版よりも2倍程度高速で、リアルタイム処理(0.5xRTぐらい)が可能。

3-7-5 時間変化を考慮したDeep Learningを用いた声質変換 ☆中鹿 亘,滝口 哲也,有木 康雄(神戸大)
既報のDNNを使った声質変換に、時間的な要因を導入。一つずつの階層はConditional RBMを使って、直前のフレームの情報と現在のフレームの情報の両方を使うように初期化する。評価はケプストラム歪みで、時間変化を使わない場合と比べてやや改善。レイヤーの数やユニット数を変えてもあまり改善しない。主観評価では通常のDBNよりもよく、GMM(通常のDBNよりよい)よりもちょっとだけ値が高い(有意かどうか微妙)。

3-7-6 辞書選択に基づく非負値行列因子分解による声質変換 ☆相原 龍,中鹿 亘,滝口 哲也,有木 康雄(神戸大)
Exemplerベースの性質変換。複数の話者でパラレルな基底を作っておいて、元話者でNMFによりアクティベーションを求め、対象話者の基底にアクティベーションを適用することで声質変換を実現する。雑音基底を入れることで雑音除去が可能で、構音障害者の声質変換にも応用。この発表では、大まかな辞書を音素ごとに構築し、いったん音素ごとのアクティベーションを生成した後、各音素に依存した副辞書を使って対応をとる。辞書の規模を小策押さえることができる。自然性、話者性ともに従来のNMF、GMMベースの方法よりも良い。

3-7-7 ハイブリッド電気音声強調法における音源特徴量予測 ☆田中 宏,戸田 智基,ニュービッグ グラム,サクリアニ サクティ,中村 哲(奈良先端大)
電気式人工喉頭音声の改善として、声質を変換するだけでなく、人工喉頭から漏れる雑音をSSによって除去する(ハイブリッド電気音声強調法)。今回はそれを改善する方法として、F0がない区間をスプライン補間して連続値として学習する。また、マイクロプロソディをあらかじめ除去しておく(そもそもGMMでは生成できないので)。さらに、有声無声予測を回避するために、すべて有声音として合成する。学習データのF0処理によって、F0の予測精度が向上。提案法は、SSのみの方法よりも明瞭性は低下するが、有声無性予測をしない(すべて有声音)の方が明瞭性は高い。

3-7-8 統計的歌声声質変換における知覚年齢に沿った声質制御 ☆小林 和弘,戸田 智基,ニュービッグ グラム,サクリアニ サクテイ,中村 哲(奈良先端大・情報)
歌手の声年齢の変換。年齢の情報は分節的な特徴よりも韻律的特徴に多く含まれるのだが、そこをいじると個人性が失われるので、ここでは分節的特徴を操作する。変換には重回帰HMMを使い、その際に知覚年齢スコアを要因として使う。また、年齢変動に伴う変化のベクトルをいったん求め、話者依存の平均ベクトルに年齢変動ベクトルを加えることで、話者性を保存したまま年齢だけを変化させる。入力を±60歳としたときに、知覚される音声の年齢は-4~+9歳ほど変動する。

3-7-9 文音声の基本周波数のシフトが個人性知覚に及ぼす影響 ○北村 達也,肥田 友紀子,川元 広樹(甲南大)
基本周波数をシフトさせた時の個人性知覚の変化。STRAIGHTを使って±600centだけF0を変化させた。±400centぐらいだと半分ぐらい別な話者と知覚される。F0の上昇と下降の効果は対称。同じ枠組みで「声の高さの違い」を評価させると線形に近い特性を持っていて話者知覚とは異なる。実際の生活環境では、感情変化などによって±200cent以上変わることがあるので、そういう場合の個人性知覚がどうなるのか興味がある。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

私は悩みをリストアップし始めたが、そのあまりの長さにいやけがさし、何も考えないことにした。-- Robert C. Pike

読み込み中...