パスワードを忘れた? アカウント作成
241651 journal

aitoの日記: SIGMUS28日まとめ

日記 by aito
■スペシャルセッション「歌声情報処理最前線!」第1部 [13:35~14:50]
後藤さんが挨拶。テンション高い。セッション全体の紹介。

(1) Sinsy:「あの人に歌ってほしい」をかなえるHMM歌声合成システム
徳田先生と徳田研の大浦さん。最初に大浦さんがSinsyのデモ。次に徳田先生による全体説明。「調教」は専門用語だったのか。徳田先生講演分は技術的よりも社会現象的な部分がメイン。デモとして耳のあるロボットの唄が流れた。後半は大浦さんが技術的な内容について説明。基本的なHMM歌声合成と、話者適応手法。楽譜と歌声をアップロードすることで歌声モデルを作成するサービスも検討中。

(2) 歌唱曲自動作曲の需要と今後 - 2年間のOrpheus運用を通じて
深山さん。Orpheusの経緯と技術的概要について。これまで86900曲が生成され、毎月3000曲ペース。今後の展開として、現代ポップス風和声進行や歌声の多様化を検討。構成を持った長い曲の生成例で、きのうNHKでやってた曲をデモ。システム改良案として、作曲結果をMIDIやVSQで保存したり、より複雑な曲の生成を検討。旋法にあった楽曲の生成、既存の曲のリズム木の利用などもやりつつある。曲想とかスタイルまでいくと話が難しそうだなあ。

(3) VocaListener2: ユーザ歌唱の音高と音量だけでなく声色変化も真似る歌声合成システムの提案
中野さん。テンション高い。今回は製品名出まくり。完全に初音ミクアペンドが開発動機なのか。同じ歌手の複数のライブラリを使って声の質を補間する方法。基準声から目標声へのスペクトル包絡の変形を「スペクトル変形曲線」として表現し、それを3次元に圧縮して「声色空間」とする。基本的にPCAを使うが、個人性と個人内の声色をどう分離しているのかよくわからなかった。またスペクトル変形自体が音韻に依存するのではないだろうか。

■スペシャルセッション「歌声情報処理最前線!」第2部 [15:10~16:25]

(4) 歌声情報処理: 歌声を対象とした音楽情報処理
後藤さん。テンション高い。産総研での歌声情報処理事例9つを紹介。基盤技術を含めて説明。歌声理解:LyricSynchronizer、Singer ID、MiruSinger、HyperLinking Lyrics、ブレス検出。歌声検索:VocalFinder、Voice Drummer。歌声合成:SingBySpeaking、VocaListener。デモ豊富。

(5) 実時間歌唱力補正に基づく新たなカラオケエンタテインメントの創出
立命館の森勢さん。歌唱の音程・歌い回しをプロのものとすげ替えてリアルタイム合成するシステム。自分の歌唱力を他人に提供するというアイデアは新しい。スペクトル包絡推定について詳しく説明。STARはTANDEMと違って窓関数が一つでよいので計算量が小さい。全体的に計算量の低減が主眼。技術の名前(DIO,STAR,PLATINUM)につっこみを入れたかったが座長なので自重した。

(6) 歌声を見て触る: TANDEM-STRAIGHTと時変モーフィングが提供する基盤
和歌山の河原先生。予稿にはSTRAIGHTの技術的な話が書いてあるが、発表はいつも通りフリーダム。これまでのSTRAIGHT関連の技術を時系列に沿って説明。豪華なムービー付き。コメントに困る。

■スペシャルセッション「歌声情報処理最前線!」第3部 [16:45~18:00]
(7) 混合音中の歌声スペクトル包絡推定に基づく歌声の声質変換手法
産総研の藤原さん。混合音中の歌声を別な声にすげ替える方法。W-PST法を利用。歌声と伴奏をそれぞれ周波数ごとに独立な確率分布と考えて、歌声のスペクトル包絡の確率分布を作る。入力スペクトルを歌声包絡×線スペクトル形状+伴奏スペクトルで近似し、最尤基準で歌声と伴奏の混合比を推定する。これによって入力を歌声と伴奏のスペクトルの分布の和に分解できるので、歌声スペクトルだけをすげ替えると、声質の変換が可能。

(8) SpeakBySinging: 歌声を話声に変換する話声合成システム
京大奥乃研の阿曽さん。歌声から話し声を生成。用途は一つしか思いつかない。一応目標は「歌声のように表現豊かな話声合成」。話声の方はターゲットを用意し、それに合わせる。ターゲット音声生成はTTS(OpenJTalk)におまかせ。分析はSTRAIGHT。評価として、声質が同じかどうかの主観評価を実施。元々引き延ばされた音声を縮めて話声を作るので、どうしても間抜けっぽい声になる。その辺をどうするかが課題か。「歌声の特徴は音色だけではなく時間的な動きに寄るところが大きいのに、その部分を完全につぶしてしまうのはどうか」とコメントした。

(9) Vocal Dynamics Controller: 歌声のF0動特性をノート単位で編集し,合成できるインタフェース
NTT大石さん。F0の動特性を「減衰率」と「固有周波数」で表現し、「音程」と加えることで動特性も含めて歌声を操作する。F0抽出のあとで修正を加え、LPC分析の残差スペクトルのF0だけを伸縮して調整する。F0の分析手法は以前からやっていた方法だが、2次系のパラメータの推定手法が進歩している。分析手法としてはいいと思うのだが、歌声をいじるソフトウェアに有効なのかどうかは疑問に思った。2次系の特性の生成は簡単なので、いったん歌声を完全にフラットにしてしまったあとで、完全に合成された動特性を付加しても音楽制作用ソフトウェアとしては十分じゃないだろうか。
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

ソースを見ろ -- ある4桁UID

読み込み中...