パスワードを忘れた? アカウント作成
9905516 journal
日記

aitoの日記: 9月1日(日) SIGMUS@東大 午前まとめ

日記 by aito

音楽解析・鑑賞 (09:00-10:30)
(14)楽曲パート混合オーディオ同士の楽譜なしアライメント手法
   前澤 陽,奥乃 博
Informed audio separationの一種.分離したいパートの楽譜情報ではなく,その部分だけを演奏した別演奏をヒントとして使う.提示例では,合奏のあるパートを自分の演奏で挿げ替える,という応用が示されていた.技術的には,単音系列と,それに似たパートを含んだ混合音楽信号の時間軸アライメントをする技術がキモ.考え方は(奥乃研らしく)ベイズ的定式化.ある時刻のあるパートの音の生成に階層型ディリクレ過程を用いて,音の系列はHMM,パラメータは変分ベイズ法で推定する.論文の方を読んだが,混合信号のモデル化はともかく,アライメントをどうとるのかよく理解できなかった.DTWと比較して良い結果.

(15)呼吸の位相に音楽フレーズを合わせて呈示した場合のアンケート調査報告
   佐藤 尚,白木 善史,パブロ・ナバ ガブリエル,鎌本 優,守谷 健弘
冒頭に音楽の能動性・受動性と意識性・無意識性の話があったが,内容的には人間の生体情報に基づいて音楽提示方法を変えようという話.呼吸によって聴覚が影響を受けるので,呼吸に合わせて音楽を再生するとどういうことが起きるか調査した.MIDI楽譜に「呼吸の楽譜」(どこで息を吸い,どこで吐くか)を付与し,聴取者の呼吸に「呼吸の楽譜」が合うように音楽のテンポを変える.実験はオープンハウスの時に行い,アンケート調査.呼吸との同期を3つのパターンで(同期しない条件を含む)行い,好みを聞いた.あまり明確な結果は出ていないが,呼吸と完全同期したときには好みが2極化する傾向にある.

(16)Songle: Web上の楽曲の中身を音楽理解技術で推定する能動的音楽鑑賞サービス
   後藤 真孝,吉井 和佳,中野 倫靖
後藤さん.テンションが・・・.Songleの新機能の紹介.ニコ動,YouTubeの映像を再生しながら音を聞くことができる.収録曲数が6000曲から60万曲に増加.楽曲構造に同期したビジュアライザ搭載.また,コード進行が同じ曲を推定することができる.また,PodCastle的にユーザが内容を修正できる機能もある.ピアプロとの連携やブログパーツなど.ブログパーツはプレイヤーだけでなく背景に音楽とシンクロしたアニメーションを表示させることができる.その他,同じ曲を使った複数の動画を紐づける機能,実デバイスとの連携(照明制御)など.

(17)ギター演奏者の習熟度に合わせた音響信号からのタブ譜自動生成
   矢澤 一樹,糸山 克寿,奥乃 博
音響信号からのタブ譜生成.ギター用タブ譜では弦が6本なので,(最大)6音のタブ譜を作らなければならない.そのため,多重音高推定結果と運指推定モデルから,演奏可能な音高だけを残す.また,運指の容易さと再現度の高さのトレードオフを調整することができる.音高推定はLatent Harmonic Allocationベースで,後処理によって音高候補を減らすことで精度を上げる.運指推定モデルはDPベースで,特定の運指のフォームが各節点となる.運指容易度は,フォームの押さえ方の容易さと前のフォームからの移動の容易さを足して得られる.

■歌声情報処理最前線!!! 第1部(10:50-12:20)
最初に後藤さんからの熱いメッセージ.情処の「CGMの現在と未来」の話とか.スペシャルセッションの紹介.

(18)鼻歌検索システムのための楽曲からのボーカルメロディ推定
   角尾 衣未留,井上 晃,西口 正之
ハミング検索のデータベース作成のために,音楽音響信号からメロディ(ボーカル音高)を推定する.抽出にはボーカル音声らしさを利用する.ボーカル信号はピッチ揺らぎがあるために,パワースペクトル上でのピークが楽器に比べて幅が広がる.それを利用し,周波数方向にローパスフィルタをかけて楽器によるピークを抑圧したうえで,倍音構造からフレーム上のピッチ候補を求め,最終的にDPでピッチの点を連結する.連結の際に,いきなりピッチ候補をフレームごとにつながずに,隣り合うフレームでピッチが大きく変化しない候補を「ピッチ軌跡ユニット」としてまとめてからつなぐ.また,ピッチの大まかな動き(ピッチトレンド)を推定して,それとの類似性も考慮する.デモがなかなかうまくいかなかったが,最後に産総研の中野さんがプロローグを歌ってデモが成功.中野さんに賞をあげたい.

(19)ポピュラー音楽における歌声の印象評価語を自動推定するシステム
   金礪 愛,中野 倫靖,後藤 真孝,菊池 英明
歌声からの印象評価語の自動推定.なぜ菊池研?と思ったが,以前音声について似たようなことをそういえばやってたね.印象評価語は,以前著者がポピュラー音楽評価のために選定した評価語セット44語をベースとした50語.歌声の音響特徴量と評価語のモデル化は重回帰分析.音響特徴量にsinger's formantを入れているところが玄人っぽい.スペクトル分析はSTRAIGHT.スペクトル上の特徴のほかに,F0軌跡の遷移が100セントにどれだけ乗っているか,ビブラート関連量など歌声独特の量も利用.また,音響特徴量ごとに評価語との関連を分析していて興味深い.迫力性にかかわる評価語の推定精度が高い.特徴量自体の推定が容易だからだろう.

(20)伴奏付き歌唱に含まれる歌い方要素の個別抽出
   池宮 由楽,糸山 克寿,奥乃 博
歌唱の「歌い方要素」(ビブラート,こぶし,グリッサンドなど)を混合音楽信号から推定する.まず混合音楽信号からボーカルのF0抽出を行う.次にF0軌跡を音高列に分解し,各音高に対する変動をモデル化する.ビブラート検出は中野さんの方法.グリッサンド(ずり上げ,ずり下げ),こぶし検出はヒューリスティック.F0抽出精度は80%程度(±25cent).グリッサンドとこぶしの検出精度評価はなかった.応用として,曲から抽出した「歌い方要素」を元にVOCALOIDに表情付けするデモが示された(表情付けはルールベース).VOCALOIDはメグッポイドだったが,こぶしを付加するなら鏡音リンを使うべきだったな.また,ビブラートを付加するのにVOCALOIDのビブラートパラメータを使ったのもいまいち.しかし,歌の変動を要素として抽出すること自体は今後の展開が期待できて良いと思う.

(21)様々な歌手が同じ曲を歌った歌声の多様さを活用するシステム
   都築 圭太,中野 倫靖,後藤 真孝,山田 武志,牧野 昭二
「歌ってみた」動画応用.同じ曲に対する複数の「歌ってみた」動画をマッシュアップする「合唱製作システム」.複数の動画の同期を取ったうえで,合唱させる歌い手をリアルタイムに追加削除したり,あらかじめ決めたタイミングで歌い手を切り替えることができる.また,複数の歌い手のF0軌跡と自分のF0軌跡を比較することで歌の練習に役立てることができる.F0推定部分について少し詳しく説明があったが,伴奏抑圧ではカラオケ信号の存在を仮定してスペクトル減算をやっているようだ.そのうえで,複数の歌い手によるF0を加算して,その中で頻度の高いF0(最頻F0)を求め,それに近いF0軌跡を選ぶ.

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

未知のハックに一心不乱に取り組んだ結果、私は自然の法則を変えてしまった -- あるハッカー

読み込み中...