パスワードを忘れた? アカウント作成
349293 journal

aitoの日記: SIGMUS@関西学院大学 3日目まとめ

日記 by aito
7月29日(金)

■音楽検索・変換・同期
(17)トーン構造記述子を用いた高速背景音楽検索(ソニー)
テレビ放送のBGMから音楽を検索する技術.GracenoteのTrackIDは前景音への頑健性が足りない.また,1000万曲のデータベースとマッチングするためには高速なマッチングが必要.前景音はほとんどが音声なので,周波数成分が時間的に安定かどうかを利用して音声とそれ以外を分離する.また,持続性トーンを2bit/frameで表現して特徴量の情報量を削減する.マッチングはビットマスク的マッチングで,それほど工夫はないが速度は速いようだ.音楽と音声の分離方法については,似た発想のやり方を以前SIGMUSでもICASSPでも見たことあるなあ.

(18)オーディオ−MIDI符号化ツール「オート符」における倍音除去機能の実装(大日本印刷)
茂出木さん.どんな音でも無理やりMIDIにするツールであるオート符を使って,もともとMIDIで書かれた(あるいは楽譜からMIDIに変換した)音楽に表情付けするのを支援するのが目標.今回は,一つの音をできるだけ一つのノートで表現するために,倍音成分の除去処理を実装した.周波数分析は一般化調和解析.倍音除去はそれほど凝ったアルゴリズムではなく,ヒューリスティックな感じ.

(19)MAHL:演奏者間のインタラクション分析のためのスコアアライメント手法の提案(京大)
奥乃研.第1著者ではないが糸山さんが発表.楽譜と音響信号を同期させる処理.実際の演奏に現れるゆらぎのうち,複数楽器が同時に鳴るときの発音タイミングの揺らぎに対処した(その他の揺らぎには既に対応済み).テンポの時間変化には自己回帰モデルを適用.アライメントにはHMMではなくHSMM(最低持続時間付きHMM)を利用する.楽器の発音モデルにはLatent Harmonic Allocation (LHA).変分ベイズEMでモデルパラメータを推定する.推定計算はだいぶ重いようだが,7割ぐらいの対応は正解から50msぐらいに収まっている.

■音楽のための画像処理
(20)アノテーション情報を付加した画像内容推定結果に基づく自動ダンス動画生成システム(早稲田大)
森島研.自動MAD動画作成.ユーザが入れたい要素(特定のキャラクタの顔など)を含む動画をつぎはぎするのが目標.そのために,元動画のアノテーション情報(タグ)を考慮する.また,画像中のオブジェクトの類似度にHOG特徴を導入する.あいかわらず動画のサンプルはアイマスかMMD.デモビデオでは初音ミクのダンス動画を流していた.どの程度がんばって特定のオブジェクトを検出するかは研究の目標しだいなのだが,その辺があいまいだと思った.

(21)音名信号を用いた学習データ選択に基づく距離画像ベースのマーカレスピアノ運指認識手法の提案(中京大)
ピアノ運指の自動認識.照明光のtime-of-flightによって距離画像を計測できるカメラ(TOFカメラ)を使う.取得画像を特定の運指ごとに学習画像として保存.認識時は,撮影画像と,実際に押されていたキーの情報から運指の候補を絞り込み,学習画像と比較することで認識を行う.認識を高速化するために,ANN(Approximate Nearest Neighbor)法で高速化を行う.カメラから手が外れると認識ができないので,計測できるオクターブ範囲が狭いのが欠点.

最後にベストプレゼンテーション賞の発表.
NTTの中野さん「スペクトログラムのベイジアンノンパラメトリックモデリングに基づく音楽信号の解析」,当研究室の阿部さん「統計的言語モデルを用いた作詞補助システム」の2件が受賞.

皆様お疲れ様でした.
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

吾輩はリファレンスである。名前はまだ無い -- perlの中の人

読み込み中...