8月31日（土）SIGMUS@東大午後まとめ | aitoの日記

aitoの日記： 8月31日（土）SIGMUS@東大午後まとめ 0

日記 by aito 2013年08月31日 21時41分

■感情・聴取 (13:00-14:30)
（1） MusiCuddleを利用した長調／短調の違いによる感情変化
　　　大島千佳，中山功一，伊藤直樹，西本一志，安田清，細井尚人，奥村浩，堀川悦夫
音楽の認知症患者ケアへの応用．認知症の中で，同じ単語を繰り返し発生し続ける症状(BPSD)の人を対象とした研究．そういう患者に音楽を使うと気分を改善できるか．手法として，発話音声をボコーダにかけて，MusiCuddle（ある音高の音に対して特定のルールで和音系列を作る）にかけて，それを聴取者（健常者）に聞かせて気分を主観評価．このときに，フレーズを長調と短調にした時にどのような違いが出るか．素材は比較的暗めの詩の朗読．長調と短調を行ったところ，評価語「陽気な」と「悲観した」に対して差が見られた．菅野先生の「ペンタトニックを使ったら」という指摘は面白かった．

（2） 2ch NIRSを用いた音楽聴取時の脳活動解析
　　　掛川茉祐，小宮山諒，菊池眞之
400曲の音楽(14ジャンル)を被験者に聞かせ，脳活動をNIRSで計測．計測対象は聴取開始後10秒間のOxy-Hb, Deoxy-Hbの値．脳活動状態からジャンル識別をしたところ，SVMよりもRandom Forestを使ったほうが認識性能が高い（というかSVMではほとんど識別できない）．また，楽曲が既知であるかどうかについても評価を行い，こちらの方が高い識別結果．

（3）旋律の演奏表情を考慮した言語モデルに基づく自動伴奏生成
　　　宮田佳奈，酒向慎司，北村正
楽曲作成支援のための伴奏自動生成．入力はメロディとコード，演奏表情で出力は伴奏（和音とリズムを独立に生成）．生成はルールベース．和音生成では，コードから和音の発音候補を生成し，連続する和音間の不協和を避けるものを選択．リズム生成はN-gramで，似たリズムを木構造クラスタリングしたうえでクラスN-gram（可変長）を使う．生成されるリズムを，メロディの音量と音高差によって変化させる．詳細はよくわからなかった．

（4） Does the Audience Hear My Heart?―作曲者意図と楽曲リスナーの印象の比較―
　　　エバンズベンジャミンルカ，棟方渚，小野哲雄
作曲者の意図が楽曲の聴取者がどの程度伝わるか．作曲者の意図を表現するのは難しいので，聴取者印象として使われているものをそのまま利用．聴取者に対しては，皮膚電気活動(SCR, SCL)，皮膚音，心拍数も計測．2曲について実験を行ったところ，作曲者と聴取者の楽曲印象は比較的類似．楽曲BのSCLが有意に高かった．次の実験では，作曲者に「より意図が伝わるよう」編曲した楽曲Aについて同じような実験を行い，結果がやや変わった．

■音楽音響信号 (14:40-16:10)
（5）楽器音に対する仮想音源のパラメータ推定
　　　糸山克寿，奥乃博
楽器音イコライザの音源とするために，音源分離した音自体を使うのではなくて，音源分離した音に最も近いMIDI音源を使おうという考え．たくさんの音源について，パラメータをランダムに生成して大量の音を作り，その音から抽出した特徴量とパラメータとの関係を回帰分析によって求める．パラメータは音量・残響時間・フィルタなどと，音源の情報（どの音源か）．音信号が与えられたら，そこから特徴を抽出して，重線形回帰分析を逆に適応することで最も似ている音源とそのパラメータを推定する．音響特徴は，MFCC，パワー，その他音楽分析によく使われているもの．その時間変化も2種類（短時間，長時間）使う．また特徴量については，音に対してその全体や一部を使った様々な区間について，各種統計量を求め（1種類の音について約30万次元），PCAで1000～3000次元ぐらいに圧縮．ホワイトノイズを乗せた音についても，ある程度の性能が得られた．面白い研究だがまだこれからな印象．

（6）既存楽曲のコード進行を編集できる音楽音響信号加工法
　　　深山覚，後藤真孝
音響音楽信号のコードをいじって変えてしまう研究．音響信号をいったんクロマベクトルに変換し，それを操作してまた元に戻すのが基本的なアイデア．分析のためには，クロマベクトルを既知のコードパターン（基本コードと付加音）の重ね合わせとしてNMFにより分解する．様々な音楽のクロマベクトルの分解結果をコーパスとして保持し，目標となる音楽の重みパターンを使って元の音楽のクロマベクトルの重みを挿げ替えることでコードを編集する．クロマベクトルから音を生成するには，原音をくし型フィルタで抽出した音候補（ピッチシフトで生成した音を含む）を用意して，それを重ね合わせてクロマベクトルを作った時に，目標のクロマベクトルとの二乗誤差が最小になるように音候補の強さを変更する．生成例は微妙にしか変わっていないので，もっとわかるように変えるのが今後の課題．考え方は大変面白いので，もっと性能がよくなるといいと思った．

（7）歌唱者の異なる同一楽曲の検索に適した音楽指紋
　　　高田怜，喜田拓也
「歌ってみた」から元の曲が検索できるオーディオフィンガープリント．既存の方法に対して，フィンガープリントに使う周波数帯域を変えることと，フレームシフトを変えて実験を行った．データベースはボカロ曲や歌ってみた，J-POPが含まれる7849曲．タスクは，「歌ってみた」をクエリとして原曲を検索するタスク．VOCALOID曲でサビ部分だけをクエリとした時は低音部分だけからフィンガープリントを作った方がよかったが，J-POPではそうでもなかった．伴奏のクオリティの問題もあるという分析．サビを使うからボーカル信号が問題になるので，イントロを使ったらいいんじゃないかと思ったが，それじゃ夢がないかな．

（8）モノラル音響信号に対する音源分離のための無限半正定値テンソル分解
　　　吉井和佳，富岡亮太，持橋大地，後藤真孝
ベイジアン吉井さん．NMFのノンパラメトリックベイズ的に自然な拡張としての半正定値テンソル分解(PSDTF)を提案．混合音を周期カーネル（共分散行列）を持つガウス過程でモデル化し，得られた混合音の共分散行列から原音のカーネルを推定する枠組み．サンプリング音をそのまま（パワースペクトルにせずに）分解することができるところが画期的．NMFに比べて分離性能が10dB程度向上．計算量は大きそうだなあ．

■ピアノ・合奏 (16:20-17:50)
（9）名演奏家の合奏録音における伴奏者の演奏タイミング制御の分析
　　　和田静花，堀内靖雄，黒岩眞吾
自動伴奏システムで，単にテンポ変化や演奏ミスに対応するだけでなく，人間らしい伴奏を行うのが目標．先行研究では，演奏者と伴奏者の音符タイミングずれと，伴奏者の音符ごとのテンポ変化をパラメータとしてテンポを予測していた．先行研究では単純な曲だけを分析対象としていたので，今回はCD収録の複雑な合奏（シューベルト）を使って，上記パラメータによる予測が有効かどうか分析を行った．分析方法としては，MIDI信号からの生成信号を実信号に近づける方法（嵯峨山研の技術）をつかって演奏タイミングをMIDIに変換する方法を使った．実演奏では，音楽的逸脱（フレーズ終端でのテンポ変化）の部分以外では上記パラメータによる予測が有効な曲と，それでは説明できない曲があることがわかった．

（10）マーカレス運指認識と音列照合によるピアノ演奏スキル評価システムの提案
　　　岡明也，有賀治樹，杉山健太朗，橋本学，長田典子
ピアノの運指を評価するシステム．音列照合には端点フリーDPマッチングを使い，打鍵ミスによる音列の乱れに対応する．指認識にはKINECTを使用し，手のモデルから生成した距離画像とKINECTから取得した距離画像の差が小さくなるようにモデルをフィッティングする．オクルージョンには対応できない．菅野先生から「どの程度の速さまで対応可能なのか」という質問が出て発表者が困っていた．

（11）連続デプス画像解析に基づく仮説検証型ピアノ運指認識手法
　　　有賀治樹，岡明也，橋本学，長田典子
前の発表の運指認識部分．まずどの指がどの鍵盤を押さえているかの仮説を複数用意する．仮説生成では，まずKINECTの距離画像から指の先端の候補を求める．手首位置を基準に，各指がどの部分にあるのかをガウス分布で近似し，それをつかって「どの指先がどの指か」の確率を求める．それぞれの仮説に対して3Dモデルを使って距離画像を生成し，KINECTからの画像に最も近いものを求める．認識率は87%程度．指くぐりには対応していない．リアルタイム追従は現状では難しい．

（12）ピアノロール画像の比較による旋律類似性評価手法の検討-若干の音高の違いを許容する旋律概形の比較評価-
　　　柴﨑正浩，鈴木泰山，米村俊一
演奏表情付けシステムKagurame Phase-IIIの関連発表．このシステムは事例ベースなので，曲の一部と類似した事例を持ってくる必要がある．従来の類似性としては，楽譜をピアノロールの濃淡画像にして，音高方向にずらしながら計算した相関の最大値を使っている．音高方向に固定量だけシフトして相関を取るので，音高が微妙にずれているものについては相関が出ない．このような場合にも相関を出すために，ピアノロール画像を音高方向に平滑化する．また，「比較する２画像とも音符がない」ことが高く評価されないような評価方法を導入する．画像にして比較するのはわかりやすくはあるが，音楽的にどういう意味があるのかが分かりにくくなるので，（たとえ同じことであっても）音楽的データとして定式化したほうがいいんじゃないかなあ．あと手法がヒューリスティックなのがいまいち．

■デモセッション (18:00-19:30)
（13）デモンストレーション: 音楽情報処理の研究紹介XII
　　　深山覚，石倉和将，和泉諒，岩井憲一，植村あい子，奥村健太，加庭輝明，河原英紀，小池宏幸，須之内元洋，竹川佳成，土屋政人，中村友彦，中村亮介，濱崎雅弘，ベンジャミンエバンズ，堀内俊治，松原正樹，三浦寛也，莱孝之

会場に対してすごい人数．

・自動で曲名を教えてくれるメディアプレイヤー（早稲田大）
プレイ中に音楽検索を使って（カバーであっても）曲名がわかるプレイヤー…らしい．直接聞けなかった．

・多重音に対する音高・音源数の高速計算法（東邦大）
６和音ぐらいをリアルタイムで多重音解析できるアルゴリズム．ハーモニッククラスタリングがベース．

・色彩情報に基づく自動作曲WebアプリケーションMUSCATの紹介（滋賀大）
色を指定すると似た印象の音楽を自動作曲する．

・異なるビットレートの楽曲を用いたクロマベクトルの解析と和音認識性能評価（早稲田大）
オーディオ符号化で劣化した音楽信号からの和音認識性能の評価．かなりの程度まで圧縮してもほとんど変化なし．パワーの大きいところはあまり削られないので，クロマベクトル自体もあまり変わらない．

・楽譜を用いた芸術的逸脱の統計的モデル化手法に基づく鍵盤楽器演奏の分析と再構築（名工大）
効けなかった残念

・定常状態誘発反応の脳波可聴化システム（筑波大）
SSVEPを可聴化する．脳波の中の「出るはず」な周波数をフィルタリングして，その出力をPWM変調して音にする．脳波解析に同期加算が必要なのでリアルタイムではないのだが，オフラインで可聴化してどうするのか今一つ不明．

・体験！異なった時間軸を持つ複数の歌声をモーフィングしよう（和歌山大）
河原先生．速さもリズムも違う（内容は同じ）３つ（以上）の音声のモーフィング．詳細は明日のスペシャルセッションで．

・タブレット型デバイスを用いた電子楽器プラットフォーム「piaScore」（プラスアド）
iPad用の電子楽譜アプリ（製品）．見るだけでなく音として演奏することも可能らしい．

・拡張マルチスケールフラクタル次元を用いた環境音の類似検索システム（北大）
見られなかった．

・演奏用インタフェースのプロトタイピングのためのPC用キーボードカバー（はこだて未来大）
竹川先生．普通のパソコンのキーボードの上にいろいろな形（ピアノ鍵盤とか）のキーボードカバーを付けて，パソコンを電子ピアノやドラムパッドにしてしまう．必要なのが単なるプラスチックカバーとソフトウェアだけというのが素晴らしい．工夫によって，鍵盤のベロシティをセンシングすることも可能．すごい．

・MIDIフィッティングシステム（東大）
耳コピ支援ツール．音楽信号のスペクトログラムとピアノロールを重ねることで耳コピを支援．嵯峨山研の技術によってMIDIデータを音響信号に自動フィッティングさせる機能がある．今日の(9)の発表はこれを使ったんじゃないかな．

・音楽音響信号の曲調変換システムに向けて（東大）
聞けなかった．

・Eurydice: 任意の弾き直し・弾き飛ばしにも追随する自動伴奏システム（東大）
おなじみEurydice．私は演奏できないので素通り．

・複数の実ユーザとマルチエージェントによる協調演奏システム（横浜国大）
複数のプレイヤーに対する自動伴奏．複数の自動伴奏者と実演奏者の（仮想的）位置関係を設定することで，自動伴奏が誰に合わせるかをコントロールできる．

・音楽を「アタマで考える」ためのユーザ入力インタフェースの検討（相愛大学）
橋田先生．コンピュータで楽譜を操作する時の様々な問題点について議論したが，問題意識がどこにあるのか今一つはっきりせず．

・Songrium: コンテンツのつながりを楽しむ音楽視聴支援システム（産総研）
聞けなかったが，あとで実物を見よう．http://songrium.jp/map/

・和声学に基づく合唱譜自動作成システム（北大）
聞けなかった．

・自由視点画像と聴覚提示に基づくスマートフォン向けインタラクティブミュージックビデオアプリケーション（KDDI研）
アーティストのプロモーション用アプリ．演奏ビデオを任意の視点から見ることができて，立体音響技術によって音像が映像と同期して変わる．

・リハビリ応用に向けた筋電可聴化フィードバックシステム（筑波大）
腕の筋電位の可聴化．やってみたかったが番が回ってこなかった．

・音楽理論GTTMを用いた議論タイムスパン木生成システムのプロトタイピング（はこだて未来大）
GTTMを使って，議論の要約みたいなことをしているようだ．要約も木を作るからということらしいが，要約には要約のルールがあるので，GTTMをそのまま使うってのはどうかなあ．逆にルールを要約用にしたらそれはGTTMではない気が．

・DIPS5 for Max（国立音大）
Max用の画像処理ツールボックス．リアルタイムで撮影画像がぐんにゃりしていた．

aitoの日記： 8月31日（土）SIGMUS@東大午後まとめ 0

8月31日（土）SIGMUS@東大午後まとめ More ログイン

スラド

8月31日（土）SIGMUS@東大 午後まとめ More ログイン

8月31日（土）SIGMUS@東大午後まとめ More ログイン