パスワードを忘れた? アカウント作成
1486533 journal
日記

aitoの日記: 2/4 SIGMUS&SIGSLPまとめ

日記 by aito

午前はMUSとSLPのパラレルセッション.私はSLPの方に参加.
MUS側ではうちの学生が参加しているので,あとでニコ生をチェックしよう.

2月4日(土)

●対話とインタラクション 【09:50-10:40】
(19)単一対話エージェントと複数対話エージェントを用いた音声対話システムの分析と評価
   藤堂祐樹,西村良太,山本一公,中川聖一
エージェントが複数(2体)いる対話システム.対象は雑談(うどんとラーメンのどちらが好きか).ユーザプロファイルは複数エージェント間で共有する.いろいろ制御しているが,どの程度一般的なのか疑問.エージェント表示はTVML,音声合成はGalateaTalk.主観評価の結果,「話しやすさ」「雑談らしさ」で3者対話の方が高評価.音声認識率と様々な指標の相関を見た結果,親しみは音声認識率に依存するが,雑談らしさはあまり関係ない.次回は「きのこの山vs.たけのこの里」でやるといいと思った.

(20)データベース検索音声対話システムにおける対話状態の推定
   西村良太,駒谷和範
レストラン検索の対話において,「検索条件の指定」と「情報の提示要求」の2つの状態を設定し,現在どちらの状態なのかを機械学習により推定する.学習手法はロジスティック回帰.単純なルールによって現在の状態を推定する方法に比べて,状態推定性能が10%向上(81→91%).現在は2状態だから問題ないが,状態が多くなると状態遷移に制約があるはずなので,この方法だと破綻しそう.

●学習・支援 【10:50-12:05】
(21)特徴空間における長時間スペクトル変動成分の識別学習
   福田隆,市川治,西村雅史
識別的特徴量変換の検討.特徴量変換の話は初めて聞いたが面白そうだ.fMMIで特徴量変換をする場合にも,短時間と長時間のΔパラメータが有効なのか調べた.結果として,特にSNRが低い場合に長時間Δパラメータが有効.

(22)コミッティに基づく能動学習・半教師付き学習を用いた音声モデル
   蔦岡拓也,篠田浩一
書き起こしのないデータから書き起こしを人手で作らなければならない場合に,どのデータを書き起こすと学習後の認識器の性能が上がるかを自動推定する(能動学習).この場合は信頼度が低いデータを優先する.また,自動書き起こし内容を学習に使う(半教師つき学習)場合には,信頼度の高いデータを使う.この2つを組み合わせるために,コミッティを使った方法(複数の認識器の出力のばらつきを使う)を検討.ばらつきの指標は,Vote Entropy(複数結果をアラインメントし,各単語位置での単語出力確率のエントロピーを求め,その平均を取る).半教師つき学習では,最もスコアの良いデータではなく,スコアの平均に近いサンプルを追加することで性能が改善する.

(23)音声書き起こし支援システムに向けた自動頭出し機能の開発と評価
   芦川平,永尾学,西山修,池田朋男
発表者事故のためキャンセル.

●マルチモーダル音楽情報処理 【13:15-14:30】
(24)音楽動画コンテンツ中のアーティスト名とその登場シーンの同定手法
   平井辰典,中野倫靖,後藤真孝,森島繁生
音楽PVの中のアーティストの顔認識.撮影条件や化粧などが違って単純な顔認証はできないので,同一アーティストの既存の映像から顔を連続的に検出・トラッキングして,複数フレームをまとめたもの(顔時間連続体)をひとまとまりにして顔を認識する.顔をトラッキングした後,特徴点を使って顔の向きを正規化し,特徴点の周りでHOG特徴量を計算する.HOGを使って,既存の顔とのユークリッド距離で識別する.PVは条件が悪くて難しそうだが,結構いい精度が出ていた.

(25)加速度センサによるユーザコントロールを導入した音楽に合った舞踊動作の自動生成
   安永卓哉,中澤篤志,竹村治雄
音楽からダンスモーションを自動生成する.ユーザがWiiコンを持って一緒に踊ることで,ユーザの盛り上がりを推定してそれに合ったダンス動作を合成する.ダンス動作生成はモーションキャプチャーによって収録した実際の動作をセグメントごとに連結する方法.

(26)指揮システム:“VirtualPhilharmony”楽器ごとの個別タイムラインによるスケジューラ管理
   馬場隆,橋田光代,片寄晴弘
AirConductorたちの熱い情熱に応えるためのバーチャル指揮システムVirtualPhilharmony.今回は,楽器全体の拍のずれだけでなく,ある拍での楽器ごとのタイミングずれを考慮し,それが少なくなるように全体のタイムラインを制御する(?).左手を使って特定パートの音量を変えたりできる.デモをやったが,今一つうまくいかなかったようだ.

●音楽の認識・理解 【14:40-15:55】
(27)調波・非調波・音色構造因子分解による音響信号分析と音源分離インターフェースへの応用
   安良岡直希,奥乃博
ヤマハの安良岡さん(@yasuraok).音源のモデル化による音源分離手法.混合ガウス分布で表現された線スペクトルがLPCスペクトルを励起し,それが複数あってNMF的に混ざるという定式化.最適化の評価指標はIダイバージェンス.NMFによる分離より高性能で,デモではそれなりにうまく分離できていた.

(28)ポピュラー音楽におけるギターソロの採譜支援システム
   浅川智瑛,浜中雅俊
かっちょいいギターソロを耳コピするための支援.コピーしたいメロディ成分について,時間的にピークを追跡し,それを元に特定のギター成分を強調する.実装はPureData.

(29)音響特徴・ベース音・和音遷移を用いた自動和音認識
   糸山克寿,尾形哲也,奥乃博
和音の認識に,音楽信号から抽出した特徴量(クロマベクトル)だけでなく,ベースラインを使う試み.クロマベクトルをGMMでモデル化するが,根音で正規化するのでmajとかminごとのGMMができる.PreFEstでベースライン音高確率を求め,これを推定式に統合する.コード進行のモデル化はN-gram(HPYLM).

●演奏・分類・予測 【16:05-17:20】
(30)エレキギターの表情付け支援システム「Guitar-Case Maker」
   水本直希,馬場隆,北原鉄朗,片寄晴弘
エレキギターのMIDIに表情付けをする.方式は事例ベース.運指を推定して,その系列とメロディ情報などをキーにして事例を探す.運指推定はDPによる.表情付けするメロディ断片と事例とを比較するときの類似度関数をユーザが定義できるところが新しいが,適切な類似度を考えるのは大変そうだ.

(31)類似度に基づくポリフォニックな楽曲の分類
   阿南陽子,畑埜晃平,坂内英夫,竹田正幸
事例に基づく楽曲の分類.ある楽曲について,既存の2つのジャンルの曲2曲のどちらに近いかを網羅的に計算し,重み付き多数決によってどっちのジャンルかを推定する.近さ(距離)を計算するのに文字列マッチング的手法を使う.以前はモノフォニックだったので音名を文字列としていたが,今回はポリフォニックなので,いったんクロマベクトルを作り,それを次元圧縮したうえで用いる.文字列マッチングそのままは使えないので,重み付き編集距離(DP距離)を使う.

(32)暗意実現モデルにおける連鎖構造を用いたメロディ構造分析
   矢澤櫻子,寺澤洋子,平田圭二,東条敏,浜中雅俊
音楽理論「暗意実現モデル」に従って実際のメロディを分析したらどうなるかやってみた.最終的にはメロディ作成支援を目指しているらしい.暗意構造モデルは,3音符連鎖の系列(連鎖構造)としてメロディをモデル化する理論.理論で提唱されている連鎖構造がどの程度出現しているのかを調査.クラシック楽曲を調査した結果,理論で定義された連鎖構造しか出現しなかった.また,作曲者による連鎖構造の出現傾向の違いについて考察.

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

あつくて寝られない時はhackしろ! 386BSD(98)はそうやってつくられましたよ? -- あるハッカー

読み込み中...