パスワードを忘れた? アカウント作成

aitoさんのトモダチの日記みんなの日記も見てね。 スラッシュドットのRSSを取り込んでみよう。

1486533 journal
日記

aitoの日記: 2/4 SIGMUS&SIGSLPまとめ

日記 by aito

午前はMUSとSLPのパラレルセッション.私はSLPの方に参加.
MUS側ではうちの学生が参加しているので,あとでニコ生をチェックしよう.

2月4日(土)

●対話とインタラクション 【09:50-10:40】
(19)単一対話エージェントと複数対話エージェントを用いた音声対話システムの分析と評価
   藤堂祐樹,西村良太,山本一公,中川聖一
エージェントが複数(2体)いる対話システム.対象は雑談(うどんとラーメンのどちらが好きか).ユーザプロファイルは複数エージェント間で共有する.いろいろ制御しているが,どの程度一般的なのか疑問.エージェント表示はTVML,音声合成はGalateaTalk.主観評価の結果,「話しやすさ」「雑談らしさ」で3者対話の方が高評価.音声認識率と様々な指標の相関を見た結果,親しみは音声認識率に依存するが,雑談らしさはあまり関係ない.次回は「きのこの山vs.たけのこの里」でやるといいと思った.

(20)データベース検索音声対話システムにおける対話状態の推定
   西村良太,駒谷和範
レストラン検索の対話において,「検索条件の指定」と「情報の提示要求」の2つの状態を設定し,現在どちらの状態なのかを機械学習により推定する.学習手法はロジスティック回帰.単純なルールによって現在の状態を推定する方法に比べて,状態推定性能が10%向上(81→91%).現在は2状態だから問題ないが,状態が多くなると状態遷移に制約があるはずなので,この方法だと破綻しそう.

●学習・支援 【10:50-12:05】
(21)特徴空間における長時間スペクトル変動成分の識別学習
   福田隆,市川治,西村雅史
識別的特徴量変換の検討.特徴量変換の話は初めて聞いたが面白そうだ.fMMIで特徴量変換をする場合にも,短時間と長時間のΔパラメータが有効なのか調べた.結果として,特にSNRが低い場合に長時間Δパラメータが有効.

(22)コミッティに基づく能動学習・半教師付き学習を用いた音声モデル
   蔦岡拓也,篠田浩一
書き起こしのないデータから書き起こしを人手で作らなければならない場合に,どのデータを書き起こすと学習後の認識器の性能が上がるかを自動推定する(能動学習).この場合は信頼度が低いデータを優先する.また,自動書き起こし内容を学習に使う(半教師つき学習)場合には,信頼度の高いデータを使う.この2つを組み合わせるために,コミッティを使った方法(複数の認識器の出力のばらつきを使う)を検討.ばらつきの指標は,Vote Entropy(複数結果をアラインメントし,各単語位置での単語出力確率のエントロピーを求め,その平均を取る).半教師つき学習では,最もスコアの良いデータではなく,スコアの平均に近いサンプルを追加することで性能が改善する.

(23)音声書き起こし支援システムに向けた自動頭出し機能の開発と評価
   芦川平,永尾学,西山修,池田朋男
発表者事故のためキャンセル.

●マルチモーダル音楽情報処理 【13:15-14:30】
(24)音楽動画コンテンツ中のアーティスト名とその登場シーンの同定手法
   平井辰典,中野倫靖,後藤真孝,森島繁生
音楽PVの中のアーティストの顔認識.撮影条件や化粧などが違って単純な顔認証はできないので,同一アーティストの既存の映像から顔を連続的に検出・トラッキングして,複数フレームをまとめたもの(顔時間連続体)をひとまとまりにして顔を認識する.顔をトラッキングした後,特徴点を使って顔の向きを正規化し,特徴点の周りでHOG特徴量を計算する.HOGを使って,既存の顔とのユークリッド距離で識別する.PVは条件が悪くて難しそうだが,結構いい精度が出ていた.

(25)加速度センサによるユーザコントロールを導入した音楽に合った舞踊動作の自動生成
   安永卓哉,中澤篤志,竹村治雄
音楽からダンスモーションを自動生成する.ユーザがWiiコンを持って一緒に踊ることで,ユーザの盛り上がりを推定してそれに合ったダンス動作を合成する.ダンス動作生成はモーションキャプチャーによって収録した実際の動作をセグメントごとに連結する方法.

(26)指揮システム:“VirtualPhilharmony”楽器ごとの個別タイムラインによるスケジューラ管理
   馬場隆,橋田光代,片寄晴弘
AirConductorたちの熱い情熱に応えるためのバーチャル指揮システムVirtualPhilharmony.今回は,楽器全体の拍のずれだけでなく,ある拍での楽器ごとのタイミングずれを考慮し,それが少なくなるように全体のタイムラインを制御する(?).左手を使って特定パートの音量を変えたりできる.デモをやったが,今一つうまくいかなかったようだ.

●音楽の認識・理解 【14:40-15:55】
(27)調波・非調波・音色構造因子分解による音響信号分析と音源分離インターフェースへの応用
   安良岡直希,奥乃博
ヤマハの安良岡さん(@yasuraok).音源のモデル化による音源分離手法.混合ガウス分布で表現された線スペクトルがLPCスペクトルを励起し,それが複数あってNMF的に混ざるという定式化.最適化の評価指標はIダイバージェンス.NMFによる分離より高性能で,デモではそれなりにうまく分離できていた.

(28)ポピュラー音楽におけるギターソロの採譜支援システム
   浅川智瑛,浜中雅俊
かっちょいいギターソロを耳コピするための支援.コピーしたいメロディ成分について,時間的にピークを追跡し,それを元に特定のギター成分を強調する.実装はPureData.

(29)音響特徴・ベース音・和音遷移を用いた自動和音認識
   糸山克寿,尾形哲也,奥乃博
和音の認識に,音楽信号から抽出した特徴量(クロマベクトル)だけでなく,ベースラインを使う試み.クロマベクトルをGMMでモデル化するが,根音で正規化するのでmajとかminごとのGMMができる.PreFEstでベースライン音高確率を求め,これを推定式に統合する.コード進行のモデル化はN-gram(HPYLM).

●演奏・分類・予測 【16:05-17:20】
(30)エレキギターの表情付け支援システム「Guitar-Case Maker」
   水本直希,馬場隆,北原鉄朗,片寄晴弘
エレキギターのMIDIに表情付けをする.方式は事例ベース.運指を推定して,その系列とメロディ情報などをキーにして事例を探す.運指推定はDPによる.表情付けするメロディ断片と事例とを比較するときの類似度関数をユーザが定義できるところが新しいが,適切な類似度を考えるのは大変そうだ.

(31)類似度に基づくポリフォニックな楽曲の分類
   阿南陽子,畑埜晃平,坂内英夫,竹田正幸
事例に基づく楽曲の分類.ある楽曲について,既存の2つのジャンルの曲2曲のどちらに近いかを網羅的に計算し,重み付き多数決によってどっちのジャンルかを推定する.近さ(距離)を計算するのに文字列マッチング的手法を使う.以前はモノフォニックだったので音名を文字列としていたが,今回はポリフォニックなので,いったんクロマベクトルを作り,それを次元圧縮したうえで用いる.文字列マッチングそのままは使えないので,重み付き編集距離(DP距離)を使う.

(32)暗意実現モデルにおける連鎖構造を用いたメロディ構造分析
   矢澤櫻子,寺澤洋子,平田圭二,東条敏,浜中雅俊
音楽理論「暗意実現モデル」に従って実際のメロディを分析したらどうなるかやってみた.最終的にはメロディ作成支援を目指しているらしい.暗意構造モデルは,3音符連鎖の系列(連鎖構造)としてメロディをモデル化する理論.理論で提唱されている連鎖構造がどの程度出現しているのかを調査.クラシック楽曲を調査した結果,理論で定義された連鎖構造しか出現しなかった.また,作曲者による連鎖構造の出現傾向の違いについて考察.

1486526 journal
日記

aitoの日記: 2/3 SIGMUS&SIGSLPまとめ

日記 by aito

2月3日(金)

●スペシャルセッション「歌声情報処理最前線!!」第1部 【13:15-14:20】
(1) 自動学習により人間のように歌う音声合成システム―Sinsy―
   徳田恵一,大浦圭一郎
音声合成の現状とHMM音声合成の説明。感情音声合成と音声の補間・外挿。話者適応デモ。
歌声合成システムSinsyの説明。ニコ動への投稿作品の紹介。
Sinsyに対するフィードバックへのコメント.歌声のモデル補間.波音リツの中の人の声から話者適応した歌声デモ.

(2) アマチュア歌唱エンタテインメントのための熱唱度評価システムSEES
   大道竜之介,伊藤仁,牧野正三,伊藤彰則
大道君の名調子.SEESデモで飛び入りを募ったら本当に歌う人がフロアから来たのには驚いた.人間による熱唱度評価と知覚の分析,SEESの特長量と統合方法.熱唱度評価の時間長依存性,ビブラート能力と熱唱度の関係などについて質問があった.

(3) 奄美大島民謡風歌声合成システム:グインレゾネータ
   村主大輔,馬場隆,森勢将雅,片寄晴弘
元ちとせ風歌声合成.歌声に奄美大島の歌唱法(グイン)を付加する.実際のグインのテンプレートを用意し,こぶしを入れる部分をそのテンプレートに従って変形する.グインを入れる場所については,事例ベースで推定するようだ(聞き逃した).推定には民謡を使ったのか?とか,ピッチとスペクトル(裏声化)以外の特徴はあるのか?などの質問があった.実システムとしては使いどころが限られるが,レゾネータシリーズとして様々な表情を付けるシステムにするつもりなのかな.

●スペシャルセッション「歌声情報処理最前線!!」第2部 【14:40-16:15】
(4) 歌声合成ソフトウェアVOCALOID3とVOCALOID Job Plugin
   剣持秀紀
VOCALOID歌声合成の基本の説明.周波数領域の接続点の平滑化や先行発声など.VOCALOID3の技術的な改良点:素片間の音色の補間(同じ音素の異なる音高のサンプル間で補間を行う),長い素片を使う(一部triphone),子音伸長の改良など.VOCALOID3使用デモはいつものキューティーハニー.隠し機能として,母音の無声化(音源にささやき声を使う),1音符複数発音などを紹介.次にJob pluginの説明(Luaを使う).Luaの全機能を使えるので,プラグインの計算をWebサービスとして提供するなども可能.すばらしい.

(5) 日刊VOCALOIDランキング:ランキング動画全自動生成システムとその運用
   rankingloid
「もはや日刊だけが頼り」でおなじみの日刊ボーカロイドランキングの開発者によるシステムと運用の説明.ランキング動画とは.ランキング動画作成作業とその問題点.全自動化には,除外判定とシーン選定が困難.日刊では選出ルールを機械的にする(タイトルにVOCALOID関連ワードが含まれる等).日刊はカオス.シーンは60秒~80秒目を固定で紹介.動画制作では,GUIベースのソフトをマウス制御で自動化(その後スクリプトベースになったようだ).60~80秒目は「適当に決めたら結構よかったのでそのまま」とのこと.動画の主要部分を固定で抽出するとどの辺の確率が高いのか,というのはテーマとしては面白そう.

(6) VocaWatcher:人間の歌唱時の表情を真似るヒューマノイドロボットの顔動作生成システム
   中野倫靖,後藤真孝,梶田秀司,松坂要佐,中岡慎一郎,横井一仁
HRP-4C未夢に実装された顔動作生成システム.内容については去年のCEATECで見たが,その他の部分もなかなか興味深い.「歌うロボット」が重要な応用だというのは独特な主張だが面白い.最初はVocaListenerの話,ブレスの検出と合成.次にVocaWatcherで,顔検出と分析にはFaceAPIというソフトを利用.HRP-4Cの首から上は11自由度で,それを制御する.瞬き,視線などについてはfaceAPIの検出領域を使って独自に認識している.口の空き具合はパーティクルフィルタを使って追跡する.最後には「歌うロボット研究」について熱い思いが語られる.

(7) ラップスタイル歌声合成の検討
   才野慶二郎,大浦圭一郎,橘誠,剣持秀紀,徳田恵一
motsuのラップスタイルを再現する歌声合成.最初に才野さんから説明.まずラップ歌唱の記譜法を定義するところから始める.基本音高から±2段階(マイナーペンタトニック)の五線譜に対して音符を置き,グリッサンド記号を付けたもの.後半は大浦さんが合成の話.合成にはHMMを使う.また,HMMで合成したパラメータをVOCALOIDパラメータに変換して合成する試みも行った.HMM合成による歌唱は結構それらしくできている.VOCALOIDに歌わせたものは「ラップ風のピッチを持った通常歌唱音声」なので声質変換などが必要そうだ.

●スペシャルセッション「歌声情報処理最前線!!」第3部 【16:35-18:00】
(8) 歌声のテクスチャに信号処理はどう迫るか
   河原英紀
iPad用のブックを使って説明.枚数が多すぎてすべてを説明するのは不可能なのだがそこに挑む河原先生カコイイ.スライドの動作は面白いのだが,いつものようにかいつまんだ説明.位相と群遅延の説明.複数音源を分析する手法には興味があるのだが,詳細は良くわからないので予稿を読まなければならない(予稿にも書いてなかった気がするが).非常に短い単位での高精度F0推定方法.中川先生の「スペクトルとピッチのどちらに感情成分がより多く含まれるか」というのは面白い問いだ.

(9) 協調的創造活動支援を目的とした歌声合成基盤技術の研究開発
   森勢将雅,河原英紀,小川真
ニコ動などの創作の協調活動が,歌声合成システムでも起きるのかを試してみたというのがテーマ.創作支援のためにライセンスフリーな分析合成系をわざわざ発明し,公開して誰かが使ってくれるのを待ってみた.その結果,次のv.Connectを含む3種類の歌声合成システムが作られた.森勢さんが事前に「フザケた発表」とか言ってた割には普通の良い発表だったと思う.WORLDを使ったリサンプラの名前が「エターナルフォースブリザードリサンプラ」(相手は死ぬ)だったところぐらいか.

(10)v.Connect:ユーザが声色操作可能な歌声合成器
   小川真,矢崎俊志,阿部公輝
修羅場Pさん.CadenciiをGUIとして動く合成器v.Connectの説明.複数の声色を持つライブラリに対して,それをWORLD分析合成系で補間する.速度を速くするための実装とデータベース圧縮.データベースはOGG Vorbisで圧縮してその都度展開しているそうだ.実際には,複数の声色を軸として歌声の表情を変えるような使い方をしている.複数の声色の補間を,実際には調整パラメータのように使っているので,楽曲生成のためにはどういう声色ライブラリをそろえるべきなのかが気になった.

(11)歌唱における表現意図を考慮した歌声F0生成過程とその統計的モデリング
   大石康智,亀岡弘和,持橋大地,柏野邦夫
歌唱のF0成分の中から,歌唱者の意図(ビブラート,ポルタメント等)を分離する試み.これがうまくいけば,歌唱F0は楽譜通りの成分+生理的変動成分+歌唱意図成分に分離することができるようになるだろう.藤崎モデルに類似した「表現指令」というものを仮定する.指令をHMMで生成して,それが2次系を駆動して実際のF0成分ができるというモデル.推定はEM.どこまでが意図的なのかについていろいろ質問があった.また,ビブラートは振動なのか指令なのかが興味深いという複数の質問者からの指摘があった.

夜セッション

SF作家の野尻さん,クリプトンの伊藤社長,ドワンゴの戀塚さん,ヤマハの剣持さんによるセッション.司会は後藤さん.

・野尻さん:地球外文明との音楽交流を実現する無人探査機の考察.恒星間無人探査機SIGMUS-1計画.音楽による異星人との交流は未知との遭遇みたいな?異星の原住民の「音楽」を自動解析するテクノロジーって難しそうだなあ.ディスカッションの途中から後藤さんが暴走.
・伊藤社長:バーチャル・インスツルメント(ソフト音源)の話.サンプリング周波数や量子化ビット数を上げていくと容量が増大し,メモリにロードできなくなる.再生側でハードディスクストリーミング技術などを利用.これが現代のメロトロンという説明にはちょっと微笑みがこぼれる.2次創作とピアプロの話.ホーカロイド曲を聴いている視聴者層のボリュームゾーンは圧倒的に10代女子.日本だけ30~40代男性がやや多い.
・戀塚さん:ニコニコ動画の紹介.音声技術の使いどころ:コメントの音声化,音声によるコメント.楽曲情報抽出,音声インデクシング.鑑賞時間節約のための技術.今北産業テクノロジー.
・剣持さん:VOCALOIDの歌は誰の歌?VOCALOIDの「歌い方」のモデル化.VOCALOIDキーボード.歌詞のある歌をリアルタイム演奏するむずかしさ.歌における歌詞とは何か.歌詞についての理解を深める必要性.

野尻さんの質疑応答で時間が足りなくなり,プレゼンを一通りやった後で飲み会に突入.
319(みーく)号室で酒を飲みながらエンドレス議論大会.私は1時ごろ撤退.

969171 journal
日記

aitoの日記: 特別講演

日記 by aito

○アルゴリズミック・コンポジションの(不)可能性 (三輪眞弘:IAMAS)
【全体的にスライドなしのお話】
人間は「神」=「私を見つめるまなざし」から離れて生きることができるか.
三輪先生にとっての音楽:西洋世界で教会音楽と呼ばれていたものと類似.「奉納」としての音楽=宗教的儀式
音楽が宗教的であることと,現代に生きることとをどう整合させるか.
レヴィ=ストロースの文化人類学.構造主義.
「理に叶っている」その極限が論理学や数学.現代の人間は論理学や数学を信じている.(ただし相対主義的解釈)
「ありえたかもしれない音楽」の探求
日本民謡の音の遷移の確率分布に基づく作曲
コンピュータ語による文化の可能性.「コンピュータ語族」における民族音楽としての音楽はどういうものか.
逆シミュレーション音楽とは.作品“4-bit counter”上映.

全体としては文芸批評的な味わいの講演だった気がする.私にはわかるようなわからないような講演(解釈は不可能ではないが,その解釈が演者の意図通りである自身が全くない)だったのだが,質疑応答が大変盛り上がったので,きっと多くの人には通じているのだろう.

968976 journal
日記

aitoの日記: 12/11 SIGMUS1日目午前まとめ

日記 by aito

○改造による新楽器の創造(SUAC)
長嶋先生.既存の楽器に加速度センサなどを付けて身体動作を取ったりするような改造を施すいろいろな例の紹介.物理コンピューティング/スケッチングと楽器の改造.エンタテインメントとしてのデザイン.ブラックボックスを組み合わせてデザインする(キーボードを分解してセンサにするとか).

昨日のコンサートでジャミーズ娘+が使っていた改造ジャミネータの紹介.スイッチの入力をArduinoで受けてMIDIで送信する.さらにネックに加速度センサとLEDを付けて,振り具合を送信すると同時にネックが光る.映像素材・音素材の編集の様子.1年生で楽器を改造して,Arduinoをプログラミングして,映像と音素材を作って演奏もするってすごいな.

○アクチュエータを用いたインタラクティブサウンドインスタレーションの創作(東京電機大)
小坂研.インスタレーション作品WaverLaserの紹介.水を入れて立てた複数の筒を横に並べ,下からレーザを出して,水の中に重りを置いてレーザを遮り,光線の長さを調節する.複数の光線が作る横方向のパターンを波形に見立てて音を合成する.手袋型温度センサを使い,温度に合わせて音が変わる予定だった.制御にはArduinoとステッピングモータを利用.実物はステッピングモータの誤差のためにうまく動いていなかったのがちょっと残念.

○首都大学東京インダストリアルアートコース スタジオレポート(首都大学東京)
首都大インダストリアルアートコースの紹介.学部定員60,修士25.大学院では卒業制作だけでなく学位論文を書く必要がある.プロダクトデザインコアの教員は企業のデザイナーを務めた人たち(日産とか東芝とか).メディアアートコアでは卒業論文が必要.プロダクトデザイン系では工作機械等が充実.メディアアート系ではモーションキャプチャなどの設備もある.コース横断的なプロジェクトを必ず設けているというところが面白かった.

○Kinectを用いた音楽演奏ツールの制作(九州大)
昨日のコンサートにもあった映像音響作品ニヌファブシの紹介.体全体を使ったパフォーマンスによって楽曲演奏をする.画面には演奏者の影が映り,その形に応じて適当な音が入力される(縦方向の長さが音高,横方向の長さが音長).実装はOpenFrameworksとSuperCollider.画面を見ないと出す音の制御ができないところが問題のような気がする.

○箱庭型テーブルトップ電子楽器インタフェースの研究と政策(首都大学東京)
砂の入った箱に積み木のようなオブジェクトを置くことで音が出るデバイス.箱庭療法にヒントを得て,箱庭遊びをそのまま取得して映像や音楽を生成することが目標.最初のプロトタイプでは,ReacTIVisionを利用してマーカーベースの認識をしていた.このままだと砂を敷くことができないので,第2のプロトタイプではkinectを使って箱庭表面の3次元形状を計測し,また画像処理でオブジェクトの形を認識する.砂の高さによって音の高さをコントロール.

○インターネットを介した集団演奏コンテンツの制作(九州大)
インターネット経由で複数人で音楽を作るシーケンサーsabakarakalinga.一人3つだけ音を置くことができて,ほかの人はそれと重ならないように音を配置していく.

797024 journal
日記

aitoの日記: 9月22日 音響学会3日目

日記 by aito

9月22日

ポスターセッション音声A(聞いたものだけ)
○残響にロバストな音声区間検出法とその比較評価(北陸先端大)
鵜木先生発表のはずだったのだが、台風で来られないということで代理発表。残響音声に対して「残響がなかったとしたときの」音声区間を切り出す。パワーエンベロープ回復処理でパワーの残響の影響を巻き戻すようなフィルタをかけ、あとは閾値で切り出し。従来法では本来の音声区間終了後にも音声区間と判定される部分が続くが、提案法ではその辺が改善するらしい。

○大学講義の音声認識のための音響・言語モデル適応に関する検討(京大)
三村さん。河原研って講義音声認識をやってなかったっけ?ともかく講義音声認識のためのモデル適応の効果を調べた。音響モデル適応は書き起こしがなくても何とかなる。言語モデル適応は前回までの講義内容の書き起こしを利用。本当はスライドの内容だけから適応ができるとよいとのこと。

○語彙で認識対象を制御するGoogleデータを用いた3-gramモデル構築法の検討(和歌山大)
作成したい言語モデルの語彙リストだけを用意し、その単語を含む3-gramエントリをGoogle N-gramから選ぶ。それを集めて3-gramモデルを作成する。テキストコーパスを用意した場合よりは性能が低い。

☆情報量を基準とした3-gram拡張に基づく言語モデルの適応手法(和歌山大)
上の発表と動機は同じ(やっているところも同じだが)。元の汎用n-gramに対して、適応用コーパスからtf-idfで重要単語を抜き出し、重要単語それぞれについて関連エントリをGoogle n-gramから取り出す。次に、取り出したそれぞれのGoogle n-gramエントリを汎用n-gramモデルに追加してみて、テストコーパスの尤度が上がるかどうかをテストし、上がるようなら追加する。発表の仕方がいまいち。

西村先生のGoogle n-gramを使う一連の研究は面白いのだが、理論がないのがよくない点だと思う。汎用のn-gramの中から特定の語を含むエントリを取り出すことと、あるトピックに特化したn-gramとはどういう関係にあるのかを理論的に整理してから進めないと説得力がない感じ。

○語節内位置情報を用いた韓国語音声認識辞書の改良(NICT)
韓国語では、ある単語の前後のコンテキストによって語頭・語末の音素が変化する。その変化は語節(文節相当)内で閉じるので、単語が語節の中のどの位置(先頭・中・末尾)なのかによって辞書エントリを分ける。単にエントリを分けて等確率で出現することにすると精度が落ちてしまい、頻度最大のエントリだけ使った方がまし。学習データがあるなら、発声変形込みで語の構成単位としてしまい、どの発音が使われるかはn-gram確率を使った方がいいんじゃないのとコメントした。

○クラス内変動に頑健なカーネルマシンと話者照合への適用(早稲田大)
小川さん。以前SLPで聞いたのと同じ話だと思う。カーネル法ではどのカーネルのパラメータをどうするのかが問題になるので、複数のカーネルを重み付きで線形結合し、その重みを学習する(MCEM法)。

☆音声検索語検出結果を用いた音声ドキュメントの内容検索(豊橋技科大)
秋葉研。文によるクエリから音声ドキュメントを探すのだが、音声ドキュメントのほうを音声認識しておくのではなく、クエリの各単語を単語スポッティングによって探し、その頻度によってドキュメントを選ぶ。通常のSDRよりは性能が低い。OOVが多い場合は有効かもしれない。ただ、クエリに含まれていない単語がドキュメントにどれだけ出てきているかを考慮することができないので、OOVがなければ原理的に通常のSDRを超えない気がする。

☆発話の連続性に基づいた音声信号の分離による会議音声の可視化(筑波大)
テーブルを囲んで会議をしているときに、だれがいつ話しているかを可視化する。MUSIC法での方向ごとのスコアを、時間と方向の2次元上に濃淡で表示する。それだけでなく、各方向のMUSICスコアをバンドパスフィルタ分析した結果を使い、発話を「連続」「突発的」などに分類して色分けする。やっていることはわかるが、会議の全体を視覚的に理解するための可視化手法として良いのかどうかは疑問。

☆対話型カードゲームロボットにおける応答タイミングの検討(山梨大)
ババ抜きのようなカードゲームをするロボットとの対話(ロボットの名前がなぜか「キクラゲ」)。ユーザが発話してから、ロボットが返答するまでのタイミングを制御してみたが、一定時間で返答する場合のほうが主観評価が高かったという残念な結果。

☆音声情報案内システムにおける統計的機械翻訳の手法を用いた応答文生成手法の検討(奈良先端大)
これも以前SLPで聞いたのと同じ話。たけまるくん型システムで、質問から答えを生成する機械翻訳機を学習する。データベースの内容が翻訳モデルに反映されてしまっているので、汎用性がなくタスク変更も難しいと思うのだが。

◎ユーザの発話前状態推定のための音声および顔向き特徴に関する検討(東北大)
うちの千葉君が発表。対話システムで、ユーザが発話する前に困っているかどうかを推定する。結構好評で、ポスターの時間終了後も議論が続いていた。

☆聞き耳インタフェースを備えたメモシステムの試作(山梨大)
講演などをメモするときに、自分がメモする内容とは別に、音声認識結果の自立語リストを提示し、それをクリックすると単語が入力できるインタフェース。ここがやっている「聞き耳」は、「役に立つなら使えばいいし、なくても困らない」という点が面白い。認識結果の単語を選ぶモードと、自分でメモするモードがうまく切り替えられるといいと思うのだが。

他にも面白そうな発表がたくさんあったのだが、残念ながら半分ぐらいしか聞けなかった。

音声A [音声ドキュメント処理・情報検索]
☆直線検出に基づく音声中の検索語検出のための画像処理フィルタ(龍谷大)
南条研。サブワードを対象とした単語スポッティングにおいて、距離行列から直線を検出することで単語検出をする手法の改良。距離行列を画像と見なして、「直線強調」と「雑音除去」を行った上で直線検出を行う。また、検出後の長さに依存した検出閾値を用いる(こちらはトリビアルだと思うのだが)。

☆音響情報のベクトル量子化に基づいた音声検索語検出(立命館大)
山下研。音響情報ベースの単語スポッティングを高速化するため、VQコードブックを使う。音素とVQコードとの対応をあらかじめ求めておき、それを使って音素列(検出対象)と音声ドキュメントをマッチングする。また、湧きだし誤りを押さえるためにヒューリスティックを使う。20年前的手法。それが悪いというわけではないが。

☆音声入力による図柄パターン検索における未知語処理(東京工科大)
相川研。音声で擬音語的クエリを与えて図柄を検索するシステム(2月のSLPで発表)。クエリに未知語が多いので、音素認識結果に近い既知のクエリを探し、それを使って図柄を検索する。クエリと図柄の対応は感性ベクトルを介する。未知語と既知語の間で大きな検索性能の差は見られなかった。音韻的に似ている単語が似た感性を持つという性質がうまく利用されているようだ。

○講演における複数アノテーションに基づく句読点の自動挿入(京大)
認識結果への句読点挿入の一連の研究。今回は読点の挿入がメイン。複数のアノテータが句読点を挿入すると、句点はほとんどゆれがないが、読点は個人差が大きい。ポーズの約半分は読点となり、ポーズの長さによらない。その結果を受け、いくつかの特徴を使ってCRFで句読点を予測した。3人のアノテータについて、「誰かが読点をつけた」位置を予測するのがもっとも容易。書き起こしに対する読点付与でF=0.82、音声認識結果で0.57ぐらい。

音声A [対話・インタフェース]
☆非可聴つぶやき認識におけるユーザ動作に伴う雑音に起因する性能低下の抑制(奈良先端大)
NAMマイクは外来雑音には強いが、体を動かすことによる雑音に弱い。これに対処するため、ステレオでNAMを収録して利用する。手法はブラインド空間サブトラクションフィルタ(BSSA)。ICAによってステレオ信号から雑音だけを推定し、それを各チャネルからSSによって減算する。またでてきた2チャネル信号の中から良さげな方を選ぶ。疑似的な環境ではだいぶ改善するが、実際の環境ではやや改善する程度。

○多人数会話に参加しコミュニケーションを活性化する会話ロボットの開発(早稲田大)
多人数会話に参加するロボットSchema。デイケア施設での難読ゲームに参加して場を盛り上げる。他の参加者のVAD情報から場の活性度(どのくらい盛り上がっているか)を調べ、ヒューリスティックなルールで行動を選択する。

☆言語に依存した韻律モデルによる発話継続/終了推定(早稲田大)
ユーザが発話してからシステムが発話するまでどれだけ待つべきかを確率的に推定する。基本的に、ある単語を観測した後で発話が終了する確率を求める。韻律情報として基本周波数とパワー、言語情報として発話区間末にでてくる単語(主に助詞)を利用する。発話終了確率と、システムの発話内容から「発話期待度」「発話意欲度」を求め、そこから待ち時間を計算する。計算式の根拠はよくわからなかった。待ち時間固定のシステムと比較して主観評価。ややよい結果だが固定時間とくらべて大きく改善というほどではない。

○展示会場の運用のための音声情報案内システム「たけまるくん」のデータベース拡張(奈良先端大)
遷都たけまるシステムの報告。新環境に対応するためにQADBを拡張。元のQADBの小規模な書き換えから、キーワード置換で対応したもの(「たけまるくん」→「せんとくん」)、文法を書いて対応したものがある。最終的な用例は大人用13000ぐらい、子供用17500ぐらい。ユーザ発話を書き起こすと、3週間で大人1500、子供3000ぐらい。大人の場合、事前のQADB拡張で、応答正解率が50%弱から70%に、3週間分のユーザ発話を追加するとさらに82%ぐらいになる。子供ではユーザ発話を追加することの効果が大きく、事前QADB拡張をしない方がよい。

学会終了後、島根城をちょっと見物(外から)。お土産を買って、近くにたまたまあった割烹「だいこく」で研究室の大道君と一緒に夕食。店は不思議な内装だったが、料理はうまかった。ようやく松江らしいものを食べた感じ。お店のマスターもいい感じ。すっかり酒を飲まされてしまった。

20時に夜行バスで東京へ。

795660 journal
日記

aitoの日記: 9月21日 音響学会2日目

日記 by aito

9月21日(水)

音響教育

○看護医療系専門学校の看護学科学生を対象とした病院の音環境に対する授業実践(大分大)
病院での音環境学習の実践報告。ICU内で発生する音の説明、実際の作業ででる音の測定、スピーチプライバシーなどについての解説。病院での騒音対策。

○千葉県における騒音・振動測定の教育訓練(千葉県)
千葉県での騒音振動測定講習会の紹介。初級3日間、中級2日間のコース。騒音レベルメーターの使い方など。苦情処理の実例紹介などがあるのがいかにも県の研修会らしい。

○佐賀県立宇宙科学館「平成15年春の企画展 音と響のテクノロジー」の概要と展示計画支援(九州大)
河原先生。企画展の記録。「音の科学」「音のテクノロジー」「響きのテクノロジー」に分けて展示。声道模型、ウェーブマシン、音叉、古い蓄音機、音記録メディアの変遷、スピーカーユニット、ホール音響設計模型、防音壁、防音室、ANC、DVDサラウンド。

音声A [信頼度]
☆音声対話型CALLシステムを目的とした学習者発話の識別に関する検討(東北大)
うちの安斎君が発表。対話型CALLシステムで、学習者が発話した文が正しいのか正しくないのかだけを識別する。識別には音響尤度だけを使う。「どの程度厳しく文法誤りを指摘するか」を制御することができる。

◎単語の文脈一貫性と音響尤度を用いた音声ドキュメント認識の信頼度の性能評価(NTTサイバー研)
認識結果の近い部分に出現する単語の間の一貫性を使って、その部分が誤認識を含むかどうかを調べる。尺度は、ある区間に出現する名詞に含まれている単語ペアの相互情報量の平均。これを音響信頼度と重み付き平均をした宇上でドキュメント内で平均し、「音声ドキュメント信頼度」を得る。この研究は確か前に聞いた気がするけど、どこだっけ?

◎平滑化自己相互情報量を用いた音声ドキュメント認識信頼度の推定(NTTサイバー研)
前の発表の続き。相互情報量の信頼性を挙げるため、観測されなかった単語ペアの確率をTuring推定量によって平滑化。また、低頻度共起単語が高すぎる情報量を持つのを防ぐため、t検定によって値を調整する。提案法により、取り扱う単語の数が増えることによってスパースネスがあがることの悪影響を押さえることができる。

音声B [音声分析・音声知覚]
○複数日本語母語話者の破擦音/ts/と/ch/および摩擦音/s/を区別する音響的特徴(愛知淑徳大)
破擦音と摩擦音は時間的な特徴で識別されていることがわかっているが、破擦音の/ts/と/ch/は周波数分布によって識別される(/s/と/ch/は周波数分布も有効)。これを確認するためにサンプルを増やして実験した。

○対話音声における文末音調と聞き手に伝わる発話意図との関係の分析(早稲田大)
実音声からクラスタリングによって得られた文末F0パターン10種類(下降調5種類、平坦1種類、上昇調4種類)を使って音声を合成し、聴取者がどういう意図を聞き取ったかを分析。それぞれのパターンによって、疑問・確認・意外性・命令・懇願・伝聞・確認・承諾・依頼などのニュアンスが伝わることが量的に確認された。単なる上昇・下降だけでなく、細かいF0変化の違いが微妙な意図に影響するのがおもしろいところ。

◎高齢者に明瞭な拡声音声のための雑音・残響下の会話(東海大)
程島先生。雑音・残響下での公共放送の明瞭度を上げる一連の研究の一つ。アナウンス音声発話時に話者に雑音を提示してロンバード効果を起こした方が、雑音下での明瞭度が上がる。今回は高齢者にもその効果があるかどうかを調べた。結果として、高齢者でもロンバード音声の方が雑音・残響下での明瞭度が高い。

----------------------------------
ポスターセッション音声A
☆マルチステージ環境音識別法を用いた非日常音検出に関する検討(立命館)
環境音の認識。環境音を「よくある音(日常音)」と「時々しかしない音(非日常音)」に分けて、非日常音を同じオノマトペで表現されるクラスタに分けてHMMでモデル化するところまでが従来法。この発表では、日常音(音ごとにHMMでモデル化)+非日常音1クラスで識別をして、非日常音と判別されたものに対してさらに下位のクラス(オノマトペクラス)での認識をやる。性能は上がるようだが、動機がいまいちはっきりしない。

----------------------------------
スペシャルセッション:原点回帰

○寸法知覚を中心とした聴覚情景分析(津崎実:京都市立芸大)
聴覚情景分析:そもそもなぜ耳が必要なのか
        周囲の状況を調べるセンサ
音の三大属性:ラウドネス、ピッチ、音色
ラウドネス・ピッチは周囲の状況の何を教えているのか?
        それぞれ単独では音源の情報のある側面しか教えない
物体の寸法
        寸法の変化→共振周波数の変化
        空洞(共通の大気)→共振周波数から寸法がわかる(形状が同じなら)
        駆動周波数(F0)と共振周波数
        音脈分凝と駆動周波数・共振周波数の関係
共振周波数は駆動周波数と共に音脈分凝に関連する
        共振周波数の差による知覚の方が鋭敏(音源の種類を表しやすい?)

○音を見るための物理的手法(中村健太郎:東工大)
アコースティックイメージングとは何か
        音そのものの可視化(測定、シミュレーション)
        音を使った可視化(超音波イメージングなど)
音の可視化
        超音波による音場の可視化
必要な測定手法
        音場を乱さない → 光学干渉計
        狭い隙間 → 光ファイバ先端の光学反射率測定
        校正なしで音圧の絶対値を知りたい
        真のリアルタイム
光で超音波を検出する
        レーザードップラー振動計によって空間の音圧変化による屈折率変化を測る
                音圧の絶対値も測れる(誤差20%くらい)
        光ファイバ先端で屈折率変化をとらえる
粒子速度を光のドップラー効果で測る
        音場測定用レーザーレーダー
                低コヒーレント光によって任意の位置の粒子速度を測る
                        リファレンスミラーの距離の位置だけ測れる
リアルタイムに音を測る仕掛け
        圧電素子とLEDによるリアルタイム音圧観測素子

○電気音響に関するアレイ信号処理的考察(三好正人:金沢大)
電気音響学の原点
        電話、蓄音機、三極真空管
        音を届ける→増幅→品質(HiFi)
        「聞かせたい音を聞かせたい人に伝える」
点制御と指向性制御
        点制御≠指向性制御
代表的な指向性制御
        ビームフォーミング:ある方向に音の位相をそろえる
        焦点生成:ある点で音の位相をそろえる
        +適応的な方法
2次元周波数領域を用いる(金大流)指向性設計
        時間・空間周波数上で指向角を設計する

○騒音振動の計測・評価・制御・デザイン(尾本章:九州大)
騒音振動分野:計測・評価・制御+デザイン
計測について
        絶対値を必要とする測定:音圧レベル
                サウンドレベルメーター
        相対的な音圧レベル(インパルス応答の測定とか)
                PC+サウンドカード
        今後の計測システム
                既存のセンサーとの併用による絶対値計測
                位置情報との統合
                可視化
評価について
        エネルギー平均を用いた評価:等価騒音レベル
        基準値の問題
                守ればよいわけではない
                継続時間の問題
                何が騒音か
                基準値が存在することによる抑止効果
制御について
        受動的制御
                遮音≠吸音
                高周波域に強い
        能動的制御
                アイデアとしては1930年代から存在
                現在では多くの分野で実用化
                物理的な限界
                適用例:Active noise barrier
                今後の方向性
                        Active Structural Acoustic Control
                        Glocal control
デザインについて
        付加価値を与える、快音化など

原点回帰セッションは今回で終わりだが、当初の予想に反してとても面白い発表が多かった。普段聞かない分野の話が聞けるのは楽しい。

この後懇親会。アトラクションでは懇親会の看板を破壊する悪いヤマタノオロチ(会場の都合により6頭)をスサノオノミコトが退治した。めでたしめでたし。

795166 journal
日記

aitoの日記: 9月20日 音響学会1日目

日記 by aito

音声B [音声・オーディオ符号化]

☆スペクトログラムの振幅・位相量子化と範囲制限位相復元に基づく音響信号符号化の検討(東大)
嵯峨山研。スペクトログラムをオーディオ符号化に利用する。位相は適当に符号化して、復元には位相復元技術を使う。位相復元過程で、復元値が「もともとの位相があったはずの範囲」を越えたら元の範囲に戻す操作を行う。デコーディングには繰り返しが必要なので、リアルタイムデコーディングはできない。ビットレートはAACと比べればまだまだ。

☆時間冗長性を利用したオーディオロスレス符号化に関する研究(千葉工大)
ロスレス符号化で、LPC残差信号に対してLZ符号化的な方法を用い、残差をさらに圧縮する。LPC残差に現れるリズムパターンなどの規則性を利用するのが目的だったが、それがうまくいっていないのではないか。

☆付加情報を用いた混合音楽信号操作システムにおける伴奏考慮方法の検討(東北大)
うちのMJこと佐々木君。ボーカル音声の調波成分と伴奏成分との比率を付加情報として送ることで、ボーカル強調性能を向上させる。嵯峨山先生から、パートの数が増えても同じアルゴリズムが使えるのかという質問があった。

○帯域拡張音声に対する客観評価尺度と主観評価値の関係について(東芝)
帯域拡張音声を既存の客観評価手法で評価すると主観評価との相関がよくないので、主観評価と相関の高い客観評価手法を開発した。帯域拡張音声の評価軸として「自然性」と「帯域感(帯域が広がっている感じ)」の2つを考えるという考え方が新しい。既存の客観評価では、PESQとMOS-LQOが主観評価と高い相関を持つ。この発表では「自然性」をPESQで、「帯域感」をスペクトル歪みで評価するのがよいと言う結論。また、この2つを組み合わせてMOS値を模擬するモデルを作った。

音声B [言語教育・学習支援]

○発達段階別に見た日本人英語学習者の母語と第二言語の音声語彙生成についての検討(順天堂大学)
言語流暢性検査(Verbal Fluency Test)を使って、口頭での音声語彙の生成能力を測る。言語流暢性検査は、制限時間内に「特定の音から始まる単語をできるだけ多く挙げる」(Phonemic VF)「特定のカテゴリーの単語をできるだけ多く挙げる」(Categorical VF)というもの。中学2年~大学2年の男女で、日本語・英語の双方について比較。年齢とともに課題成績が上がる。日本語ではphonemicよりもcategoricalの方が多くの例を挙げられるが、英語では逆。年齢が上がると、phonemicとcategoricalの成績が拮抗する。

○Acquisition of L2 Rhythm (昭和音大)
Donna Ericsson先生。英語のリズムを日本語母語話者にどう教えたらいいか。ストレスのある音節では口の開きが大きいので、そのような音節ではF1の値が変わる。コンピュータを使ったリズム練習と、単にメトロノームを使った練習を行ったクラスを比較すると、コンピュータ利用のクラスの方がより改善した。

-----------------------------------------
この後、役員会&コミュニティセッション。音楽音響セッションとかも面白そうだったのだが。その後は休憩室で仕事。

-----------------------------------------

音声A [連続音声認識]

☆音声の構造的表象を用いた連続数字音声認識(東大)
構造的表象を連続音声認識に利用するため、構造的表象スコアをN-bestリスコアリングに利用する。2音素の分布感の関係をGMMで表現し、そのスコアを使う。連続数字認識で誤りを17.4%削減。

☆連続音声認識における仮説の低遅延逐次確定アルゴリズムの評価(名工大)
認識途中で認識結果を確定する。従来行っていた孤立単語での逐次確定では単語の木構造辞書中でそれ以上分岐がないノードに到達したときに確定を行っていた。連続単語の場合には、単語履歴も含めた木構造の中で分岐のないノードを探す。大語彙では性能が出ない。

○線形識別型言語モデルの縮減法(NTT)
大庭君の研究だが、堀さんが発表。識別型言語モデルは線形モデルだが、そのサイズを小さくする方法。非常に簡単な方法で線形モデルを縮減でき、性能もよい。

☆小学校授業の音声認識のための児童向けサイトを用いた言語モデルの構築(龍谷大)
小学校授業音声認識。言語モデル作成のために、CSJと子供向けWebサイト(NHK週間こどもニュース、Yahoo!きっずニュース)を併せて学習する。それぞれから語彙を選び、CSJモデルとこどもコーパスモデルを線形結合(8:2)。補正パープレキシティと未知語率での評価。

-----------------------------------------
このあと、プラバホールで特別企画「古い楽器も新しい楽器も楽しもう!」。バスで会場からホールまで移動する。

企画の最初は森太郎先生によるピアノの進化のレクチャー、2番目は柳田先生によるバイオリンの進化。バイオリンとビオラ・ダ・ガンバがどう違うのか初めて分かった。3番目は山田真司先生による電子楽器の進化。テルミンから初音ミクまで。面白かった。

後半はコンサート。パイプオルガン、トロンボーン、合唱など。トロンボーンの進化前楽器であるサックバットという楽器の演奏があった。トロンボーンを細く小さくしたような楽器だったが、演奏が大変そうだった。
-----------------------------------------
21時過ぎに終了。研究室メンバーと居酒屋で2時間ほど。ホテルに戻ってすぐ寝る。

349293 journal

aitoの日記: SIGMUS@関西学院大学 3日目まとめ

日記 by aito
7月29日(金)

■音楽検索・変換・同期
(17)トーン構造記述子を用いた高速背景音楽検索(ソニー)
テレビ放送のBGMから音楽を検索する技術.GracenoteのTrackIDは前景音への頑健性が足りない.また,1000万曲のデータベースとマッチングするためには高速なマッチングが必要.前景音はほとんどが音声なので,周波数成分が時間的に安定かどうかを利用して音声とそれ以外を分離する.また,持続性トーンを2bit/frameで表現して特徴量の情報量を削減する.マッチングはビットマスク的マッチングで,それほど工夫はないが速度は速いようだ.音楽と音声の分離方法については,似た発想のやり方を以前SIGMUSでもICASSPでも見たことあるなあ.

(18)オーディオ−MIDI符号化ツール「オート符」における倍音除去機能の実装(大日本印刷)
茂出木さん.どんな音でも無理やりMIDIにするツールであるオート符を使って,もともとMIDIで書かれた(あるいは楽譜からMIDIに変換した)音楽に表情付けするのを支援するのが目標.今回は,一つの音をできるだけ一つのノートで表現するために,倍音成分の除去処理を実装した.周波数分析は一般化調和解析.倍音除去はそれほど凝ったアルゴリズムではなく,ヒューリスティックな感じ.

(19)MAHL:演奏者間のインタラクション分析のためのスコアアライメント手法の提案(京大)
奥乃研.第1著者ではないが糸山さんが発表.楽譜と音響信号を同期させる処理.実際の演奏に現れるゆらぎのうち,複数楽器が同時に鳴るときの発音タイミングの揺らぎに対処した(その他の揺らぎには既に対応済み).テンポの時間変化には自己回帰モデルを適用.アライメントにはHMMではなくHSMM(最低持続時間付きHMM)を利用する.楽器の発音モデルにはLatent Harmonic Allocation (LHA).変分ベイズEMでモデルパラメータを推定する.推定計算はだいぶ重いようだが,7割ぐらいの対応は正解から50msぐらいに収まっている.

■音楽のための画像処理
(20)アノテーション情報を付加した画像内容推定結果に基づく自動ダンス動画生成システム(早稲田大)
森島研.自動MAD動画作成.ユーザが入れたい要素(特定のキャラクタの顔など)を含む動画をつぎはぎするのが目標.そのために,元動画のアノテーション情報(タグ)を考慮する.また,画像中のオブジェクトの類似度にHOG特徴を導入する.あいかわらず動画のサンプルはアイマスかMMD.デモビデオでは初音ミクのダンス動画を流していた.どの程度がんばって特定のオブジェクトを検出するかは研究の目標しだいなのだが,その辺があいまいだと思った.

(21)音名信号を用いた学習データ選択に基づく距離画像ベースのマーカレスピアノ運指認識手法の提案(中京大)
ピアノ運指の自動認識.照明光のtime-of-flightによって距離画像を計測できるカメラ(TOFカメラ)を使う.取得画像を特定の運指ごとに学習画像として保存.認識時は,撮影画像と,実際に押されていたキーの情報から運指の候補を絞り込み,学習画像と比較することで認識を行う.認識を高速化するために,ANN(Approximate Nearest Neighbor)法で高速化を行う.カメラから手が外れると認識ができないので,計測できるオクターブ範囲が狭いのが欠点.

最後にベストプレゼンテーション賞の発表.
NTTの中野さん「スペクトログラムのベイジアンノンパラメトリックモデリングに基づく音楽信号の解析」,当研究室の阿部さん「統計的言語モデルを用いた作詞補助システム」の2件が受賞.

皆様お疲れ様でした.
349025 journal

aitoの日記: SIGMUS@関西学院大学 2日目まとめ

日記 by aito
7月28日(木)

■印象・楽譜
(7) 歌詞と音響特徴量を用いた楽曲印象軌跡推定法の設計と評価(京都大)
奥乃研.印象からのプレイリスト作成を目標に,楽曲の印象を推定する.歌詞の情報も使うことと,印象の時間変化を求めるとことが特徴.印象モデルはRusselの円環モデル(快―不快,興奮―抑制の2次元).歌詞からの印象推定はMAP-PLSA,音響信号からの推定は重線形回帰で,特徴量はありがちなやつ142次元をPCAで22次元に圧縮したもの.データはビートルズ.ソーシャルタグと比較しているが,印象特徴の分散が大きいので,ちゃんと推定できているのかまだ不明な感じ.

(8) Dynamic Bayesian networks for symbolic polyhonic pitch modeling(東大)
嵯峨山研.複数音が鳴る楽曲で,ある時点でどの音が鳴るかの確率モデル化.ある時点で鳴る「音の組み合わせ」は,直前の「音の組み合わせ」と,コード進行のマルコフモデルによって表現される.「音の組み合わせ」を,voice, duration, polyphony, harmony の4つのモデルに分解し,線形対数モデルで組み合わせる.ほとんどvoiceモデルしか効いてなくて(コード進行などはあまり効かない),しかもvoiceモデルは時間独立でもほとんど性能が変わらないという変な結果(評価はパープレキシティではなくエントロピーなので差が出にくいということもあるかも).質疑では嵯峨山先生が質問するという研究室ゼミ状態.ついでに,論文タイトルは polyhonic,発表スライドは poyphonic になっていたのだが,polyphonic だよねえ.

■音楽創作支援[11:20~12:20]
(9) 統計的言語モデルを用いた作詞補助システム(東北大)
当研究室の“あべち”こと阿部さん(@abechi_smile)が発表.単語trigramと品詞trigramを使い,指定された文脈で指定のモーラ数の単語列を提示するシステム.韻を踏むために母音条件を指定することができる.嵯峨山先生から熱いコメントを頂いた.

(10)劇伴の作成を支援する楽曲作成システム「Lazy Composer」(愛知工大)
ゲームや動画などのBGMの作成を支援するシステム.凝ったプレゼン.メロディ入力は作成者が行い,それ以外はシステムがやってくれる.メロディ入力は,音の高低の概略を線で描画するというインタフェース.曲のパターンにあわせて,使う音階を限ることで「それらしい」メロディに変形する.楽曲生成では,典型的な場面ごとに各楽器のパターンを用意し,パターンの組み合わせによって曲を生成する.デモにあるのは「カウンターバー」と「初期戦隊ヒーローOP」という不思議な組み合わせ(典型的なものを選んだか?).使うのは楽そうだが,シーンに応じてパターンを用意するのが大変そうだ.

■自動伴奏・伴奏生成[13:30~14:30]
(11)CRFに基づく伴奏の演奏表現の予測モデルと協調演奏システム(名工大)
北村酒向研.自動伴奏.ユーザの演奏の観測結果(MIDI)から演奏位置を推定し,それに合わせて適切な表情(ここでは音量)をつけた伴奏を再生する.演奏位置推定はHMM,伴奏演奏の音量推定はCRF.音量として,平均音量からの変位を使う.使用楽器はピアノ(CrestMUSE PEDB),曲はモーツァルト(オープンテストではバッハ).

(12)楽譜コンテキストのベイジアンマイニングに基づく自動伴奏付与システム-ユーザの感性的要求に応じた伴奏生成-(名工大)
作曲支援システムの一環としての伴奏自動生成.音符のコンテキスト(楽譜コンテキスト:メロディ音の高さや長さだけでなく,ベース音,ドラム,コードなども含む)を単位としてベイジアンネットを学習する.学習したネットワークを叩くことで伴奏を生成する.デモもあったがちょっと不安定な気がする.生成時はコード進行などを与えるようだけど,デモ曲(大きな古時計)ではコード進行が間違っていたんじゃないかという嵯峨山先生のご指摘.

こういう自動作曲で「既存の曲を切り張りする」のと「モデルで曲を生成する」のは,音声合成での素片接続とHMM合成に通じる対立軸なのだけど,音楽の場合どっちが有利なんだろうか.MIDIの場合,つなぎ目の不自然性とかは無いからなあ.

■演奏、学習支援インタフェース[14:50~16:20]
(13)フレーズ間類似度に基づく楽曲構造提示機能をもつ暗譜支援システムの設計と実装(神戸大)
塚本寺田研.楽譜の中で,似ている部分の可視化インタフェース.類似区間の検出はDPマッチングによる.類似度として,音楽的に似ているかどうかと,楽器の演奏方法(運指など)が似ているかどうかの2種類を使う.よく出てくるフレーズを集中的に練習すると,曲を覚える時間が短くなるだろうという狙い.これを使って暗譜を行った時間を評価するが,システムを使わなかった場合の被験者の能力(能力値)を推定しているところが面白い.結果として,暗譜時間が短くなる人もいるが,長くなる人もいる.インタフェースものの場合には,方式以外に実装のよしあしも関係するので難しいところがあるなあ.

(14)オーケストラ指揮におけるリハーサルの過程に焦点を当てた指揮システム“VirtualPhilharmony”(関西学院大)
片寄研の馬場さん.去年の発表にもあったバーチャル指揮システム.改良点として,テンポ予測の改良,演奏テンプレートの動的な適応など(コンサートマスター機能).テンポ予測は線形予測だが,次数や予測係数は曲ごとあるいは拍ごとに個別に推定する.また,ヒューリスティックスとして,ウィンナワルツの場合とか付点リズムなど特殊な場合についてのルールを入れる.また,何回かリハーサルすることでテンプレートの適応を行う.ついでにドイツの同種システム VirtualConductor の使用レポートなど.

(15)押す,掴む,回すを利用した演奏インタフェースの試作
首都大東京のPocoPoco関連.4×4の出たり引っ込んだりするボタンを操作して音楽を演奏する.いままでボタンを押して操作していたが,「抑える」「掴む」「回す」動作もできるようにした.ボタンの垂直方向位置はフォトリフレクタで検知する.掴む動作はサステインやピッチベンド,回す動作は音量やエフェクトに使っている.質疑での嵯峨山先生と他の人たちの議論が面白かった.

■デモセッション [17:30~19:00]
(16)デモンストレーション:音楽情報処理の研究紹介X
デモセッションは省略.各位の補足を求む.
348595 journal

aitoの日記: SIGMUS@関西学院大学 1日目まとめ

日記 by aito
7月27日(水)

今日は機械学習の日.最初に吉井さんと亀岡さんが機械学習の意義と応用範囲についてまじめに説明.

■「機械学習」特別セッション:チュートリアル1
(1) チュートリアル:ノンパラメトリックベイズ(吉井和佳:産総研)
吉井さんによるチュートリアル.確率分布とベイズ推定の基礎から丁寧に説明.固定次元ディリクレ分布から無限次元のディリクレ過程へ.棒折り過程.中華料理店過程.応用として,無限混合ガウス分布,PCFGへの応用.最近のトレンドとしてベータ過程の紹介.Infinite Factorial HMM.易しい説明だったと思うが,初心者にとっては時々出てくる数式がまったく意味不明な気がする.何も知らない人がどの程度理解できたかなあ.

■「機械学習」特別セッション:記号処理
(2) 和音進行解析のための語彙フリー無限グラムモデル(産総研)
引き続き吉井さん.ノンパラメトリックベイズを応用し,n-gramのnを無限に拡張する.また語彙フリー化として,どのような種類の和音があるかを事前に決めることなく学習データから獲得する.和音認識などに使った場合に従来のback-off n-gramとどの程度違うかを質問してみたが,認識よりも混合音の分離やモデル化の方に主な興味があるとのこと.

(3) 階層Pitman-Yor言語モデルを用いたメロディー生成手法の提案(立命館大)
発表者の学生さんが体調不良でドタキャンのため,指導教員の谷口先生がSkypeでプレゼンをやるという画期的な発表.確率モデルを使った自動作曲.音符をn-gramによって生成するが,nを自動獲得するために可変長PY言語モデルを使う.生成した楽曲のどこが学習データのどの曲のどこに似ているかという分析があって面白かった.

■「機械学習」特別セッション:チュートリアル2
(4) チュートリアル:非負値行列因子分解(亀岡弘和:NTT/東大)
もうほとんど東大の人になってしまった亀岡さんによるNMFの説明.NMFの基本とパワースペクトル分離における解釈.NMFの生まれた背景とその後の発展.なぜ非負であることが重要なのか.係数のスパース性の説明.音響信号に対する応用例.
NMFの計算方法.乖離度の計算(二乗誤差,Iダイバージェンス,板倉斎藤距離).補助関数を使った最適化とJensenの不等式.NMFの統計モデルとしての解釈.時間がなくてNMFのバリエーションについての話は省略.

■「機械学習」特別セッション:信号処理

2件の発表があったが,打ち合わせのため聞けなかった.残念.

■ ミニパネルディスカッション「音楽情報処理研究を通じて学生に何を学んでほしいか」
北原さん主催のパネルセッション.いろいろあったが,まあ無難な結論になったかと思う.
typodupeerror

弘法筆を選ばず、アレゲはキーボードを選ぶ -- アレゲ研究家

読み込み中...