パスワードを忘れた? アカウント作成
8832735 journal
日記

aitoの日記: 5月12日:音学シンポジウム2日目まとめ

日記 by aito

●「計算機による音楽の理解と生成」セッション:9:00-10:30 司会:北原鉄朗 (日本大学)

(32) 【招待講演】
音楽の生成と理解
片寄 晴弘 (関西学院大学)
・音楽情報処理の歴史
 音楽とコンピュータの歴史。コンピュータの黎明期から音楽研究はあった。
    MIDIの発明による研究の加速
 生成系、インタラクション系、学習・認識系
 マイルストーン:
  イリアック組曲(コンピュータ作曲)
  WABOT2(楽譜認識、演奏ロボット)
  自動伴奏システム(R. Dannenberg)1984- DTWベース
  指揮インタフェース(Max Mathews)1989 タッピングによって演奏をコントロール
  自動作曲システムEMI (D.Cope)1991- 実際の楽曲の解析と再構成に基づく初のシステム
  サイバー尺八と「竹管の宇宙」1993- モーションセンシング
  (変わり)セッションシステム Continuator 2002
・CrestMuse プロジェクト
  「事例」のハンドリング技術と「能動的音楽鑑賞インタフェース」
  STRAIGHTを使った歌唱モーフィング V.Morish
  自動伴奏Euridice
  自動作曲OrpheusBB 生成されたメロディやコードをユーザが変更、音楽的に矛盾しないよう自動修正
  調波構造クラスタリングHTC
・展望
  生成系研究 vs. 理解系研究
   和声付け/和声解析、表情付け/音価解析など 表裏一体
   確率モデルベースなら「生成」と「理解」に使われる知識は同じ→どう高精度化するか
    モデルの修練
    データベースの取り回し
  生成系研究の存在意義
   人間に匹敵する能力を示す計算機は果たして「理解」しているのか?
    AI将棋研究は終焉?→人間に勝つための研究はほぼ終わり
    「どうヒトを楽しませるか」ex. どう自然に弱いシステムを作るか
   作曲システムの現状:学習ベース
    参照事例→学習→乱数による生成→人間の判断による選択 : 実情は「支援システム」
    意図・目的・楽しみのメタモデル駆動の「真の理解」へ
  音楽と技術の歴史的変遷
   楽譜の発明、蓄音機の発明、ラジオ・テレビ 音楽の楽しみ方を変えた
   現代はそれ以上の技術的変革期
   音楽の社会的理解が変わる

(33) 【招待講演】
未来を切り拓く音楽情報処理
後藤 真孝 (産業技術総合研究所)
・音楽情報処理分野の急速な発展:20年間で「社会に不可欠な技術」として広く認知
 ユーザが直接使う技術としての音楽情報処理
 音楽のデジタル化→
・未解決で本質的な課題
 「複数の音が相互に関係しあいながら時間的な構造を形成して内容を伝える信号」の理解
 混合音を前提にして時間構造の扱いが不可欠なのが音声・画像と違うところ
・混合音に対する技術
 音高推定技術PreFEst→HTC
 NMFによる混合音のモデル化
 混合音スペクトルのソース・フィルタへの分解
 アプローチ:音源分離、自動採譜、メロディなどの音楽構造の抽出
・さまざまな学会誌での特集号や解説、プロジェクト
・歌声情報処理 VOCALOIDの発展
 「人間の歌声でなければ聴く価値がない」という価値観が打破され「合成音声による歌声」を聞く文化が生まれた
・音楽情報処理が切り開く未来
 研究目的・課題が多様
 信号⇔記号、生成⇔理解、などの軸 今回は 手動⇔自動 の軸
 手動(人間の能力拡張)⇔自動(仮想の音楽家を作る)
 能力拡張系
  学習用 歌唱、演奏 MIRUSingerなど
  演奏、歌唱、作成の支援 VocaRefiner, VirtualPhilharmony, Orpheusなど
  人間には困難な「超絶能力」の実現
  音楽鑑賞等の「認識・理解」能力の拡張⇒音楽理解力拡張インタフェース
   音楽の可視化 SmartMusicKIOSK LyricSynchronizer
   音楽の加工(カスタマイズ、タッチアップ) Drumix
   ⇒「見る」「編集する」ことで理解力を向上する
・OngaCRESTプロジェクト
 類似度を可視化する情報環境
  単調増加するコンテンツの問題
   作品が埋もれやすい・選択が難しい・似たコンテンツが(偶然)できやすい
  「類似度」についての人間の能力の限界:「ありがち度」の判断誤り
 「似ている音楽」を可視化、容易に把握
  ⇒安心してコンテンツの制作・発表ができる環境
  ⇒コンテンツの理解の促進
  ⇒コンテンツを参照しあう文化の支援、「感動体験」重視型の文化の創造
 成果
  Songle, Songrium, Songrium Extension
・「仮想の音楽家」の実現
 「計算機が自動で作曲して自動で鑑賞する」未来はありうるか
 現在は「全自動で歌が作られて動画共有サイトに投稿されてても気づけない環境」で音楽を楽しんでいる
 もし計算機が再生数やコメント内容を自動理解して改善の手がかりとして活用したらどうか
・計算機が「本当の意味」で歌い始めたらどうか
・人間のN次創作としての「仮想合作」はありうるか?
・自動鑑賞:「聴衆が計算機」という可能性はあるか?
 「人間の聴衆でなければ聴いてもらう価値がない」という価値観は打破されうるか
・「計算機が捜索して計算機が鑑賞する」という状況はありうるか
・音楽がもたらす感動とは
 コンテンツ自体の感動
 オリンピック的感動:生身の人間がやっていることの感動
 文脈的感動:社会、文化、個人的背景を知っていることによる感動
・VocaListerでの経験
 手作業でないことで「オリンピック的感動」が失われるという意見があった
・音楽情報処理が人類の幸せ・価値向上にどう寄与するか
 仮説:「幸せ」=心理的な資源の時間微分
 「単位資源当たりの価値向上」
 音楽は「単位資源当たりの価値向上」が大きい?
 最大化は「幸せ」に向上しない

●「音声の信号分解と情報分解」セッション:10:40-12:10 司会:戸田智基 (NAIST)

(34) 【招待講演】
音声生成過程と信号観測過程のモデルに基づくマルチチャンネル音声強調
中谷 智広 (NTT)
・研究のモチベーション:実世界で目的音声を聞き分け理解する技術:音声強調+音声認識
・音声インタフェースの現状と未来
 マイクの近くで話す、雑音が少ない環境⇒どんな場所でも話している内容を理解できる
 人同士なら不自由なく会話できる環境での音声認識を実現する
・応用:家電操作、会議録作成、ロボットなど
・生活雑音環境下での遠隔コマンド音声認識、複数人会話の音声認識
・生成モデルの考え方に基づく音声強調+音声認識
 音声認識と同じように、音声信号・雑音信号および観測信号の生成モデルを作り、その逆問題を解く
・生成モデルで表現するもの
 音の到来方向・スペクトルパタン・時間変化パタン
・生成モデルによる音響信号分析の特徴と課題
 生成モデルの構築は比較的容易(順問題)
  さまざまな手がかりを導入できる
 音響信号分析は観測信号生成モデルのパラメータ推定(逆問題)
  非線形最適化なので効率的に解けるとは限らない
・生成モデルに基づく代表的な手法
  音源方向:ICA、音源方向クラスタリング 事前学習が不要、ブラインド処理可能
  スペクトルパタン:NMF、Factorialモデル 事前学習が必要
  時間変化パタン:HMM、事例ベース 事前学習が必要
・音源方向クラスタリング
  複数マイクロフォンが受信した信号のレベル差・時間差を特徴量とした確率分布を作り、それを目的音と雑音についてそれぞれ推定する
  SiSECで世界トップレベルの性能を実現
・Factorialモデルに基づく音声強調
  音声と雑音の対数メルスペクトルをそれぞれGMMでモデル化
  2信号の加算モデルはいくつかある(LogMaxモデルなど)
  EMアルゴリズムによって効率的に計算
・事例ベース音声強調
  大量の「音声+雑音」およびクリーン音声の事例を用意。観測信号が「音声+雑音」事例から選ばれていると考える。
  最長・最類似事例探索により事例を検索、ウィーナフィルタを構成して雑音抑圧
・応用例
  生活雑音環境下での遠隔発話音声認識 CHiMEタスク
   コマンド文の音声認識、2マイク録音
   話者位置固定、音声と雑音に事前学習データあり
   人間に匹敵する認識性能
  複数人会話の音声認識
   ヘッドセットマイクを利用した場合を超える認識性能
・課題
  大量のデータからの教師なし学習
  モデル構造(音源数、音源の種類など)の自動獲得

(35) 【招待講演】
音声信号における特徴量分離と情報分離
峯松 信明 (東京大学)
・音声が運ぶさまざまな情報
 言語的情報 何を話したのか、どう話したのか
 非言語的情報 話者性、周囲の環境
 音声は1次元:様々な要素が混ざっている
・音声の特徴量抽出:情報を落とす
 音声信号→位相+振幅  振幅→ソース+フィルタ
・音声信号の中の特定の情報のみに着眼したい
 当該情報に直接対応する情報:
・音声認識と話者認識
 言語性と話者性のどちらかを積分して消してしまうアプローチ
 しかし特徴量の時点で片方の情報を落としてしまったほうが「人間らしい」
・人間における汎化能力の発達
  発達にしたがって音声中の言語メッセージだけを認識できる(汎化能力)
  汎化能力の発達障害(自閉症)
   聞いたままの記憶だけ、内容だけをまねることができない
・音高に起因する音のバイアス
  声帯の長さ・重さ
  絶対音感と相対音感
・音色・声色に見られるバイアス
  声帯の長さ・形状
・我々は音声の何に敏感・鈍感に反応しているのか
  乳児が示す分布的特性への敏感さ
   提示される2音a,bを乳児は区別するかしないか?
   →提示される音環境に依存して結果が異なる (a,bの音をどういう頻度で提示するか)
・分布的特性と方言性・話者性
 方言による分布の違いには敏感だが、個人による違いには鈍感
 自閉症児は方言を獲得しない
・構造的音韻論と音の体系
 音声の偶発的な特性ではなく、音声に内在する普遍共通項への着眼
・音楽における方言性
 音楽におけるキー不変の音分布(音律):音の高さの分布
・完全写像不変量の数学的探究
 刺激への変形=空間写像  写像に不変なものは?
 f-divergenceの完全不変性
  分布間距離で、連続で可逆な変換に対して不変
・f-divergenceに基づく1発話の構造化→音声の構造的表象
・普遍性の制御(都合のよい不変性)
 強い不変性=弱い識別性
  話者の違いに鈍感な特徴量は単語の違いにも鈍感
  話者の違い「だけ」に鈍感な特徴量は可能か?
 制限された普遍性
  分布形状を単一正規分布に制限
・そぎ落としとあぶり出し
・構造表象に基づく世界英語発音分類
 世界諸英語(World Englishes) 「みんな違って、それでいい」
・発音、それは顔のようなもの
 誤った顔、正しい顔というものはない
 発音も同じようにそのidentifierである、という考え方
・訛りの最小単位:最後は「個人」
・世界諸英語の考え方に基づくサービス
 世界にはどのような(多様な)発音が存在するのか
 あなたの発音はその中でどこに位置づけられるか
 あなたの発音に近い国・地方・個人はどこにいるのか
・例えば:世界諸英語ブラウザ
 発音分類と英語音声コンテンツをつなげる
・二話者の発音距離の推定問題
 話者性ではなく音韻性を反映する距離はどういうものか
・Speech Accent Archive: 特定パラグラフを読ませた世界英語発音コーパス
 IPAのnarrow transcription付き
・話者を単位とした世界英語発音分類
 IPAの書き起こしに基づく参照距離の計算
  書き起こし同士のDTW距離
  153のIPA記号の距離行列
 米語音素モデルHMMを使ったベースラインシステム
  IPAに基づくDTW距離とは無相関:認識誤りによる
        正解音素を使うと0.8以上の相関
 構造表象を用いた発音距離推定
  複数の発音から分布間距離行列→構造間差異行列(行列の差分)→サポートベクタ回帰
  IPAのDTW距離と0.8弱の相関
・最後に
 計算できる馬「賢馬ハンス」から学べること
  「理解」と「理解しているように見える」ことの違い

●昼休み:12:10-13:30

●ポスターセッション:13:30-15:30

(36) 【一般発表】
歌唱合成音声のハスキーボイス化
佐々木 星太朗, 白木 善尚 (東邦大学)
タイトルの通りだが、ハスキーボイスのきちんとした分析はまだ行っていない。雑音を足したり非線形処理をしたりしていたが、合成された音はハスキーボイスというよりはスクラッチノイズが載った音声のようだった。

(37) 【一般発表】
調和度に基づく和音性評価モデル -音楽ムードの色彩に基づく画像検索システムへの応用-
飛谷 謙介 (関西学院大学), 饗庭 絵里子 (関西学院大学/産業技術総合研究所/日本学術振興会特別研究員PD), 下斗米 貴之 (玉川大学脳科学研究所), 谷 光彬 (関西学院大学), 長田 典子 (関西学院大学), 藤澤 隆史 (長崎大学)
和音の「明るさ」の知覚と、不協和度、緊張度、モダリティなどこれまで提案されている和音の特性がどう関係するか。人間が一対比較した「明るさ」知覚との相関を見たところ、不協和度との相関が有意だった。人間の主観評価結果があるので、逆に人間の主観に合う評価指標が作れるのではないかと思った。

(38) 【一般発表】
SUACスタジオレポート2013
長嶋 洋一 (静岡文化芸術大学)
長嶋研の学生さんが創作した作品紹介。ジャミーズ娘+は以前見た。「カラーオーケストラ」は色のついた積み木を積むことで異なる楽器・音高の音を組み合わせたシーケンシングができる。DSUBコネクタでつなぐところがダサくも効率的。

(39) 【一般発表】
トランペット演奏時における音高や強度の変化が口唇周囲の筋肉に及ぼす影響
松方 翔吾 (日本大学), 寺澤 洋子 (筑波大学/JST), 松原 正樹 (筑波大学), 北原 鉄朗 (日本大学)
ざっと見ただけ。トランペット演奏者と初心者、他の金管楽器の演奏者で、トランペットを吹いているときの唇の緊張具合を調べた(初心者は上下の唇の緊張が非対称になることがわかっているそうだ)。トランペット奏者と比べて、初心者と他の金管楽器奏者は同じパターン。この辺の話は金管奏者の経験として知られていないんだろうか。

(40) 【一般発表】
誤り・任意の弾き直し・弾き飛ばしを含む演奏音響信号への高速な楽譜追跡
中村 友彦, 中村 栄太, 嵯峨山 茂樹 (東京大学)
聞けなかった。

(41) 【一般発表】
ピアノ演奏スキルの解明-ピアノ未経験者における学習方法と学習効率に関する実験的検証
三宅 祐美, 中村 あゆみ, 合田 竜志 (関西学院大学), 古屋 晋一 (ハノーファー音楽演劇大学), 巳波 弘佳, 長田 典子 (関西学院大学)
聞けなかった。

(42) 【一般発表】
事例に基づいたモノラル音楽のステレオ化
平原 大輔, 堀田 政二 (東京農工大学)
聞けなかった。

(43) 【一般発表】
大脳皮質聴覚野ピッチ細胞は視覚野複雑細胞と計算論的に相同か?
寺島 裕貴 (東京大学), 岡田 真人 (東京大学/理化学研究所)
聞けなかった。

(44) 【一般発表】
知覚年齢に沿った歌声声質制御のための音響特徴量の調査
小林 和弘, 土井 啓成, 戸田 智基 (奈良先端科学技術大学院大学), 中野 倫靖, 後藤 真孝 (産業技術総合研究所), ニュービッグ グラム, サクリアニ サクテイ, 中村 哲 (奈良先端科学技術大学院大学)
聞けなかった。

(45) 【一般発表】
聴覚音源定位に刺激時間パターンが与える影響に関する考察
澤井 賢一 (東京大学/JST), 佐藤 好幸 (電気通信大学), 合原 一幸 (東京大学)
聞けなかった。

(46) 【一般発表】
圧縮やダウンサンプリングがクロマベクトルと和音認識に与える影響について
植村 あい子, 石倉 和将, 甲藤 二郎 (早稲田大学)
MP3,AAC,Ogg Vorbisで圧縮した影響がクロマベクトルにどう影響するか。結論から言うと大した影響はない。クロマベクトルに影響するのは圧倒的に低域で、その部分は圧縮で影響を受けにくいので、当然といえば当然の結果。

(47) 【一般発表】
声から身体情報を求める
小林 真優子, 西村 竜一, 入野 俊夫, 河原 英紀 (和歌山大学)
母音のスペクトルを複数のテンプレート音声と合わせるために伸縮させ、その伸縮率から相対的な声道長(みたいなもの)を求める。その相対的な声道長と身長体重に相関があるので、結局母音から身長体重が求まる。面白いが、スペクトルの伸縮率を「声道長」と呼んでよいのかどうか疑問。

(48) 【一般発表】
ピアノ演奏CGアニメーションの自動生成〜肌質感リアルタイムレンダリングと演奏モーションのヒューマナイズ〜
村松 昇, 飛谷 謙介, 平田 純也, 巳波 弘佳 (関西学院大学), 古屋 晋一 (ハノーファー音楽演劇大学), 長田 典子 (関西学院大学)
聞けなかった。

(49) 【一般発表】
指揮システム: “VirtualPhilharmony” 楽器ごとの個別タイムラインによる スケジューラ管理
馬場 隆 (関西学院大学), 橋田 光代 (相愛大学), 片寄 晴弘 (関西学院大学)
聞けなかった。いままでのVirtualPhilharmonyの話じゃないのかなあ。

(50) 【一般発表】
音楽聴取による連続的な情動変化についての一検討
吹野 美和 (パナソニック株式会社)
聞けなかった。ポスター貼ってなかったような・・・

(51) 【一般発表】
日本語歌詞からの多重唱の自動作曲
桐淵 大貴, 深山 覚, 齋藤 大輔, 嵯峨山 茂樹 (東京大学)
歌詞からOrpheusでメロディーを作り、そのメロディーに合うその他のパートも自動で生成する。生成は確率モデル。

(52) 【研究紹介】
Sinsy〜隠れマルコフモデルに基づく歌声合成の現状と今後〜
大浦 圭一郎, 南角 吉彦, 徳田 恵一 (名古屋工業大学)
聞かなかったがSinsyの話だろう。

(53) 【研究紹介】
ピッチ知覚と音源定位に関わるメカニズムの独立性
古川 茂人 (NTT), 鷲澤 史歩, 越智 篤, 柏野 牧夫 (NTT/東京工業大学)
聞けなかったが、ITDとピッチの近くにかかわるメカニズムは同じだと思われていたところ、実験してみたら違うようだという話のような気がした。そもそもこの2つが同じだと思われていたのはなぜなんだろう。

(54) 【研究紹介】
定量的ピアノ演奏分析のための音楽演奏表情データベース
橋田 光代 (相愛大学), 松井 淑恵 (奈良県立医科大学), 北原 鉄朗 (日本大学), 片寄 晴弘 (関西学院大学)
話自体はこれまでの演奏表情データベースの話。新しい演奏を追加したというのが新しいところ。プロジェクト自体終わってしまったので、どうデータベースを維持していくか悩んでいるとの話。こういうデータベースを低価格で打ってくれるところがあればいいと思うんだけどね。

(55) 【研究紹介】
周波数変調弁別と聴覚末梢処理特性との関係: 耳音響放射を用いた検討
大塚 翔 (東京大学), 山岸 慎平 (東京工業大学), 広田 光一 (東京大学), 古川 茂人 (NTT), 柏野 牧夫 (NTT/東京工業大学)
FM変調音の変調が検出できる変調の深さ(弁別域)と、基底膜の周波数特性みたいなものにどういう関係があるかを調べた。基底膜の測定は、耳に音を入射した直後に耳から放射される音を測定して、それを周波数分析したもの。周波数変調音に敏感なグループと鈍感なグループでは、耳音響放射音の周波数特性に違いが見られた。解釈はよくわかっていないようだったが、良い耳といまいちな耳は基底膜レベルで違うということなんだろうか。

(56) 【研究紹介】
A design process of musical interface “PocoPoco”: An interactive artwork case study
Kikukawa Yuya, Yoshiike Toshiki, Suzuki Tatsuhiko (Tokyo Metropolitan University), Kanai Takaharu (Sharp Corporation), Baba Tetsuaki, Kushiyama Kumiko (Tokyo Metropolitan University)
おなじみPOCOPOCOの紹介。POCOPOCOは見た目楽しいんだけど、どう操作するとそれが音にどう反映されるのかについての手がかりが少ないのが問題だと思う。

(57) 【研究紹介】
音のテンポと呼吸数の組み合わせが自律神経系に与える影響
渡辺 謙 (東京工業大学), 大石 悠貴 (NTT), 柏野 牧夫 (NTT/東京工業大学)
面白そうだったが聞けなかった。

(58) 【研究紹介・ディスカッション】
音楽表現の生成モデリングの検討 〜熟練度に依存しない演奏表現の解析技術を目指して〜
小泉 悠馬, 伊藤 克亘 (法政大学)
聞けなかった。

(59) 【ディスカッション】
物理モデルを用いたギターにおけるグリッサンド音の生成法
古市 朝美, 白木 善尚 (東邦大学)
物理モデルによるギター音の生成 and グリッサンドっぽくなるために時間とともに基本周波数をどう変えるか。グリッサンド時の音を丸ごと物理モデルで生成した話かと思ったら、そこまで行っていないようだった。音を生成するのはいいのだが、グリッサンドは演奏法なので、生成音をどういう形で演奏に反映させるのかまで考えないと、どういうパターンで周波数を変化させたらいいのかみたいな話はあまり意味がないのかなと思った。

(60) 【ディスカッション】
ダイナミックサイン音のデザインへ向けて 〜サイン音セレクターからサイン音コントローラーへ〜
和氣 早苗 (同志社女子大学)
横からのぞいただけ。さまざまなサイン音を選んだり、自由に設定したりできる操作システムの提案の話だと思ったが、機器やその状況に対して「良い」サイン音ってどう決めたらいいんだろう?

(61) 【ディスカッション】
音声分析合成方式WORLDを基盤とした協調的創造活動の取り組み
森勢 将雅 (山梨大学), 修羅場P, Custom.Maid, 飴屋P, Zteer
森勢さん渾身の一撃。話自体は以前の発表と似ているが、「メタn次創作」(コンテンツを創作するためのツールのn次創作)みたいな話。いい話なんだけど、どうしたら論文にできるのかを一緒に悩んだ。いまだに答えは出ていないが、「コンテンツのn次創作とツールのn次創作は違うのか」みたいなのも一つの切り口かなあ。フリーソフトの種を蒔いても、受けるものと受けないものは明らかに違うので、その辺のヒントになる知見があれば(論文誌をどこにするか難しいが)論文として価値があるかもしれない。

●「自然言語処理分野の動向」:15:30-16:20 司会:吉井和佳 (AIST)

(62) 【招待講演】
音楽・音声処理と統計的自然言語処理
持橋 大地 (統計数理研究所)
・音楽・音声は連続/言語は離散 その中に潜んでいる共通性
・"Name That Song!" (2002) 簡単な混合モデルのモデル化
・さらに進んだモデル化
 旋律のバイグラム以上のモデル化
 旋律の構文・パターン解析
 歌詞のパターン解析 など
・演歌歌詞自動生成(by 山本氏@DeNA)
・音声認識では 音響モデル、言語モデル
・言語モデルの種類
 nグラムモデル→構文木モデル→全文最大エントロピーモデル(2000年~)
・音声・音楽への言語モデルの最近の適用
 nグラム→∞グラム(白井&谷口2011)(吉井ほか2011~)
 2次元構文木
・nグラムから∞グラムへ
 nグラムの次数を確率的に扱って周辺化する
 Gibbsサンプリングによるモデル学習
 ∞グラムを使ったメロディ生成、コード進行認識
・ニコニコ動画のコメント文解析
 解析の難しい歌詞、ブログなど
 教師データがない場合の形態素解析はどうすればいいか?
・教師なし形態素解析(持橋ほかACL2009)
 文字列に対して、確率が最大になる分割を求める
 Gibbsサンプリングと学習を交互に繰り返す
 Forward filtering + backward sampling
 セミマルコフモデルとして解釈できる
 応用
  NPYLMからのランダムウォーク生成
  ニコニコ動画の感情語抽出
  旋律のセグメンテーション→言葉と同じ設定だとうまくいかない
   フレーズ長の分布が言葉と違う・少しずつ違うフレーズが多い
・トピックモデルを超えて
 トピックモデル(LDA,PLSI)の限界
  文書に潜在的な話題の多項分布を仮定
  話題別単語分布βの混合
  →既定の線形結合なので、単語Simplexの一部しか生成されない
・CSTM(Continuous Space Topic Model)
 単語の確率をガウシアンプロセスで制御
 単語が潜在座標を持つ
・離散的なものを連続空間上の座標に写像が可能
・離散→ポアソン過程へ Levy測度
 ランダムな離散的オブジェクトのモデル化が必要
  ランダムな確率分布(ディリクレ過程など)
  ランダムな構文木(亀岡ほか)
  など
・統計的自然言語処理における3つのモデル
  識別学習 p(t|w)
  言語モデル P(w)
  条件付き言語モデル、統計的機械翻訳 P(w|v)
・NAACL2010招待講演が音楽の統計的扱いの話
 まだ音楽分野でやることがたくさんある

●「音学研究の事業展開」:16:30-17:20 司会:帆足啓一郎 (KDDI研究所)

(63) 【招待講演】
聴覚コンピューティングと産業応用
柏野 邦夫 (NTT)
CA:Computer Audition(聴覚コンピューティング)
・聴覚コンピューティングとは
 画像処理との対比
   画像認識⇔音響信号処理
   文字認識⇔音声認識
   CV(Computer Vision)⇔CA(Computer Audition) 未開拓
   視覚⇔聴覚

・ビジョン・オーディション(=メディア認識)の目的
 情報伝達媒体から情報(もの、こと、様子)を知る
・コンピュータビジョンの技術の歴史
 Szeliski, "Computer Vision: Algorithms and Applications," Springer, 2011
  2000年代初頭にCGと関連する技術(モーフィング、ビュー補間、モデリング、レンダリング)が進んだ
・コンピュータビジョンの応用
 http://www.cs.ubc.ca/~lowe/vision.html
 顔(検出、個人認識、属性認識)
 ゲーム、ジェスチャー認識
 バイオメトリクス
 セキュリティ(監視・サーベイランス、異常行動検知、等)
 航空宇宙
 医療、バイオメディカル
 交通管制・車載安全装置
 自動検査(自動車、電子部品、食品・農産物、印刷、等)
 ロボット視覚
 一人称ビジョン
・事例
 Structure from motion: 車載動画から対象物の3次元構造を復元、加工
 Face Tracking
・聴覚コンピューティング関係の技術の歴史
・聴覚コンピューティングへの期待
 情報環境の変化:大量メディア、UGC、スマホ普及
  音を聞くには実時間かかる(cf.サムネイル)
 社会的課題解決への要請:安全、健康、福祉、環境、教育、文化、産業
  ロボット視聴覚、人間の視聴覚の支援
  デジタルデバイド防止、コミュニケーション支援
  遠隔サービス
  技術伝承
・聴覚コンピューティングの難しさ
 問題設定が難しい
 対象がさまざまに変化する
 対象の単位が自明でない・多義的である
 知識獲得(学習)が難しい
 →問題を限定し、簡単に考えることが大切
・1997年、車にマイクとレコーダを積んで走る 救急車音の検出
 画像のアクティブ探索→音への応用
 時間情報を捨てる(1998)
    ニーズが出現:コマーシャル統計 eMarker(SONY,2000)
    携帯電話で観測した音楽信号から元音楽を検索:符号化、雑音の問題→フィンガープリンティング(2004)局所領域ベース
  データベース20万曲
・用途が拡大:使用楽曲リスト作成(2008)
  問い合わせ:数万時間/日
・最近の例:セカンドスクリーン テレビを見ながらスマホをかざすと関連情報が得られる
・エピソード
  ①用途は予想外のところにあり、想定したところに無い
  ②他の手段ではできにくいことに価値がある
  ③できる例がある、よりも、できるかどうか予定できることが大事
  ④要求はすぐに高まるが、それでまた新しい景色が現れる
 応用(産業)と技術(研究)のカップリング
・有望な応用展開
  ①音の表情認識
  ②イベント検出・書き起こし
  ③サーベイランス・異常検出
  ④同一検索
  ⑤生成・演奏への応用
・取り組み事例
  歌のうまさ・らしさの抽出:音響信号から歌唱者の意図を推定する
  応用:歌まね採点、歌い方変換
  イベント検出
   未知の音響イベント、音響イベントの重なり

●ポスター賞授賞式、閉会の辞:17:20-17:50
ポスター賞は次の2件。
(13) ソニーの発表
(61) 森勢さん
おめでとうございます!

亀岡さんによるまとめ
参加人数 346名
Sea you next year!

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

ハッカーとクラッカーの違い。大してないと思います -- あるアレゲ

読み込み中...