aitoの日記: 5月11日:音学シンポジウム1日目まとめ
● 開会の辞:9:00-9:10
亀岡さんがシンポジウムの趣旨について説明。音に関係するシングルトラックのシンポジウムを行うのが趣旨。MIRUの音版を作りたいというモチベーションの説明。
●「音声の認識と合成」セッション:9:10-10:40 司会:伊藤彰則 (東北大学)
(1) 【招待講演】
音声認識の方法論に関する考察―歴史的変遷と今後の展望―
河原 達也 (京都大学)
・音声認識を取り巻く最近の動向
「音声認識は最近よくなった」スマホアプリ、字幕作成、国会会議録作成
「音声認識研究は(事実上)終わった」と言われる
「音声認識は20年HMM(よく論文が書けるね)」と言われる
論文を通すのが大変な割に枝葉末節感、データを集めて統計モデル学習すればよいと思われている
・音声認識の「常識的な」定式化
雑音のある通信モデル、最尤推定
音声認識の「原理」は普遍的だが、普遍的な「音声認識システム」はない!
想定される入力環境・発話内容に依存する
大規模コーパスの構築 "There is no data like more data"
・「常識」の再考
・大規模コーパス
Julius-CSRCでは260時間→Google Voice Searchでは5000時間
(大規模)コーパスの変遷 基礎研究(数十時間)→国家プロジェクト(数百時間)→ビッグデータ(数千時間)
「データを頑張って集める」方法の限界→ビッグデータパラダイム
リアルなデータを自然にかつ大規模に集める→書き起こし不可能→教師なし、準教師付き学習
国会審議の会議音声と会議録テキストからのモデル学習
・生成モデルの最尤推定
State-of-the-art な手法:最尤推定+識別学習
タスクやデータベースによって効果にばらつきがあり、冗長だが相乗効果
複雑怪奇
識別モデルの導入
直接的に事後確率を推定 MaxEnt-Markov, Segmental CRF, DNN
State-of-the-art のHMMを凌ぐ性能
・雑音のある通信路モデル
機械翻訳では対数線形モデルが主流:様々な知識源、統計モデルを統合
(2) 【招待講演】
統計的機械学習問題としての音声合成
徳田 恵一 (名古屋工業大学)
・音声合成の歴史
ルールベース:フォルマント合成(~90's)
コーパスベース:波形接続型音声合成('90s~)単一インベントリ(ダイフォン合成)、複数インベントリ(単位選択方式合成)
音声認識は「技術」、音声合成は「芸術」と言われた
コーパスベース:統計的パラメトリック音声合成 ソースフィルタモデル+統計的音響モデル
多様な音声が実現可能、低い言語依存性、省メモリ
・統計的な枠組みにおいて音声合成の定式化はどうなるか
音声DB(テキストと音声)、入力テキストをもとに出力音声を推定(確率モデルからサンプル生成)
正しい定式化の近似として、各モジュール(学習、特徴抽出など)を直列に接続
・各要素の実現
HMM音声合成の枠組み
特徴量:メルケプストラム
フィルタと励振源をHMMでモデル化
コンテキスト依存のモデル化
音声パラメータ生成アルゴリズム
・多様な音声合成
感情音声合成
話者適応:声をまねる技術
発話スタイルの補間
多言語音声合成
歌声合成(通常歌唱、ラップ)
●「聴覚の末梢と中枢」セッション:10:50-12:20 司会:河原英紀 (和歌山大学)
(3) 【招待講演】
聴覚における寸法知覚と最適末梢系
入野 俊夫 (和歌山大学)
・聴覚抹消系の基礎
蝸牛で振動を神経発火に変換 基底膜上の振動のアニメーション
蝸牛・基底膜振動のモデル化:どのようなモデルがよいのか?
時間―周波数平面上の不確定性を最小にするモデル
通常ならガボール変換(ガウス窓+正弦波)だが、耳のインパルス応答はそうなっていない(ガンマチャープ)
その答えは音声(音聲)にある
・音声生成のしくみ、声道モデル 3Dプリントした声道を使った音声生成デモ
・声道の「寸法(スケール)」の近く
違う長さの声道から出た音を聞き分けることができる→聴覚系には「寸法」を知覚する機能がある
異なる声道長の弁別閾(JND)5%
単語音声、音節、ささやき声などでも同じ、母音だけだとやや悪化
継続長 30ms 程度でよい
ちなみにほかの近くの弁別閾 ラウドネス:10% ピッチ:1%未満 光の明るさ:15%
・寸法処理の聴覚モデル
安定化ウェーブレット―メリン変換
4段階からなる(フィルタバンク→安定化聴覚イメージ→サイズ・形状イメージ→メリン変換)
神経処理との対応仮説
・メリン変換された空間での不確定性を最小にするフィルタ:ガンマチャープフィルタ
生理実験データのと一致
心理物理実験データの説明の良さ
・聴覚抹消系は最適フィルタ系
聴覚フィルタバンクはガンマチャープ母関数を使ったウェーブレット変換
ガンマチャープフィルタバンクを使った分析で声道長推定をするとMFCCより(少し)良い
(4) 【招待講演】
聴覚情景分析と選択的聴取の脳内メカニズム
柏野 牧夫 (NTT)
・聴覚:人や環境との相互作用
選択的聴取
音の能力・選好
潜在的インターパーソナル情報
・聖徳太子に挑戦
複数人の声を混ぜた音声を聞くのは難しいが、すでに知っている特定の声だけを聴くことができる
(カクテルパーティ効果)
・Change deafness: 混合音の一部が消えていることが知覚できるかどうか
出現する音は音源の数によらず知覚しやすいが、消えた音は音源が多いときは知覚できなくなる
通常は音源が増えるほど知覚できなくなっていくが、消えるかもしれない音に注意すると音源の数によらず知覚できる
・人間の特徴
通常の工学的音源分離手法と比べて、音源数未知・空間情報は必須でない・特有の癖がある
選択的注意によってうまく情報処理している
・聴覚情景分析
入力の音響特徴(末梢での分析)から、「これを生成した音響イベントとして最も尤もらしい&目下最も重要なもの」を推定
音の特徴分析→音源の解釈:特徴の結び付け→重要な音源の選択(選択的注意)→音源の認識
・音脈分凝
実環境で「起こりがちなこと」を事前知識として利用
前注意的(自動的)
群化の結果、知覚属性が決定
特徴の違いによる音脈分凝、時間的相関を利用した音脈分凝
触覚や、触覚―聴覚では分凝が起きない
反復共起に基づく音脈分凝
音響的手がかりがない音であっても、繰り返しがあれば一つの塊として知覚される
・音脈分業の計算原理
予測符号化
階層的なスパース表現の獲得
・神経系での証拠はあるのか
階層性・並列性・双方向性
大脳皮質レベルまで行くと、聴覚情景分析に対応する処理が(すでに)行われていることがわかっている
・音脈知覚の交代に同期した脳活動
同一バターンを反復すると、1 streamと2 streamsの近くがランダムに切り替わる
→同じ物理刺激で異なる知覚が起きる→物理刺激への反応と知覚の違いを分離できる
「非優位な知覚→優位な知覚」と「優位な知覚→非優位な知覚」で脳内活動の順序が違う
・錯覚の個人差
最後は時間切れ。
●昼休み:12:20-13:30
●ポスターセッション:13:30-15:30
すごい人で発表を聞くのも大変。
(5) 【一般発表】
家族空間における言語活動に基づいた発達および景観設計
長山 知由理 (お茶の水女子大学)
聞けなかった。
(6) 【一般発表】
conteXinger:日常のコンテクストを歌い上げるVOCALOID
西村 綾乃, 椎尾 一郎 (お茶の水女子大学)
家電製品の状態やインターネット上のメッセージをArduino+Xbeeでセンシングし、その状態に合わせて歌詞とメロディを生成してVOCALOIDに歌わせる。家電の場合は歌詞は固定されたキーワードをランダムに組み合わせ、メッセージの場合はメッセージそのものを使う。メロディはアドホックな制約付きのランダム生成。
(7) 【一般発表】
発話観測システムNDI Waveのセンサの改良
北村 達也 (甲南大学), 能田 由紀子 (ATR-Promotions), 波多野 博顕 (甲南大学), 吐師 道子 (県立広島大学), 西谷 実 (アドバンストシステムズ(株))
口の中にセンサを貼って調音器官の動きを計測するときに、センサから計測機につなぐワイヤが太くてしゃべりにくかったので、極細ワイヤに変えたら使いやすくなった。
(8) 【一般発表】
スペクトル包絡と基本周波数の同時推定のための無限カーネル線形予測分析法
吉井 和佳, 後藤 真孝 (産業技術総合研究所)
聞けなかった。
(9) 【一般発表】
ベイジアンネットワークを用いた四声体和声付け:音の前後関係を考慮したモデルの検討
鈴木 峻平, 北原 鉄朗 (日本大学)
聞けなかったが、懇親会の時に話を聞いた。4部構成のソプラノ部だけが与えられた時に残りのパートを自動生成する課題。ベイジアンネットにコード進行の情報を入れた場合と入れない場合の比較。どっちがいいのかいまいちはっきりしない結論。
(10) 【一般発表】
芸術的逸脱の生成モデルにおける決定木のバックオフに基づく鍵盤楽器演奏の自動表情付け
奥村 健太, 酒向 慎司, 北村 正 (名古屋工業大学)
聞けなかった。
(11) 【一般発表】
楽器演奏経験による音の時間情報処理精度向上と聴性脳幹反応への影響
饗庭 絵里子 (産業技術総合研究所/日本学術振興会特別研究員PD/関西学院大学), 津崎 実 (京都市立芸術大学), 長田 典子 (関西学院大学), 中川 誠司 (産業技術総合研究所)
聞けなかった。
(12) 【一般発表】
ヴァイオリン弓の製作者のモデルの違いによる操作性の研究
横山 真男 (明星大学)
聞けなかった。
(13) 【一般発表】
擬似正弦波成分を用いた残響・雑音にロバストなオーディオフィンガープリンティング
澁谷 崇, 安部 素嗣, 西口 正之 (ソニー株式会社)
音響信号のフィンガープリンティング。時間・周波数領域で見たときに周波数的に安定な部分(疑似正弦波成分)だけを使ってフィンガープリントを作る。安定な部分だけを見ているので雑音に強い。
(14) 【一般発表】
Importance of Regularization in Superresolution-Based Multichannel Signal Separation with Nonnegative Matrix Factorization
北村 大地, 猿渡 洋, 鹿野 清宏 (奈良先端科学技術大学院大学), 近藤 多伸, 高橋 祐 (ヤマハ株式会社)
聞けなかった。
(15) 【一般発表】
日本語HMM音声合成のコンテキストラベルにおける文節の利用
橋本 浩弥, 広瀬 啓吉, 峯松 信明 (東京大学)
HMM音声合成のHMM用コンテキスト情報として、アクセント句ではなく文節を使うと合成音の品質が上がる。文節のほうがアクセント句よりも単位として安定なので学習がしやすいという原因らしい。音声合成の韻律を制御する単位としてはあまり適切でない気がするのだが。
(16) 【一般発表】
カッティング・レコード – 予め吹き込むべき音響のない(もしくはある)レコード盤の提案
城 一裕 (情報科学芸術大学院大学)
実際の音響信号ではなく、生成された波形をレーザーカッターで円盤に刻み込んで、レコードプレーヤーで演奏。フルデジタルでいいところをわざわざアナログにして聞くところに趣がある。
(17) 【一般発表】
音列に注目したゲーム音楽の楽曲構造分析
菅野 幸夫 (岡山理科大学)
聞けなかった。ポスター自体なかった気がする。
(18) 【一般発表】
モバイル携帯端末を用いた環境音収集とその認識手法の検討
津田 貴彦, 中西 恭介, 松山 みのり, 西村 竜一 (和歌山大学), 山田 順之介 (NTT), 河原 英紀, 入野 俊夫 (和歌山大学)
モバイル端末用の音声認識アプリを実装して配布し、それを使って環境音を集めようというプロジェクト。環境音をたくさん集めるのはある意味難しいので、面白い試みだと思う。10種類の環境音で認識実験をしていたが、性能はそれほど高くなかった感じ。
(19) 【一般発表】
人間の脳幹における音脈分凝の神経相関
山岸 慎平, 芦原 孝典 (東京工業大学), 大塚 翔 (東京大学), 古川 茂人, 柏野 牧夫 (NTT)
正弦波を聞いたときに、その正弦波の波形と相関がある脳波を測定することができる。その脳波の周波数成分の強さを使って、音の高さが変わる音列の音脈分凝が起きている場合と起きていない場合の脳波の反応を調べた。違いがあるのはわかったが、その解釈は今後の課題。
(20) 【一般発表】
音声基本周波数の藤崎モデル指令列の統計的語彙モデル
石原 達馬 (東京大学), 吉里 幸太 (東京大学), 亀岡 弘和 (東京大学/NTT), 齋藤 大輔 (東京大
学), 嵯峨山 茂樹 (東京大学)
以前亀岡さんがやっていた「F0系列からの藤崎モデルの指令列推定」の方法に、語彙によるアクセント型の制約を入れた。やり方としては、あるアクセント型での発話が何度でも繰り返すという形のHMMを作ってモデルに繰り入れる。制約なしの場合に比べて性能が向上。
(21) 【一般発表】
複合ウェーブレットモデルとHMMの統合モデルによるテキスト音声合成
北条 伸克, 吉里 幸太 (東京大学), 亀岡 弘和 (東京大学/NTT), 齋藤 大輔, 嵯峨山 茂樹 (東京大学)
「複合ウェーブレットモデル」は、スペクトル包絡をGMMで表現するモデル。これと従来のHMMを組み合わせることで、スペクトル包絡を直接推定する音声合成器を作った。通常のメルケプストラムを使ったモデルとの比較。
(22) 【一般発表】
スペクトログラムの長距離滑らかさを考慮した調波打楽器音分離
橘 秀幸 (東京大学), 亀岡 弘和 (東京大学/NTT), 小野 順貴 (NII), 嵯峨山 茂樹 (東京大学)
調波―打楽器分離手法HPSSでは、隣り合う時間―周波数ビンの間の差分を見ることで、持続的な音とアタックの強い音を分離する。提案法では、隣だけでなくもっと遠くの周波数ビンまで見たときの滑らかさを評価関数として使う。性能がやや向上。
(23) 【一般発表】
音脈の知覚変化に対する頭部運動の影響
戸嶋 巌樹 (NTT), 近藤 洋史 (NTT), Pressnitzer Daniel (CNRS/Université Paris Descartes), 柏野 牧夫 (NTT/東京工業大学)
次の発表と同じようなテーマ。音脈分凝が起きているときに、頭を動かすと分凝が消えるのだが、それは「頭が動いた」「音像が動いた」「音像の移動により音響信号が変化した」のどれがどう影響しているのかを調べた。実験にはテレヘッドを利用。調べた結果、音響信号の影響が大きい。頭部運動によっても分凝が崩れるのだが、一定時間後に逆に分凝が起きやすい方向に影響が現れる。
(24) 【研究紹介】
音脈のリセットに対する音源移動と頭部運動の影響
近藤 洋史 (NTT), Pressnitzer Daniel (CNRS/ENS), 戸嶋 巌樹, 柏野 牧夫 (NTT)
聞けなかった。上の発表と実験内容は同じ。PNASに乗った論文の紹介らしい。
(25) 【研究紹介】
楽器音分析合成に基づく音量・音色・旋律の置換
糸山 克寿, 奥乃 博 (京都大学)
糸山さんが前からやっている音源分離と楽器音イコライザ、メロディ置換などの研究紹介。
(26) 【研究紹介】
音楽と映像が同期した音楽動画の自動生成システム
平井 辰典, 大矢 隼士, 森島 繁生 (早稲田大学/JST)
森島研の音楽動画生成システムの紹介。
(27) 【研究紹介】
混合音中で複数回出現する未知の音の検出に選択的注意は必要か?
益冨 恵子 (東京工業大学/NTT), Barascud Nicolas, Overath Tobias (UCL Ear Institute), 柏野 牧夫 (東京工業大学/NTT), McDermott Josh H. (Massachusetts Institute of Technology), Chait Maria (UCL Ear Institute)
混んでいて詳しく聞けなかった。発表者の人はイラストレータで、(研究とは関係ないが)そちらの営業もやっていた。
(28) 【ディスカッション】
光学文字認識による音楽演奏インタラクションに関する考察
卯田 駿介, 馬場 哲晃, 串山 久美子 (首都大学東京)
4×4のマス目に、文字を書いた板を乗せることで動くシーケンサ。最新版では手書きにも対応。マス目をカメラで撮影して認識することで、マス目に何が載っているかを知る(ARマーカの認識システムをそのまま使っているようだ)。せっかく操作部分がアナログなのだから、アナログの良さを生かした何かがあるといいねという話をした。
(29) 【ディスカッション】
書き起こし文と音声認識を組み合わせた講義字幕の効率的作成
上田 展久 (無所属)
講義ビデオの書き起こし文をビデオと同期表示させる。通常だと書き起こし文自体を音声と比較するが、この研究ではまず入力音声を音声認識し、文字列の比較によってアラインメントを取る。発表者の人は従来法を知らなかったようで、比較実験などはなかったが、やりかたによってはよい方法なのかもしれない。
●「マイクアレイとスピーカアレイ」セッション:15:30-17:00
司会:澤田宏 (NTT)
(30) 【招待講演】
非同期録音機器を用いたマイクロフォンアレイ信号処理
小野 順貴 (NII)
非同期マイクロフォンアレイの研究紹介。
・マイクロフォンアレイについて。iPhoneを使ったブラインド音源分離デモ。
・アレイ信号処理のためにはサンプリングが同期している必要がある
・たくさんあるスマートフォンなどで録音した多数の信号が使えればよい
空間的配置が柔軟、多素子化が容易、多チャンネルAD変換器が不要
・解かなければならない問題
チャンネルが非同期
サンプリング周波数ミスマッチ
配置が未知
・求められる同期の精度
フレームレベルの同期:数十サンプル程度ずれてもよい
マイク位置に整合しない同期:ICA、独立ベクトル分析、SN比最大化ビームフォーマ
マイク位置に整合した同期:通常のアレイ処理
・ブラインドアラインメント
観測信号のみから、各録音チャンネルを時間的・空間的に同じ座標系にそろえることができるだろうか?(ブラインドアラインメント問題)
・非同期録音における到来時間差を決めるための必要条件
音源とマイクロホンの数が多ければ解ける
補助関数法を用いた解法を提案
・実験結果
高い精度で動機が可能
・花火を利用して実験できないか?
昨年試したが音が大きすぎて録音レベルがサチってしまった
・ペア分散型配置
マイクをどう配置するのがよいか
→2個のマイクをペアにして広く分散させる
ペアのマイクは同期している→音源の方向を複数のマイクで推定
・サンプリング周波数ミスマッチのブラインド補償
ノンブラインド手法:観測信号の最初と最後に信号を入れて、その観測時間を使う
ブラインド手法:音源が動かないことを仮定し、音源が動いて推定されないようにサンプリング周波数を伸縮
・SiSEC:信号分離タスクのキャンペーン
今年は非同期サンプリングのタスクがある
(31) 【招待講演】
三次元音場再現方式の概要
安藤 彰男 (NHK技研)
・三次元音場再現方式の分類
フィールド情報/オブジェクト情報の違い
チャネルベースシステム:多数マイクロホンでフィールドとオブジェクト情報を集音→ミキシング
オブジェクトベースシステム:個々のオブジェクト情報を集音→レンダリング
シーンベースシステム:音情報をフィールド情報として集音、再生
原理による分類
心理音響モデルに基づく方式
物理音響モデルに基づく方式
・心理音響モデルに基づく方式:マルチチャネル音響
音の方向知覚の手がかり:両耳間時間差、レベル差、スペクトルの違い
2チャネルステレオにおける音像定位
中周波数域では位相差、高周波数域ではレベル差を使う
三次元音響パンニング
VBAP (Vector based audio panning)
・物理音響モデルに基づく方式
Kirchhoff-Helmholtz積分公式→第1種・第2種Rayleigh積分
Camrasの論文(1967) コンサートホールの音場再現の論文(構想のみ)
K-H方程式には モノポール音源(点音源)、ダイポール音源(音圧傾度)が出てくる
・KH方程式からレイリー積分へ
第1種・第2種レイリー積分形式への変形
・Wave field synthesis
・球面調和関数に基づく方法
Ambisonics
・3次元Ambisonics
Higher Order Amnisonics (HOA9
・逆フィルタに基づく方法
境界音場制御法(BoSC)
・心理音場モデル vs. 物理音響モデル
5月11日:音学シンポジウム1日目まとめ More ログイン