9月27日　音響学会３日目午前　音声A～音楽音響 | aitoの日記

aitoの日記： 9月27日　音響学会３日目午前　音声A～音楽音響 0

日記 by aito 2013年09月27日 11時39分

午前－前半(9:15～10:30)［音声対話］座長西村竜一副座長大庭隆伸
3-8-1 発声の孤立性特徴量に基づく高精度な発声相手分類 ○荒川隆行(NEC)，△Bradley Nia，△McDonough John，△Singh Rita，△Raj Bhiksha(Carnegie Mellon Univ.)
３者以上の対話で、発話が誰に向けたものかを推定する。通常は視線方向を使うが、視線は信頼できないことがある（タスクによっては、全ユーザがシステムを注視しながら互いに会話する）ということで、音声信号のみを使って推定。タスクは４択クイズ。特徴量は、孤立性特徴量（判定したい発声の継続長とその前後のポーズ長（オーバーラップがあると負の値））。その他にMFCC、パワー、F0などの音響特徴量と、発話内容（認識結果ではなく書き起こし）のn-gramなどの言語特徴量も使う。識別として、単独・特徴量結合＋SVM、Adaboostの３つを比較。単独の場合、言語＞孤立性＞音響の順に有効。言語＋孤立性特徴量の特徴量結合の際が最も高性能。なお予備的にKinectを使った姿勢と顔向き検出を使ってみたが全然だめだったとのこと。タスクにもよるんじゃないかな。

3-8-2 話し言葉における言語情報の個人性変換手法の拡張と評価 ☆水上雅博，Neubig Graham，Sakriani Sakti，戸田智基，中村哲(NAIST)
話し言葉のスタイルの個人性変換。機械翻訳を使う。翻訳辞書や翻訳モデルを作るのが困難なところを何とかする。また、翻訳エラーを低減するため「翻訳モデル確率」を導入。辞書は、日本語WordNetから類義語を使って自動構築。また、N-gram確率の類似性に基づいて助詞や助動詞を自動的に選定して構築。辞書エントリには確率がついていないので、n-gram分布の類似度に基づいて怪しい式で確率みたいなものを付与する。評価は「カメラ販売対話コーパス」を使った。「その人らしさ」の主観評価が向上。

3-8-3 ４者会話を調和させるロボットのファシリテーション戦略 ☆秋葉巌，松山洋一，小林哲則(早稲田大学)
３人の人間の会話にロボットが介入して、３人が同程度に会話できるようファシリテーションする。7月のSP/SLP研で聞いた話（？）。ロボットが話に介入するときには、まず話している２人の会話に混ざって（調和状態）、それから話ができない人に話を振る手続きが必要。また、会話を「隣接ペア」からできていると定義し、すでに会話している人たちの隣接ペアの途中に割って入らないようにする。これらの手続きの妥当性を主観評価実験により評価。どちらも提案法の方がいいのだが、特に隣接ペアに割って入った時の評価が著しく低いのが面白かった。でも人間でもそういう人もいるよね。

3-8-4 意外性のある質問応答システムのための意見文自動生成と発話文組み合わせ手法 ◎松山洋一，齋藤彰弘，小林哲則(早稲田大学)
Schemaのうんちく的批評文生成（？）。ロボット対話の返答文の自動生成で、聞かれた内容に対して何か新しい情報を加えて「意外性のある(serendipitous)」返答文を生成する。対象は映画のレビュー。Yahooの映画レビューから元ネタを集めるが、その中のどれを使うかについてはいくつかの戦略を比較（おおむね「短い表現」「ありがちな表現」「低頻度の表現」の３つ）。対話の段階に応じて、これらの戦略で集めた文を使い分けて応答を生成する。

午前－後半(10:15～11:30)［音楽情報処理II］座長三浦雅展副座長大田健紘
3-3-1 NMFによる伴奏音抑制手法を用いた楽曲の歌手識別の検討 ☆中岡涼平(静岡大・工)，王龍標(長岡技科大)，甲斐充彦(静岡大・工)，中川聖一(豊橋技科大)
音声と伴奏のVQコードブックを基底スペクトルとしてNMFにより伴奏のアクティベーションを推定し、それに基づくフィルタにより伴奏を抑圧。また、音声と伴奏のGMM尤度を使い、音声が優勢なフレームを選び、そのフレームだけを使って歌手識別をする。特徴量はMFCCとLPCの組み合わせ。10歌手の識別で88%ぐらい。西村明先生の「曲がわかればわざわざ識別しなくても歌手はわかるんじゃないの？」という指摘は鋭すぎる。

3-3-2 連続励起振動楽器のためのパワーに基づく音符内状態推定 ◎小泉悠馬(法政大院)，伊藤克亘(法政大)
１つの音符の発音をattack, sustain, releaseに分けるタスク。区間ごとの演奏表現を取り出したり、演奏表現を保存しつつ音楽を加工することが目標。基本的にはパワーを区分線形で近似して区間を分けるが、複雑なパワー包絡を持つ場合にはASRの３区間だけではうまくいかないので、最適分割数を自動推定する。基準はAIC。分割後、直線の角度などのヒューリスティックな方法でA・S・Rに分ける。バイオリンなどの難しい楽器に対して、人間のラベル±50msで80～90%の性能。

3-3-3 混合音楽信号の正弦波分析残差のモデル化に関する検討 ☆五十嵐佑樹(東北大院)，伊藤仁(東北工大)，伊藤彰則(東北大院)
当研究室の五十嵐君が発表。音楽信号を正弦波モデル分析した場合に非調波的な成分が問題となるので、正弦波モデルで分析したうえで残差をさらにLPC分析し、それを使って信号を伸び縮みさせようという試み。残念ながら実際に信号の伸縮をするところまでは行っていないのだが、割と好意的なコメントをもらっていた。

3-3-4 音楽音響信号に対する倍半テンポ値問題を考慮したテンポ推定手法 ☆桑原浩志(龍谷大院)，三浦雅展(龍谷大・理工)
テンポ推定で真のテンポの２倍・半分のテンポが推定されてしまう問題への対処。楽曲全体のパワー包絡をスペクトル分析し、テンポに対応したパワースペクトル上のピークの値に半分と２倍の周波数のピークを乗算する（根拠はよくわからない）。また、ゼロクロスとテンポの相関を利用して、テンポ候補の中から最終的なテンポを選ぶ。正解率は79%程度。ゼロクロスを使うことでかなり性能が向上する。そもそも倍半テンポ問題は人間でも意見が分かれたりするので、原理的にどうしようもないんじゃないかという山田先生の指摘。

3-3-5 既存楽曲の混合音中に対するコード進行の編集加工法 ◎深山覚，後藤真孝(産総研)
先日のSIGMUSで聞いた話かな。音響信号中のコードを編集する。入力のパワースペクトルからクロマベクトルを作り、それをNMFで分解することで入力のクロマベクトル列を和音のパターンとそのアクティベーションに分けることができる。クロマベクトルを操作したときは、ベクトルの各要素に対応する櫛型フィルタを作り、それによって信号の特定の調波成分を増減させたうえで、目標のクロマベクトルに最も近い操作を求める。クロマが同じでも加えるべき音高が違う可能性があるので、動的計画法に基づいて加えるべき音高がフレームごとに急激に変わらないように制御する。性能的にはまだ不十分。

aitoの日記： 9月27日　音響学会３日目午前　音声A～音楽音響 0

9月27日　音響学会３日目午前　音声A～音楽音響 More ログイン

スラド

9月27日 音響学会３日目午前 音声A～音楽音響 More ログイン

9月27日　音響学会３日目午前　音声A～音楽音響 More ログイン