9/4 音響学会2日目まとめ | aitoの日記

aitoの日記： 9/4 音響学会2日目まとめ 0

日記 by aito 2014年09月05日 6時39分

音声B［HMM音声合成］
・HMM音声合成のための系列内変動を考慮した高速スペクトル強調法の検討（東北大）
能勢先生。生成パラメータがなめらかすぎることに起因するHMM音声合成の自然性低下を防ぐため、従来は大域分散(GV)を制御したパラメータ生成が行われている。しかしこの方法では文によってパラメータ分散が変動せず、また計算コストが大きい。提案法では単純に生成パラメータの分散が自然音声に近くなるようにパラメータを定数倍するだけの簡単なものだが、うまくやれば単純な操作で品質を改善できる。

・HMM音声合成における加算モデルに基づく任意話者への感情付与法の検討（東芝）
大谷さん。感情付き音声を合成するには学習話者の感情付き音声データが必要なのだが、それがない話者の音声を元にして感情音声を合成する方法。様々な話者のさまざまな発話スタイルの音声パラメータを「基本バイアス＋さまざまな要因によるバイアス＋変動」で表現し、基本バイアスの部分を適当な話者の平静音声にすげかえると、その話者の別感情の音声が合成できるという仕組み。

・H/L型アクセント推定と音響モデリングを統合したHMM音声合成の検討（名工大）
合成用テキストのモーラ毎にHかLかをCRFで推定する。またCRFで推定したアクセント高低を元にHMMを学習する。ルールベースのアクセント推定よりも高精度。

・因子分析に基づくHMM音声合成における基底クラスタリングの検討（名工大）
音響パラメータを因子分析による基底の重ね合わせで表現し、基底の重みを変えることで発話スタイルを制御する。基底はコンテキスト毎に必要だが、それだと数が多いので複数コンテキストで基底を共有する。

・日本人英語音声合成における話者性を保持した韻律補正（奈良先端大）
クロスリンガル音声合成（日本人の個人の声質で英語音声を合成する）。適応データとして従来は日本語発話を使っていたが、今回は日本人英語を使って英語音声用HMMを適応する。ここですべてのパラメータを適応すると合成音声も日本語っぽい英語になってしまうので、状態継続長と対数パワーの分布はそのまま使って、それ以外のパラメータだけ適応する。デモは確かに英語の上手さが向上しているのだが、同時に「発話の個人性って何だろう」とちょっと考えてしまった。

音声A［対話・マルチモーダル］
・対話システムにおける応答選択法の検討（奈良先端大）
非タスク遂行型の対話（雑談など）を用例ベースで行う。対話の「快適度」を指標として発話の選択を行う。「快適度」を付与するために、入力発話への自動応答に対してユーザーが「コメント」を与え、それを元に快適度を付与したコーパスを作る。コーパス収集ではシナリオを想定。快適度をリッジ回帰により推定する。特徴量は過去の快適度、コメント発話が行われたかどうか、コメント発話の単語ベクトル。また、応答文選択では協調フィルタリングの手法を使う。

・対話中の音声言語特徴量に着目した嘘の検出法と日英間比較（奈良先端大）
音声を使った嘘の自動検出。利用したコーパス（日本語偽言コーパス）では、対象者が特定の項目に対して嘘を言うように設計されている。収録音声に対し、嘘かホントかの識別を行う。識別木はbagging。音響特徴量・言語特徴量・個人性を使う。チャンスレートを上回る性能が得られた。有効な特徴量を日本語と英語で比較。日英ともに有効なのはF0の中央値、母音継続長、最終フレームのパワーなど。言語的特徴は日英でだいぶ差がある。

・多人数会話における音響情報と視線情報の確率的統合による話者区間検出（京大）
スマートポスターボードを使ったマルチモーダル会話コーパスを利用して、音と視線情報（実際は顔向き）から発話区間を推定する。特徴量はMUSICによる音源方向推定結果（MUSICスペクトル）、視線配布（何をみているか）、視線状態（向き合っている人がいるか等）。識別として、音響と視線が同時確率になるか独立になるかで3種類のモデルを比較。結果、従来のモデルよりもEERが改善した。

☆☆☆
今回の特別講演はクリプトン・フューチャーメディアの伊藤社長。知っている内容が多かったが、初音ミクを取り巻く現象と世界展開についてよくまとまった内容だと思った。

☆☆☆

音楽音響［音楽情報処理I]
・音圧関数のZero Level Crossing 密度による低周波スペクトル（福岡教育大）
1/fゆらぎとかの話を続けている三谷先生。相変わらず何が目的なのかよくわからない。音の高さとゼロクロスの関係がどうなっているのか調べているようなそうでないような。

・音色の視覚化による演奏支援の試み－フラクタルアートを用いた音色の視覚化－（松江高専）
楽器の音色の視覚化。対象はクラリネットのロングトーン。調波成分の基音と倍音の比、高調波成分の大きさなどを特徴量として利用。「エスケープタイム・フラクタル」アルゴリズムを使ってフラクタルアートをリアルタイムに生成する。演奏支援として、お手本が描く図形と同じになるように自分の演奏音を変えるよう練習する。特徴量をグラフ化した場合よりも練習による改善が大きいということだけど、音の練習をするのに音を聞かせないで図だけ見せることにどういう意義があるのだろう。

・補助情報を用いた混合音楽信号操作における様々な音源制御に関する検討（東北大）
うちの研究室の西野君。補助情報を使って混合音中の特定の音の音量だけを変える。今回はさまざまな楽器について提案法の効き具合を調べた。管楽器などだとよく効くが、バイオリンのピチカート奏法など非調波成分が多い場合はうまくいかない。「F0情報を送るぐらいならMIDIデータをそのまま送信して手元でならしたらいいんじゃないの」という山田先生のコメント。

・押し込み可能なデバイスを用いたコンプレッサの操作齟齬を解消するインタフェイスの検討（東京工科大）
コンプレッサの物理インタフェース。3Dマウスを使い、ボタンを押し込むことでコンプレッサの閾値を下げることができる。実装はMAX。「押し込み感」ってそんなに大事なの？

・ジョンソンSU分布を用いた確率モデルによるオクターブ和音の認識（三重大）
和音認識。基本的にはGMMによる和音認識を行うが、調波成分のモデル化にガウス分布ではなく歪度・尖度も制御できるジョンソンSU分布を使う。倍音の番号毎に異なるパラメータで分布を表現し、パラメータはEMで学習する。また単音モデルを学習しておくことにより、オクターブ違いの和音を認識する。GMMとの比較ではだいぶ良い性能を出しているようだ。

☆☆☆
ポスターセッション　音声A・B（聞いたものだけ）

・音声への情報ハイディングを用いたアバタの口唇・表情制御の検討（東北大）
うちの研究室の齋藤くんが発表。Kinectでユーザの表情と口の開きを取って、その情報を音声信号にハイディング。再生側では情報を取り出してLat式ミクさんが口パクをするというシステム。受けはどうだったんだろうか。

・HTML5による音声入力ウェブアプリケーションの開発キット（和歌山大）
西村先生。HTML5ブラウザを使って、分散音声認識を簡単に記述するためのキット。きみも今すぐ http://w3voice.jp にアクセスだ！

・感情ラベル付き会議録自動作成のための笑声・関心の自動検出（豊橋技科大）
秋葉研。会議の録音から「笑声」「話笑い」「関心」を検出するという、へえうふふ検出。うふふは比較的良いがへえは再現率が低い。

・自由発声した情報要求に含まれるキーワードの音響・言語的特徴の調査（豊橋技科大）
秋葉研。音声検索のためのキーワードの「検索貢献度」というのを定義して、それが音響特徴と相関しているかを見た。いまいち関係なし。

・音声入力によるスタンプ描画インタフェースの類似度の検討（東京工科大）
相川研。音声によるオノマトペ入力からLINEスタンプを検索するらしい。オノマトペとスタンプのマッピングをどうしてるか興味があるが、聞けなかった。

・音声認識結果を学習文に用いた認識誤りに頑健な発話トピック推定手法（日立）
カーナビへの音声入力からトピックを推定するときに、認識誤りに対応するために、入力音声の自動書き起こしをトピックモデル学習に混ぜる。

・フレーミングに基づいた協調的説得対話方策の強化学習（奈良先端大）
説得対話だが、あらゆる現実を自分の方にねじ曲げるだけでなくユーザにも歩み寄り。ポジティブ・ネガティブ表現を混ぜた推薦的（？）発話（フレーミング）を混ぜるところがポイントらしい。対話制御はPOMDPだが、こういう複雑な意志決定のために十分なデータ量がある気がしない。

・Deep Learningによる教師つき適応の結果を用いた日本語講演音声の誤り解析（山形大）
小坂研。DNN-HMMにさらに話者適応をして、それでも残っている誤りは何なのか調べた。半分ぐらいは同音異義や同じ発音で別単語系列になっているもので、ここまでくると音響モデルでは限界が来たって感じ。

・HMM歌声合成における決定木に基づくコンテキスト削減の検討（東北大）
うちの研究室の松本君。HMMの状態クラスタリングを改善するために有効コンテキストを選んだ。客観指標はちょっとだけ改善。

・顔特徴量を用いた合成音声のスタイル制御の検討（東北大）
うちの研究室の畢君。重回帰HSMMによる音声合成の感情制御のスタイル入力に顔画像を使う試み。あまりうまくいってないのはテストに使った畢君の顔のせいもあるかも。

・歌声の地声―裏声変換のための基本周波数とスペクトル傾斜の操作（金沢大）
声区の変換。F0とスペクトル傾斜をいじると地声と裏声の感じを変化させることができる。難しい操作なのかと思ったら、そうでもないようだ。

・歌唱熱唱度の言語依存性に関する研究（東北大）
うちの研究室のハオ君。日本語と中国語の歌唱について、日本語と中国語のネイティブ話者が感じる熱唱度に違いがあるかどうか。現在は各評価者間の相関に言語差があるかどうかだけ見ているが、もうちょっと分析手法に検討の余地がありそう。

☆☆☆

19時から懇親会。ノースアイランドビール http://www.2002cb.co.jp/ から4種類のビールが大量供給。全種類飲むだけで酔っぱらってヘロヘロに。出し物はオキさんによるトンコリ演奏 http://www.tonkori.com/ 。想像以上にロックな音楽だった。

aitoの日記： 9/4 音響学会2日目まとめ 0

9/4 音響学会2日目まとめ More ログイン

スラド