パスワードを忘れた? アカウント作成
10029457 journal
日記

aitoの日記: 9月26日 音響学会2日目 ポスタ会場 音声A(II)  (聞いたものだけ)

日記 by aito

午前(9:30~11:30) 座長 松田 繁樹 副座長 久保 陽太郎
2-P-15 情報ハイディングを用いたマルチモーダルVADにおける特徴量と符号化による影響の評価 ☆阿部 洋平,伊藤 彰則(東北大)
当研究室の阿部君。顔画像から抽出した口の形を特徴量にして音声に埋め込み、VADに使う。音声符号化にG.711を使ったのが今回の新しいところ。埋め込みビットレートと音質、VAD性能のトレードオフ。

2-P-16 局所区間の非言語情報を利用した対話状態推定手法の検討 ☆千葉 祐弥(東北大),伊藤 仁(東北工大),伊藤 彰則(東北大)
当研究室の千葉君。何も言わない利用者がなんで黙ってるかの推定。いろんな手法を試しているが、今回はTDNNと2段階特徴量を使った推定法。

2-P-17 相談対話における顔文字による発話感情の記録 ☆安田 篤史,荒木 雅弘(京工繊大)
相談をしている対話を書き起こして記録するための研究。従来は人手だが、音声認識+リスピークによって性能を上げる。また、感情状態の記録が重要なので、リスピーカーがリスピーク音声に載せた感情を感情認識で認識し、5感情をそれぞれ顔文字にして記録する。顔文字は人間が見たときにわかりやすいという利点があるが、この研究においてはあんまり本質的でない気がする。

2-P-18 ロボットの音声操作時におけるユーザ発話の音響的特徴に関する検討 ☆戸塚 典子,伊藤 彰則(東北大)
当研究室の戸塚さん。移動ロボットを音声で操作するときに、ロボットが意図しない動きをした時に音声がどういう影響を受けるか。発話速度は速くなるが、F0・院展シティともに変化なし。発話間隔は短くなるが、これはおそらくタスク依存。

2-P-19 音声ドキュメント検索手法における拡張クエリの超平面によるモデル化と潜在意味解析の適用 ☆市川 賢(名大院),柘植 覚(大同大),北岡 教英,武田 一哉(名大院),北 研二(徳島大)
クエリ拡張とベクトル空間モデルを使った音声ドキュメント検索。クエリの文書ベクトルと、Webからダウンロードして作った拡張クエリの文書ベクトルの重みづけをどうするかの話。従来は一定の重みを使うが、この研究では検索対象文書ごとに類似度が最大となる重みを使う。やっていることはわかるが、なぜそうするべきなのかがよくわからなかった。性能は改善せず。

2-P-21 Suffix Arrayを用いた高速音声検索語検出における検索閾値の調整法の改良 ○三浦 成一,桂田 浩一(豊技大),入部 百合絵(愛県大),新田 恒雄(豊技大/早大)
サフィックスアレイを使うSTD。従来はクエリの音素トライグラムから一定個数の検索候補を出し、それを組み合わせて最終候補を作るが、これだと最終候補が多くなりすぎ、この後に続くDPマッチングによる検証の時間が増大する。そこで検索候補数を削減するため、音素トライグラムから生成する検索候補の個数を増減させることで全体の候補数を抑える。通常の方法と同等の検索性能で、候補の数を半減できる。

2-P-24 プライバシ保護のための音声からの人名除去とその評価 ☆川口 亮,土屋 雅稔,中川 聖一(豊橋技科大)
センサ的に環境に配置されたマイクロホンからの音声に対して、プライバシー保護のために音声部分だけを消去するための研究。ストリートビューの顔けしの音声版。基本的には音声認識をして人名と認識されたところを特定するが、再現率を上げるために人名の確率を上げたりしている。また、適合率を上げるために、認識結果の品詞列を素性としてSVMで人命かどうかの識別をしているが、もうちょっと素性が工夫できるんじゃないかという気がした。人名と思しき所を消した音声を聞かせて、内容がわかるかどうかの検証もしているが、そもそも人名を消した音声を何に使うのかということはもう少し議論が必要な気がする。

2-P-26 条件付き確率場を用いた音声中の検索語検出の検討 ○西崎 博光,古屋 裕斗,△名取 賢,関口 芳廣(山梨大院)
複数システムによる音素認識結果のコンセンサスネットワークからの検索誤検出。通常のDPによる方法に加えて、CRFを使って単語を検出する方法を併用。形態素解析等の手法とほぼ同じ枠組みで、ある特定の単語の語頭・語中・それ以外の3ラベルを使った系列ラベリング問題。素性は音素n-gram。CRF単体では性能は良くないが、DPと組み合わせると少し性能向上。

2-P-29 キーワードの連結による聞き流し機構の精度向上 ☆佐藤 拓真,西崎 博光,関口 芳廣(山梨大院)
入力発話が話題に沿ってるかどうかだけ判別する「聞き流し」。西崎先生のところはいつも面白い発想をする。基本は話題に特化したモデルと一般的なモデルの2つによる認識結果の比較だが、短いキーワードだと認識性能が低いので、単語連結をキーワードとして新たに登録することで性能向上を狙う。提案法によって再現率が下がり、適合率は上がる。全体的にやや向上。

2-P-30 Web文書及びSTDを利用した言語モデル・認識辞書の話題適応化 ☆鈴木 和将,古屋 裕斗,西崎 博光,関口 芳廣(山梨大院)
Webを使った教師なし話題適応で、余計な語彙をSTDにより絞り込む手法。以前うちで佐藤君がやっていたのと枠組みとしてはほとんど同じだが、参照されていないのが残念。うちでやったものよりも性能が高い。STDの基本性能が高いせいかもしれない。

2-P-36 擬似的にピッチ同期した位相情報を用いた雑音環境下の話者認識 ○川上 雄太,王 龍標(長岡技術科学大学),中川 聖一(豊橋技術科学大学)
話者認識にはスペクトルの振幅だけでなく位相も重要ということで、スペクトルの位相情報を併用する話者認識。絶対的な位相は意味がないので、ある特定の周波数に対する相対的な位相を使う。また、位相を安定させるために、ピッチ同期の窓を使う(疑似的、と書いているが、話を聞いてみると結局は普通のピッチ同期だった)。また、雑音環境下では、パワーが小さい部分を捨てることで性能を安定させる。位相情報は使うのが難しいと思っていたが、そうでもないのかな。位相を使うことでそこそこ性能向上。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

にわかな奴ほど語りたがる -- あるハッカー

読み込み中...