パスワードを忘れた? アカウント作成
305571 journal

aitoの日記: 音響学会3月10日音声関連ポスターセッションメモ

日記 by aito
今回は件数が多い。ポスターを増やすのはいいが、同分野で一度に60件だとざっと眺めるだけで終わるところが何とも。2時間ほど回る。

以下聞いたものだけ。

☆決定木を利用した講演音声中のフィラーの使い方アドバイスシステムの試作(山梨大)
講演の聞きやすさを主観評価し、フィラーの出現頻度や出現位置などの特徴量で聞きやすさを説明する決定木を学習する。次に、ある人の講演に対して、決定木によって「聞きやすさ」を推定すると同時に、どこを直すと聞きやすさが向上するかをアドバイスする。面白い試みだが、「フィラーを少なく、はっきりと話しましょう」という以上の何かがあるのかどうかわからなかった。

☆在宅健康管理RTシステムにおける高齢者音声からの健康状態の推定(千葉工大)
大川研。積水ハウスとの共同研究。高齢者のバイタルデータと音声を同時収録するシステムを作成し、声の特徴と体重、血圧、体温などとの相関を調べた。個人内での変動との相関を取ったのか、個人間での差がそのまま出ているのかが良くわからなかった。

○2種類のマイクロホンを利用して自動同期しつつ雑音抑圧する方法(金沢工大)
實廣先生。なんか特許みたいなタイトル。E-Nightingaleシステムの一環で、看護師につけたピンマイクと、部屋につけたマイクの両方を使って音声を改善する。ピンマイク収録した音声から、部屋のマイクで推定した雑音をSSにより除去。音声の同期を取るところがポイント。

○高齢者音声の「めりはりのなさ」に関する音響的解析(九工大)
二矢田研。年寄りの声の「めりはりのなさ」を主観評価し、それに関連する物理指標を探す。スペクトル遷移量(2フレーム間のケプストラム距離)とその時間差分、5母音の広がりが「めりはりのなさ」に関連している。

☆NMFとVQ手法による音楽重畳音声の音楽除去と音声認識(豊橋技科大)
中川研。混合信号から音楽だけ除去する。混合音から音楽信号への対応をVQによって求める方法と、音楽および音声の基底をNMFで求めておいて、混合信号に対してNMFでそれぞれの混合比を推定する方法の2つを試した。VQの方が計算が楽なのでパラメータが増やせて性能が高い。

○声の高さ・長さ・大きさのパラ言語情報の認知に与える影響(島根大)
合成音声の高さや長さなどを変えて主観評価し、28の評価語によって評価した。評価語を増やしたところが従来より新しいらしい。MDSでの分析はまだやっていない模様。

☆双方向探索に基づくN-gramを用いたキーワードからの文生成(名工大)
徳田研。たけまるくん的システムの用例の自動生成。あらかじめ用例からN-gramを学習しておき、キーワードを指定するとN-gramを使って尤度の高い文を自動生成する。キーワードが2つの場合は、それぞれから前後に探索を行う。用例生成において、尤度の高い文を生成する必要があるのかがそもそも疑問。

◎音声対話システムにおける発話・行動タグN-gramを用いた課題未達成発話の検出方法と分析(名大)
武田研の原さん。MusicNaviで、タスク未達成発話を自動検出する手法。発話につけられた発話・行動タグのN-gramを特徴とする。分析のため、決定木を学習した。純粋に検出する方法としてはSVMの方が高性能。実際に対話しながらタグつけてこの方法を適用するのは難しいんじゃない?と質問したが、システム発話のタグは自動的に決まるので、できないわけじゃないようだ。

◎自由対話における視聴覚特徴を用いた発話意図推定の検討(名工大)
対話の言語情報・パラ言語情報と、頭の動きの情報から、発話が肯定的か否定的かを識別する。頭の動き情報はいまいち役に立っていないようだ。

☆日本人英語の自動発音評定における精度向上の検討(山形大)
日本人英語の発音誤り検出で、英語音響モデルの学習データとして、さまざまな方言が含まれるWSJではなく、東部と南部方言だけが含まれるGAデータベースを使ったら性能が向上した。その場におられた匂坂先生といろいろ議論した。方言があるからWSJが良くないというよりも、GAだとモデルの分布がコンパクトになって識別性能が上がったということじゃないだろうか。

☆SVMを用いた対システム発話と雑談の判別(千葉大)
声を聞いて、システムに向けた発話かどうかを識別する。特徴量は良く覚えていないが韻律とか。GMMよりもSVMの方が高性能。この手の話は昔中川先生のところでやっていなかったかな?

◎国際会議英語発表における発音評価のための新しい特徴量の検討(豊橋技科大)
中川研。国際会議で発表した英語の発音評価。Spotaneous speechであるところがERJとの違い。ERJと違って発話内容も関係するので、パープレキシティなどの言語特徴も使える。PP、スペクトル変化、音素対判別スコアを使うと評定値と高い相関が得られる。この手のものって、一番効くのが発話の速さなんだよね。
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

クラックを法規制強化で止められると思ってる奴は頭がおかしい -- あるアレゲ人

読み込み中...