パスワードを忘れた? アカウント作成
10753179 journal
日記

aitoの日記: 3月12日 情報処理学会 4S 「音声対話システム・音声認識」

日記 by aito

学生セッション[4S 会場](3 月12 日(水)14:30 ?17:00)
音声対話システム・音声認識 座長 伊藤 彰則(東北大)

1 音声対話システムのための周辺の文脈に着目したドメイン固有語のカテゴリ特定 ○藤巻寛継,駒谷和範,佐藤理史(名大)
案内対話での未知語(店の名前)に対するカテゴリ推定.ドメインはレストラン案内.機械学習のデータを作るため,大規模コーパスの中n含まれる店の名前の周辺単語の特徴からCRFでカテゴリ(レストラン名かどうか,等)を推定する.コーパスはYahoo!知恵袋のグルメレシピコーパス.普通のNLPでのカテゴリ推定と違うのは,当該単語の表記を使わないことだけらしい.

2 マルチモーダル情報を利用した未知語を含む発話のドメイン選択精度
の向上 ○高橋裕己(早大),中野幹生(早大/ ホンダRIJ),岩橋直人(京大),左 祥(京都工繊大),船越孝太郎(ホンダRIJ),
岡 夏樹(京都工繊大),菅野重樹(早大)
オフィスロボットなどとの音声対話でのドメイン推定.未知語を含む場合を考えて,未知語を含んでもよい文テンプレートを使って認識をすることと,画像情報からのユーザのジェスチャなど(ポーズ,物を持っているか,等)を使うことが特徴.それぞれの結果を特徴量とし,SVMとロジスティック回帰により識別.ドメインは5つ.文型と画像を組み合わせたことによる効果は見られない.

3 簡略表現を認識し応答に利用する音声対話システム ○秋田谷 樹,駒谷和範,佐藤理史(名大),中野幹生(ホンダRIJ)
簡略表現(ケンタッキー→ケンタなど)が使える音声対話システム.ドメインは名古屋市内のコンビニ・レストラン検索.施設名からルールによって簡略表現の候補を自動生成し,人手で補って「簡略表現リスト」を作成し,それを使って音声認識用の辞書と言語モデルを作る.またこれを使って,「語彙の引き込み」についての調査を行った.通常の施設名称(コンビニだったらチェーン名など)をシステムが使った場合には,ユーザも同様の単語を使う傾向が高い・・・ということなのだけど,実験結果から本当に引き込みが起きたのかどうかいまひとつわからない結果.

4 連続2ターンのユーザ発話を用いた発話内の未知語有無推定 ○大塚嗣巳(名大),中村友昭,中野幹生(ホンダRIJ),駒谷和範(名大)
発話に未知語が含まれているかどうかを識別する.特定の1発話を使うのではなくて,ユーザの連続する2発話を使うことが特徴.1発話目に未知語が入っていれば,聞き返しをすることで2発話目にも同じ単語を言うだろうという仮定に基づく.特徴量は,それぞれの発話での単語信頼度や,2発話での単語信頼度の差などを使う(最大75).ドメインは「物の名前を教わる」など.2発話を使うことにより,未知語存在の判定制度が80%ぐらいになる(従来法は73%ぐらい).面白い.

5 (講演取消)

6 混合方言言語モデルと混合比推定による方言音声認識システム ○平山直樹,吉野幸一郎,糸山克寿,森 信介,奥乃 博(京大)
一つの発話の中に複数の方言が混ざってしまっている場合に,単一の方言言語モデルでは難しいので,方言の混合言語モデルを使う.方言は5カテゴリ(北奥羽,東京,近畿,東山陽,肥筑).学習データは小規模な対訳コーパスから学習したルールによる疑似方言コーパス.複数の方言に対して,さまざまな混合比の言語モデルを作っておいて,すべてのモデルで認識をしたうえで,尤度最大の結果を採用する.複数の言語モデルについての認識尤度と正解精度には高い相関がある.また,各単一方言言語モデルでそれぞれ結果を出してROVERで統合する方法も試した.(前言語モデルを使う方法よりやや性能が低い).

7 多人数対話システムにおけるロボットの挙動に対するユーザ反応の分類 ○水野 壮,駒谷和範,佐藤理史(名大)
ロボットが入った多人数会話において,ロボットが正しい反応をした時と間違った反応をした時に,周りのユーザがどういう挙動をするかを分析した.ロボットが正しい動作をした場合は「うなづく」動作が多く,誤った動作をした時は「笑い」の動作が多い.また,これを利用するため,GMMによって笑い音声の検出を行った.GMMによる方法はいまいち.

8 音声発話の誤分割修復のための連続する発話対の同一発話判定 ○堀田尚希,駒谷和範,佐藤理史(名大),中野幹生(ホンダRIJ)
この話はこの前聞いた気がする.ユーザ発話でポーズが挟まったために発話が分割されてしまったときに,分割された発話を修復すると同時に,発話が終わってからシステムが応答するようにする.この発表では,複数の発話断片に対して「修復が必要なのかどうか」を識別する.識別は決定木.特徴量は信頼度や雑音判別スコア,発話間の時間間隔,発話の音量など.特徴選択として,性能向上とドメイン独立性の両方を考慮する.最終的な識別性能(ドメイン独立)は86%.

9 一問一答型音声対話システムにおけるシステムからの自発的な発話生成 ○吉田達平,駒谷和範,佐藤理史(名大)
一問一答型の音声対話システムで,より長く対話が続けられるような方策.ユーザー入力に対して決められた発話を選んで出力するだけでなく,それら(直前の入力と出力)から「自発的な発話」を生成して出力する.「自発的な発話」は応答文データベースの中から選ぶが,選び方として「直前の応答文と似ている応答文を選ぶ」方法,「直前の発話候補文に似ている発話候補文に対応する応答文を選ぶ」「それらの統合(類似度が高い方を使う)」を試した.統合手法を使うことで,適切な自発発話を選ぶ率が高くなる.それにしても,長く対話を続けるのが目的なのに一問一答型の対話システムを使うってどうなの.

10 ヒューマンロボットコミュニケーションにおける意味学習機構の有用性 ○沢登京介,梅崎太造,田口 亮(名工大),保黒政大(中部大)
ロボット対話システムでの意味学習が,ユーザの印象にどういう影響を与えるかの調査.ロボットは実ロボットではなくてSIGVerseを利用.単語を教えるには「これの名前はXです」という表現(Xは音節連鎖)を使う.学習した単語とオブジェクトの対応を記憶させ,以降のコマンドに使えるようにする.タスクは積み木の世界でのロボット操作.デモ映像があったが,合成音声が子供の声.被験者に自由に対話させると,学習しないロボットを使う時の方が発話数が多い(名前を付けられるロボットの方では,名前を考えるのに時間がかかるため).学習有のロボットの方が印象がよかった.

最後に学生奨励賞の贈呈.迷ったが,4番の大塚さんと6番の平山さんに贈呈した.おめでとうございます.

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

192.168.0.1は、私が使っている IPアドレスですので勝手に使わないでください --- ある通りすがり

読み込み中...