パスワードを忘れた? アカウント作成
8944731 journal
日記

aitoの日記: 5月23日 NL/SLP研究会まとめ

日記 by aito

■学生セッション1:テキスト処理・検索(10:00-12:00)
(1) ドメイン知識を利用したレシピテキストにおけるイベント間の時間関係の解析
   島崎 聡,飯田 龍,徳永 健伸
文章の中に出現するイベントの時間的前後関係の推定。現在一般的な文章に対して時間関係解析をした時の性能はいまいちなので、ドメインを限れば性能が向上するだろうということで対象をレシピに限定。先行研究では接続詞などを手掛かりに前後関係を推定しているが、推定できる関係が不十分。今回は対象がレシピなので、食材とその処理(イベント)の関係に基づく分析を行う。複数のイベントの間で頻出するパターンを抽出し、ドメイン特有の知識(食材など)とアドホックなルールを使ってそのパターンを特定する。イベントの分類と前後関係の正解の作り方に一貫性がない気がする。

(2) 日本語書き言葉を対象とした談話単位分割基準の提案と自動分割の評価
   宮原 聡,飯田 龍,徳永 健伸
文章を完結した命題(談話単位)に分割する。1文が2つの談話単位に分割されるときに、従来手法では明確な接続助詞がない場合や分の入れ子構造を含む場合に対応できていなかった。前者への対応として、形式名詞などの後で分割を行い、後者への対応として従属節は分割を行わないという処理を入れた。手法はSVMで、素性は述語の活用形や付属する機能語、係り受け関係など。判定誤りの理由として、13%が誤植だというのが面白かった。

(3) 講演音声ドキュメント検索のための擬似適合性フィードバック
   西尾 友宏,南條 浩輝,吉見 毅彦
音声ドキュメント検索での疑似適合性フィードバック(PRF,初期検索結果からキーワードを抽出してクエリを拡張する手法)。初期検索精度が低く、ドキュメントが長い場合の検討。対象はCSJ。ドキュメント長については、機械的に固定発話数で分割する手法で、発話数を振って評価。固定発話数を小さくすると検索性能は下がるが、PRFによる性能向上が大きい。そこで関連語を抽出するための文書単位と検索のための文書単位を別に用意する。関連語抽出と検索に同じ単位を使う場合よりは性能が向上するが、検索対象文書の長さが長い場合には性能が向上はしない。最後に、PRFを使った結果と使わない結果を合わせることで性能がちょっと向上。

(4) 多段階戦略に基づくテキスト間の意味関係認識:RITE2タスクへの適用
   服部 昇平,佐藤 理史,駒谷 和範
複数テキストの含意・換言・矛盾関係の認識。RITE2はこれらの認識を目的としたワークショップとそこで使われるタスク。含意関係認識の戦略として、2つのテキストの表層的な類似度を調べ(類似度が高ければ含意関係がある可能性が高い)、次に類似度が高くても含意関係がない場合の識別を行う。類似度は、文字・形態素(表記、基本形)の1~3gramのオーバーラップ率。文字unigramだけを使っても78.3%の識別ができる。さらに、しきい値付近では文字種を考慮したunigramのオーバーラップ率を使ってヒューリスティックな識別関数を使う。次に、2つのテキスト内の固有名詞や数字の出現の違いによって含意関係のないテキストを排除する。カタカナ語の表記ゆれなどにも対処。また、矛盾の検出をヒューリスティックな前処理として実装。複数関係認識タスク(MC)で非常に良い性能。

■学生セッション2:対話・信号処理(13:30-15:30)
(5) ユーザ発話の誤分割に起因する問題を事後的に修復する音声対話システム
   堀田 尚希,駒谷 和範,佐藤 理史
ユーザが途中までしゃべった内容に対して対話システムが応答してしまう問題への対処。対話システムはMMDAgent。ユーザの1発話が複数の発話に分割されてしまった時に、複数の発話を統合して解釈する。複数発話の音声信号を連結して再認識する方法と、2つの認識結果をつなげる方法を併用(どっちを使うかは認識の信頼度によって切り替える)。また、ユーザ発話中にはシステム発話を停止し、再認識中には間をつなぐためにフィラーを生成する。対話管理はFSTベースなので、バージイン検出を新たな状態として定義する。対話管理の状態遷移がどうなっているのか不明だったのだが、MMDAgentがよろしくやっているらしい。

(6) 聴覚特性に基づく重み付け反復スペクトル減算法による音質改善の検討
   福森 隆寛,堀井 圭祐,中山 雅人,西浦 敬信,山下 洋一
人間が聴くための雑音抑圧。SSベースで、ミュージカルノイズを低減する。基本的には雑音抑圧量を抑えめにしたSSを反復するが、等ラウドネス曲線を考慮しながら周波数によってSSのパラメータを変える(聴覚的に敏感な3~4kHz付近は抑圧量を多く、鈍感なところは抑圧量を多くする)。今回の発表では実環境雑音を使って評価。客観評価は雑音抑圧量と音声歪み、主観評価はミュージカルノイズがどのくらい気になるかを5段階評価。従来の反復SSと比較して、高い雑音抑圧、小さい歪み、少ないミュージカルノイズを達成。また、主観評価結果により反復回数の最適値を求めた。聴覚特性を考慮したことと抑圧性能との関係が謎。

(7) マルチステージ環境音識別法を用いた危険音の検出
   林田 亘平,小川 純平,中山 雅人,西浦 敬信,山下 洋一
環境音の識別。日常音と非日常音の識別をした後、非日常音の危険度を改めて識別する。日常音/非日常音の識別にはHMMを使い、日常・非日常それぞれ学習データを利用する(非日常音では頻度の少ないものはクラスにまとめる)。音の危険度はシステム作成者が主観的に決める。良い性能が出ているが、データが小さいので、結果がどの程度信頼できるのかはやや疑問。

(8) 環境音認識のための最尤状態数の検討
   岡本 亜紗子,林田 亘平,中山 雅人,西浦 敬信
同じくHMMによる環境音認識。環境音は継続時間やスペクトルの変動の具合が大きく異なるので、環境音ごとにHMMの状態数を変える。状態数の推定にはΔパワーの変曲点の数を使う。変曲点数と最適なHMM状態数との関係を実験的に調べて、非線形回帰によって対応をつける。認識性能は2%ちょっと向上。また、継続音の識別を高精度化するため、エルゴディックHMMを利用した。「認識性能が最も高くなる状態数」が「最尤状態数」とはこれいかに。

■一般セッション1:質問応答・対話(15:45-17:15)
(9) 話者の意図理解に基づく対話応答システムHermes
   星野 高志,坂本 一樹,原田 実
コンシェル的対話システム(文字ベース)。スケジュール管理、一般QA、PC操作、天気予報、道案内などができる。比較的Deepな構文・意味解析を行って、そこから意図(要求、質問、禁止、表明、叙述、挨拶、肯定、否定、その他)を推定する。また、過去の対話の記録から、過去に行った対話に関する質問に答えることができる。意図の推定やドメインの推定はルールベースのような気がする。

(10)質問応答と類推応答による物語との対話システムEVE
   白石 仁,五十嵐 聡,原田 実
物語の中の人物と会話ができる(感じになれる)対話システム。登場人物とユーザが混ざってオンラインチャットをしているような感じのシステム。対象の物語はシャーロックホームズ。基本的な文解析は前の発表と同じ。物語内の事実について問う入力とそれ以外の入力で処理を分ける。事実についてはfactoid型の質問応答手法を使う。それ以外の入力については、物語の中から類似度の高い質問文を抽出し、それに対する答えをうまいこと置換して出力する。知識の使い方が断片的なので、なかなか一貫した対話にはならないようだ。

(11)自動応答生成システムAngel
   永冨 郁洋,本多 宏行,加藤 南海,原田 実
コールセンターでのカスタマー発話(音声認識結果)から、それに対する適切な答えを生成するシステムなのだが、自動応答を想定しているようでもなくて、どう使うつもりなのか不明。AmiVoiceのカスタマーサービスのログから似たパターンを抽出し、応答文はマニュアルとかQ&Aから作成している。実験で生成した応答の結果が適切かどうかの評価は主観。適切な回答は全体の4割程度。音声認識への対応は全く行っていない模様。

この後、学生セッションの中から奨励賞を選定。(2)の談話単位分割と(4)のRITE-2の発表が選ばれた。おめでとうございます。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

アレゲはアレゲ以上のなにものでもなさげ -- アレゲ研究家

読み込み中...