パスワードを忘れた? アカウント作成
7772766 journal
日記

aitoの日記: 3月8日 情報処理学会全国大会「音声対話・音声認識」

日記 by aito

いろいろあって途中から。

・未知語の存在を考慮したユーザ発話のドメイン推定(早稲田大)
聞かなかった。

・ドメイン固有語の認識率向上を目指した音声対話システム用言語モデルの構築(名大)
途中から聞いた。コーパス中の固有語(店の名前とか)をCRFで推定して、そこに新しいドメインの辞書から単語を当てはめてコーパスを生成し、そこから学習する。

・データベース検索音声対話システムにおける対話を通じた店舗属性取得(名大)
レストラン検索対話。未知の店舗についての質問が来たときに、その店の情報を客からもらうことでシステムが知識獲得をする枠組み。取得する情報は店のジャンルだが、単に「どのジャンルですか」というだけでなく、「和食ですか中華ですか」のような選択質問にするため、店舗名からジャンル候補の推定を行う。方法はMaxEntによるジャンル推定と、Web検索に基づく方法。MaxEntでは素性選択を行う。Webを使うなら、そこにかかれている情報をどうやって抽出するかに注力した方がいい気がした。

・音声インタラクションでの参加者の反応に基づくロボットの誤動作の自動検出(名大)
Naoとの対話システムで、返答やダイアライゼーションが間違ったかどうかを対話相手のリアクションから推定するという方法。最初に、さまざまなパターンの誤動作(コミュニケーション誤り)が起きたときのユーザの反応を調べた。その結果「複数のユーザが同時に笑う」「ユーザが質問を繰り返す」などの反応があることがわかった。複数のユーザが笑う場合には、ロボット発話から7秒程度までに笑いが起き、質問を繰り返すときのインターバルは6秒程度。笑いの識別をしているわけではなく方向しか見ていない。F値は0.54。

・方言対訳コーパスを用いた日本語方言変換システム(京大)
統計翻訳による方言変換。「方言の混合」に対応するという目標が新しい。共通語をピボットとすることで複数方言やその混合に対応する。対訳コーパスが少ないので、そこから学習した関西弁フィルタみたいなもので対訳コーパスを自動生成して、そこから認識用言語モデルを学習する。中国語では同じような研究があったような。

・簡略表現の音声認識を目指した生成規則と出現頻度の調査(名大)
名詞の簡略表現(ゲームセンター→ゲーセンなど)をルール化して自動生成し、それを認識辞書に追加することで音声認識精度を向上させる。ルールで生成した簡略語をフィルタリングするため、大規模コーパス(Yahoo知恵袋コーパス)中の出現頻度を使う。コーパス中に含まれている表現しか使わないのであれば、最初からコーパスから辞書を作ったらいいのにと思った。何かうまい使いどころがある気もするが。

・ユーザの言い淀みによる発話の誤分割を事後的に回復する音声対話システム(名大)
音声対話システム用。ユーザが言いよどんだために発話が2つ以上に分かれてしまったものを後から回復する。また、最初の発話が切れた後に次の発話が入ってきたら、システムの発話を停止する。また、言い淀みをはさんだ2つの発話について、発話間の時間が閾値より短ければ、その2つを結合して再認識する。再認識している間、システムはフィラーを発話する。

・音声操作可能なWebブラウザの開発(早稲田大)
題名通り。ブラウザは自作、認識エンジンにはユリウス()を利用。その場でデモを行うという大胆な発表だった。通常状態では発話はコマンドとして解釈されるが、文字入力モードに入るとより少ないコマンド発話以外は入力文字になる。リンクの選択はリンク番号を発話する(Lynxと似た方式)。デモはうまく動いていた。使いどころがよくわからないが、個々まできちんと動くものを実装したのはすごいと思う。

・組込型音声認識システムのための低演算特徴抽出法(東北大)
当研究室の松井君。低速なデバイスで音声認識を行うため、まず特徴量を簡単に計算できるものにしてみた。FFT→三角窓のかわりにHaar-Waveletを使う。認識精度はいまいち。やっぱり早く計算量を比較しないとなあ。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

アレゲはアレゲを呼ぶ -- ある傍観者

読み込み中...