パスワードを忘れた? アカウント作成
255048 journal

aitoの日記: 9/14 音響学会1日目 音声Aポスターまとめ(聞いたものだけ)

日記 by aito
いろいろあって33件中9件しか聞けなかった。

☆変調スペクトルによる音楽が付加された音声の自動検出の検討(上智大)
荒井先生のところで以前からやっている変調スペクトルを使ったVADの話。これまでは比較的単純な雑音環境だったが,音楽を背景雑音としたときに,ジャンルによってどう性能が変わるか。提案法はなぜかインド音楽が苦手らしい。曲のリズムが問題だというが,DAWとかで同じ曲の速さを人為的に変えて実験したらどうなるのか興味がある。

☆講演音声を用いたN-gram補完手法が与える音声認識性能の調査(和歌山大)
河原研というか西村先生の学生さん。学習データ量が少ないN-gramの「つなぎ」にgoogle N-gramを使う方法で,「重要単語」を含むN-gramだけを持ってきて補完するとちょっと良くなる。前から思っていることだが,この仕事は「見せ方」が良くない。ほとんど同じことをしていても,全体が確率的な枠組みに乗るような定式化をしておくと,聞いた人の印象が全然違うと思う。

○Topic Dependent Class Based Language Model in Japanese Automatic Speech recognition(豊橋技科大)
以前も聞いたことがある(そして理解できなかった)Topic Dependent Class言語モデル。いろいろ質問してみたが,やっぱりよくわからない。とりあえず何をしているかは理解できた気がするので,まあいいか。N-gramの履歴より前にある単語系列に含まれる名詞1個1個からそれぞれ「話題」(実際はLSAの空間をベクトル量子化したもの)を推定し,多数決で現在の話題を決定し,話題依存のN-gramを使う。これまではPPの評価だけだったが,今回は音声認識を行って評価した。TDC N-gram単独だと普通のtrigramに及ばないが,組み合わせるとちょっと上がる。

○実データに基づく中国語言語モデルの適応処理(NICT)
中国語の言語モデル適応だが,教師なし適応をしようとすると誤認識が悪さをするので,一部を人手で修正する。どの程度修正したらいいかというのがテーマのようだが,「修正すればするほど良い」という結果に見えるところがちょっと(´・ω・`)な感じ。

○同時推定した誤り原因確率の周辺化に基づく信頼度(NTT)
小川さん。単語認識時のさまざまな特徴量から,その単語の信頼度と誤認識原因を推定する方法の改良。従来は信頼度と誤認識原因を独立に推定していたが,今回は信頼度と誤認識確率の同時確率をいったん推定してから,それを周辺化することで信頼度だけの値や特定原因の誤認識確率を求める。周辺化しちゃったら独立に求めるのと同じじゃないの,というのを私と隣にいた南角さんがつっこんだが,結果としては「独立推定」と「同時推定+周辺化」の性能は違うので,どこか違うはずなんだけどどこだろうねで終わってしまった。何が違うんだろう。

○柔軟でコンパクトな純粋関数型デコーダの検討(東工大)
篠崎先生。なんとHaskellでWFSTデコーダを書いちゃった話。しかもソースはたったの400行(ポスターの横にプログラムリストが貼られていた)。篠崎さんはハスケラーだったのか。今日(そしてたぶん今回の音響学会で)一番びっくりした発表。Haskellでゲームを書いた奴がいるとか言って喜んでいる場合ではなかったのだ。わんだほー。

☆Voice searchタスクにおけるバックオフとヒットレートに関する考察(奈良先端)
たけまるくん的タスクでは,文の長さが短いし,学習データが多ければほとんどの意味あるパターンは学習データに表れているので,バックオフをしなくてもそこそこの性能だよね,という話。

☆Topic Classification in a Speech-Oriented Guidance System Using Character Based Methods(奈良先端)
たけまるくん的タスクで,入力とデータベースとの照合を高速化するために,あらかじめ入力の話題識別をして話題を絞ってからマッチングをする方式。そのための話題識別をするが,n-gram特徴+識別器を使う際の単位として,単語よりも文字単位のほうがよい(もちろん日本語の場合)。字種が少なくてカバレージが高いからだろう。

☆音声対話システムの発話系列N-gramを用いた課題未達成対話のオンライン検出(名古屋大)
自動認識された音声対話に対して,その対話で目的が達成されたのかどうかを自動検出する。特徴量は発話タグのN-gram。達成された対話とされなかった対話で個別にN-gramを学習し,2つのN-gramの対数尤度比を使う。この問題は識別課題なので,N-gram確率の尤度比よりも,N-gramを特徴として使って識別モデルを学習したほうがいいんじゃないの,とコメントした。
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

開いた括弧は必ず閉じる -- あるプログラマー

読み込み中...