パスワードを忘れた? アカウント作成
797024 journal
日記

aitoの日記: 9月22日 音響学会3日目

日記 by aito

9月22日

ポスターセッション音声A(聞いたものだけ)
○残響にロバストな音声区間検出法とその比較評価(北陸先端大)
鵜木先生発表のはずだったのだが、台風で来られないということで代理発表。残響音声に対して「残響がなかったとしたときの」音声区間を切り出す。パワーエンベロープ回復処理でパワーの残響の影響を巻き戻すようなフィルタをかけ、あとは閾値で切り出し。従来法では本来の音声区間終了後にも音声区間と判定される部分が続くが、提案法ではその辺が改善するらしい。

○大学講義の音声認識のための音響・言語モデル適応に関する検討(京大)
三村さん。河原研って講義音声認識をやってなかったっけ?ともかく講義音声認識のためのモデル適応の効果を調べた。音響モデル適応は書き起こしがなくても何とかなる。言語モデル適応は前回までの講義内容の書き起こしを利用。本当はスライドの内容だけから適応ができるとよいとのこと。

○語彙で認識対象を制御するGoogleデータを用いた3-gramモデル構築法の検討(和歌山大)
作成したい言語モデルの語彙リストだけを用意し、その単語を含む3-gramエントリをGoogle N-gramから選ぶ。それを集めて3-gramモデルを作成する。テキストコーパスを用意した場合よりは性能が低い。

☆情報量を基準とした3-gram拡張に基づく言語モデルの適応手法(和歌山大)
上の発表と動機は同じ(やっているところも同じだが)。元の汎用n-gramに対して、適応用コーパスからtf-idfで重要単語を抜き出し、重要単語それぞれについて関連エントリをGoogle n-gramから取り出す。次に、取り出したそれぞれのGoogle n-gramエントリを汎用n-gramモデルに追加してみて、テストコーパスの尤度が上がるかどうかをテストし、上がるようなら追加する。発表の仕方がいまいち。

西村先生のGoogle n-gramを使う一連の研究は面白いのだが、理論がないのがよくない点だと思う。汎用のn-gramの中から特定の語を含むエントリを取り出すことと、あるトピックに特化したn-gramとはどういう関係にあるのかを理論的に整理してから進めないと説得力がない感じ。

○語節内位置情報を用いた韓国語音声認識辞書の改良(NICT)
韓国語では、ある単語の前後のコンテキストによって語頭・語末の音素が変化する。その変化は語節(文節相当)内で閉じるので、単語が語節の中のどの位置(先頭・中・末尾)なのかによって辞書エントリを分ける。単にエントリを分けて等確率で出現することにすると精度が落ちてしまい、頻度最大のエントリだけ使った方がまし。学習データがあるなら、発声変形込みで語の構成単位としてしまい、どの発音が使われるかはn-gram確率を使った方がいいんじゃないのとコメントした。

○クラス内変動に頑健なカーネルマシンと話者照合への適用(早稲田大)
小川さん。以前SLPで聞いたのと同じ話だと思う。カーネル法ではどのカーネルのパラメータをどうするのかが問題になるので、複数のカーネルを重み付きで線形結合し、その重みを学習する(MCEM法)。

☆音声検索語検出結果を用いた音声ドキュメントの内容検索(豊橋技科大)
秋葉研。文によるクエリから音声ドキュメントを探すのだが、音声ドキュメントのほうを音声認識しておくのではなく、クエリの各単語を単語スポッティングによって探し、その頻度によってドキュメントを選ぶ。通常のSDRよりは性能が低い。OOVが多い場合は有効かもしれない。ただ、クエリに含まれていない単語がドキュメントにどれだけ出てきているかを考慮することができないので、OOVがなければ原理的に通常のSDRを超えない気がする。

☆発話の連続性に基づいた音声信号の分離による会議音声の可視化(筑波大)
テーブルを囲んで会議をしているときに、だれがいつ話しているかを可視化する。MUSIC法での方向ごとのスコアを、時間と方向の2次元上に濃淡で表示する。それだけでなく、各方向のMUSICスコアをバンドパスフィルタ分析した結果を使い、発話を「連続」「突発的」などに分類して色分けする。やっていることはわかるが、会議の全体を視覚的に理解するための可視化手法として良いのかどうかは疑問。

☆対話型カードゲームロボットにおける応答タイミングの検討(山梨大)
ババ抜きのようなカードゲームをするロボットとの対話(ロボットの名前がなぜか「キクラゲ」)。ユーザが発話してから、ロボットが返答するまでのタイミングを制御してみたが、一定時間で返答する場合のほうが主観評価が高かったという残念な結果。

☆音声情報案内システムにおける統計的機械翻訳の手法を用いた応答文生成手法の検討(奈良先端大)
これも以前SLPで聞いたのと同じ話。たけまるくん型システムで、質問から答えを生成する機械翻訳機を学習する。データベースの内容が翻訳モデルに反映されてしまっているので、汎用性がなくタスク変更も難しいと思うのだが。

◎ユーザの発話前状態推定のための音声および顔向き特徴に関する検討(東北大)
うちの千葉君が発表。対話システムで、ユーザが発話する前に困っているかどうかを推定する。結構好評で、ポスターの時間終了後も議論が続いていた。

☆聞き耳インタフェースを備えたメモシステムの試作(山梨大)
講演などをメモするときに、自分がメモする内容とは別に、音声認識結果の自立語リストを提示し、それをクリックすると単語が入力できるインタフェース。ここがやっている「聞き耳」は、「役に立つなら使えばいいし、なくても困らない」という点が面白い。認識結果の単語を選ぶモードと、自分でメモするモードがうまく切り替えられるといいと思うのだが。

他にも面白そうな発表がたくさんあったのだが、残念ながら半分ぐらいしか聞けなかった。

音声A [音声ドキュメント処理・情報検索]
☆直線検出に基づく音声中の検索語検出のための画像処理フィルタ(龍谷大)
南条研。サブワードを対象とした単語スポッティングにおいて、距離行列から直線を検出することで単語検出をする手法の改良。距離行列を画像と見なして、「直線強調」と「雑音除去」を行った上で直線検出を行う。また、検出後の長さに依存した検出閾値を用いる(こちらはトリビアルだと思うのだが)。

☆音響情報のベクトル量子化に基づいた音声検索語検出(立命館大)
山下研。音響情報ベースの単語スポッティングを高速化するため、VQコードブックを使う。音素とVQコードとの対応をあらかじめ求めておき、それを使って音素列(検出対象)と音声ドキュメントをマッチングする。また、湧きだし誤りを押さえるためにヒューリスティックを使う。20年前的手法。それが悪いというわけではないが。

☆音声入力による図柄パターン検索における未知語処理(東京工科大)
相川研。音声で擬音語的クエリを与えて図柄を検索するシステム(2月のSLPで発表)。クエリに未知語が多いので、音素認識結果に近い既知のクエリを探し、それを使って図柄を検索する。クエリと図柄の対応は感性ベクトルを介する。未知語と既知語の間で大きな検索性能の差は見られなかった。音韻的に似ている単語が似た感性を持つという性質がうまく利用されているようだ。

○講演における複数アノテーションに基づく句読点の自動挿入(京大)
認識結果への句読点挿入の一連の研究。今回は読点の挿入がメイン。複数のアノテータが句読点を挿入すると、句点はほとんどゆれがないが、読点は個人差が大きい。ポーズの約半分は読点となり、ポーズの長さによらない。その結果を受け、いくつかの特徴を使ってCRFで句読点を予測した。3人のアノテータについて、「誰かが読点をつけた」位置を予測するのがもっとも容易。書き起こしに対する読点付与でF=0.82、音声認識結果で0.57ぐらい。

音声A [対話・インタフェース]
☆非可聴つぶやき認識におけるユーザ動作に伴う雑音に起因する性能低下の抑制(奈良先端大)
NAMマイクは外来雑音には強いが、体を動かすことによる雑音に弱い。これに対処するため、ステレオでNAMを収録して利用する。手法はブラインド空間サブトラクションフィルタ(BSSA)。ICAによってステレオ信号から雑音だけを推定し、それを各チャネルからSSによって減算する。またでてきた2チャネル信号の中から良さげな方を選ぶ。疑似的な環境ではだいぶ改善するが、実際の環境ではやや改善する程度。

○多人数会話に参加しコミュニケーションを活性化する会話ロボットの開発(早稲田大)
多人数会話に参加するロボットSchema。デイケア施設での難読ゲームに参加して場を盛り上げる。他の参加者のVAD情報から場の活性度(どのくらい盛り上がっているか)を調べ、ヒューリスティックなルールで行動を選択する。

☆言語に依存した韻律モデルによる発話継続/終了推定(早稲田大)
ユーザが発話してからシステムが発話するまでどれだけ待つべきかを確率的に推定する。基本的に、ある単語を観測した後で発話が終了する確率を求める。韻律情報として基本周波数とパワー、言語情報として発話区間末にでてくる単語(主に助詞)を利用する。発話終了確率と、システムの発話内容から「発話期待度」「発話意欲度」を求め、そこから待ち時間を計算する。計算式の根拠はよくわからなかった。待ち時間固定のシステムと比較して主観評価。ややよい結果だが固定時間とくらべて大きく改善というほどではない。

○展示会場の運用のための音声情報案内システム「たけまるくん」のデータベース拡張(奈良先端大)
遷都たけまるシステムの報告。新環境に対応するためにQADBを拡張。元のQADBの小規模な書き換えから、キーワード置換で対応したもの(「たけまるくん」→「せんとくん」)、文法を書いて対応したものがある。最終的な用例は大人用13000ぐらい、子供用17500ぐらい。ユーザ発話を書き起こすと、3週間で大人1500、子供3000ぐらい。大人の場合、事前のQADB拡張で、応答正解率が50%弱から70%に、3週間分のユーザ発話を追加するとさらに82%ぐらいになる。子供ではユーザ発話を追加することの効果が大きく、事前QADB拡張をしない方がよい。

学会終了後、島根城をちょっと見物(外から)。お土産を買って、近くにたまたまあった割烹「だいこく」で研究室の大道君と一緒に夕食。店は不思議な内装だったが、料理はうまかった。ようやく松江らしいものを食べた感じ。お店のマスターもいい感じ。すっかり酒を飲まされてしまった。

20時に夜行バスで東京へ。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

あと、僕は馬鹿なことをするのは嫌いですよ (わざとやるとき以外は)。-- Larry Wall

読み込み中...