パスワードを忘れた? アカウント作成
10377234 journal
日記

aitoの日記: 12/19 音声言語シンポジウム1日目まとめ

日記 by aito

・分布間距離ベクトルに基づく音響的類似度とサブワード事後確率の併用による音声検索語検出の改善(静岡大)
STDタスク。一旦サブワード間連続DPで検出区間候補を求め、候補区間と検索語をそれぞれHMM状態系列に展開してから、HMMの分布間距離を使ったスコアを計算する。分布間距離としては、単純な分布間のバタチャリヤ距離と、当該状態とすべての状態とのバタチャリヤ距離からなるベクトル(分布間距離ベクトル)の間のノルムの2種類を併用。これとは別に、認識結果サブワードの事後確率による信頼度を計算して、サブワードn-gramがどのくらい当該区間に含まれているかの適合スコアを計算する。サブワード事後確率の方は予備選択的な位置づけのようだが、単独で使うとそちらの方が性能が高い(サブワード認識性能が高い場合)。組み合わせることで性能が改善するが、サブワードによる検出のあとで連続DPによる検証をしていると考えると、連続DPのところでは距離にこだわらなくても性能が上がるんじゃないだろうか。

・音声入力による音声ドキュメント検索における単語重要度を考慮したベイズリスク最小化音声認識(同志社大)
検索対象とクエリが両方とも音声の場合で、それぞれ音声認識して検索する手法。連名の南條先生の得意技であるベイズリスク最小化デコーディングを使って検索に有効な語を優先して認識するようにする。検索はベクトル空間モデル。11ptAPで見たときに、ほんのり改善。認識でn-bestを出しても11ptAPは改善しない。

・音声中の検索語検出における事前検索・HMM状態系列照合・リランキングの適用(岩手県立大)
先ほどの静岡大の発表と似た手法。事前にすべての音節バイグラムでSTDを行ってインデクスを作っておき、それを使ってクエリに対する候補の絞り込みを行う。絞り込みはポーズ間区間を単位とする。次にサブワードHMMの状態系列間の連続DPを行い、出た結果をリランキングして提示する。リランキングの考え方は、「ドキュメント内の最良の候補のスコアが高ければ、同じドキュメント内のその他の候補のスコアも上げる」というもの。リランキングは単純な方法だが、結構効く感じ。

・音節単位DNN-HMMによる音声認識の検討(豊橋技科大)
中川研。音節単位HMMの確率計算でのGMMとDNNの比較。中川研らしい詳細な条件の比較検討をしている。音声としてふつうのJNAS、老人JNASと子供音声CLAIR-VCVコーパスを利用。活性化関数としてシグモイド関数でなくRectified Linear Unit y=max(0,x)を使うと、計算が高速かつ事前学習なしでも高い精度が出る。モデルをデータのクラス(年齢・性別)に分けても分けなくても同程度の認識精度。DNNではコンテキスト独立でも依存でも似たような性能。

・誤り単語の視覚・聴覚提示における事象関連電位による違和感分析(奈良先端大)
間違った単語を見たり聞いたりしたときの聴取者の脳波を測定。誤りの種類として、世界知識の誤りと意味の誤りを想定。視覚提示と聴覚提示の両方に対して、事象関連電位のN400を測る。視覚刺激ではN400に違いが現れるが、世界知識誤りの場合には意味誤りよりも変化が小さい。聴覚では意味誤りに伴うN400変化だけが有意で、世界知識誤りの場合は有意差なし。聴覚刺激の場合には刺激の長さがまちまちであることが影響しているのかもしれないとのこと。

・ピッチ特徴量を用いた自閉症スペクトラム障害児と定型発達児の識別(神戸大)
音声による自閉症の自動診断。ピッチとΔピッチから統計量(パーセンタイル、モーメント、最大最小など)を算出して特徴量とする。識別はSVM。発話した単語の最初の部分が識別に(やや)有効。特徴量としては最大最小が有効。

・説得対話コーパスの構築と分析(奈良先端大)
説得対話を実際にやったコーパスの構築。ドメインは家電量販店でのカメラ販売(模擬対話)。書き起こし文に対して、一般的発話行為タグであるGPFタグのほかに、「論証タグ」を付与。タグから客の満足度を推定するモデルも作成している。店員役には実際の販売経験がある人を使っているようだけど、お客さん役がどこまで本気になれるのかよくわからないところ。

・Efficient Phoneme Set Design Using Phonetic Decision Tree in Dialogue-Based English CALL Systems for Japanese Students (同志社大)
CALLシステムで非ネイティブの英語発話を安定して認識するために、音素の種類を減らして音素カテゴリの識別誤りを減らす。音素の種類を減らす方法として、音素決定木を使う。分割の質問として、通常の音韻特徴だけでなく、混同しやすい音素集合みたいなものも使う。手法をk-meansによるボトムアップ手法と比較。41種類の英語音素を23種類に減らしたとき、どちらの手法で音素を減らした場合でも単語認識性能が向上。トップダウン手法の方がやや性能がよい。

・ARキャラクタとの英会話練習時における交代潜時のタイムプレッシャーによる制御(東北大)
鈴木君による発表。ARキャラクター(ロボットアバタ)と英会話。学習者が黙らないように、キャラクターが応答を待っている間に下から赤くなっていく。タイムプレッシャー表現を入れることで、システム発話から学習者発話までの間の時間を1秒前後にそろえることができる。発話タイミングが早すぎても不自然になるという市川先生のコメント。

・音声操作ロボットの意図せぬ動作に対するユーザ発話のパラ言語的特徴に関する分析(東北大)
戸塚さん。ロボットを音声でコントロールするときに、ロボットが思ったのと違う動きをした時の音声の特徴分析。実験設定を単純化して再実験した結果。予想に反して、意図しない動作時のユーザ発話は遅くなる。F0とインテンシティは上昇。

・Improvement of AF-based Voice Conversion for Arbitrary Speakers (豊橋技科大)
つかみは名探偵コナン。新田先生の流れで、調音特徴ベースの声質変換。ある発話から話者独立の特徴(調音特徴)を一旦抽出してから、別な話者の調音特徴-スペクトル間の関係によって音に戻す。調音特徴抽出は話者独立なので、変換元の音声は学習する必要がない。変換はニューラルネットワーク。適応発話が20発話の時、GMMベースの変換法と比べると、客観評価・主観評価とも優れている。また、日本語で学習したシステムを使ってインドネシア語の声質変換を行うデモ。

・辞書選択型非負値行列因子分解による構音障害者の声質変換(神戸大)
有木研。アテトーゼ型脳性麻痺者の発音を変換によって聞きやすくする。話者性を維持するところが通常の話者変換と違うところ。母音は変換せずにそのまま流して、子音部分だけを健常者の発音に変換し、母音部分はそのままさわらないことで話者性を保存する。

・雑音環境下におけるセグメント特徴を考慮したNMFによる声質変換(神戸大)
有木研。NMFを使うことで、声質変換と雑音除去を同時に行う。辞書行列にクリーン音声だけでなく雑音を加え、NMFでアクティベーションを推定した上で、雑音部分を捨てて、辞書行列を別な人のものにすげ替えて再合成する。また、特徴量として数フレームをまとめたセグメントを利用する。

・話者依存型Conditional Restricted Boltzmann Machineによる声質変換(神戸大)
有木研。DNNを使った声質変換で、入力データとして当該フレームだけでなく直前フレームの特徴量(および中間層の出力)を使う。この手の形のネットワークはConditional Restricted Boltzmann Machineというらしい。話者独立にCRBMを学習し、2つの話者のCRBMを合体させることで声質変換をするDNNを生成する。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

※ただしPHPを除く -- あるAdmin

読み込み中...