パスワードを忘れた? アカウント作成
6402511 journal
日記

aitoの日記: 9月20日 音響学会2日め(主に音声A)まとめ

日記 by aito

音のデザインSS「音のデザインI」

○自動車者室内のサウンドデザインによる快音化(戸井武司:中央大)
最初に5分ぐらいスペシャルセッションの趣旨説明をして、そのまま講演内容にはいる。
・従来の車内騒音は「モグラ叩き」状態。大きい騒音の対策が進んでくると、暗騒音が低下→サウンドデザインが重要
・車の音をデザインする:サウンド・ブランディング、サウンド・オプション
・複合刺激下の音作り
        強い加速中には、映像・加速度の同時提示条件では、ある程度の音があった方が快適性が高い
        状況に依存して快適な音が変わる→電子的制御が必要 ウインカーなどのスイッチ:触覚と音の両方がシンクロする必要のある要因と、音だけ変えて印象が変わる要因がある
・高齢者は高音が聞こえないが、聞こえないことに気づいていない

○自動車のSound Designのこれから(波頭伸也:日産自動車)
・自動車のサウンドデザイン
        これまでは低騒音化をやってきた→音のデザインへ
・エンジン音のサウンドデザイン
        エンジン音のSD法による評価
                重厚・軽快因子、滑らか因子、美しさ因子 およびそれぞれに関連する物理量の定量化
        エンジン音の音作り:Active Sound Design
・EVの音デザイン(Leaf)
        車両接近音:人間の音の聞きやすさ、加齢による聴力劣化のしにくさ、環境騒音からの干渉の受けにくさを考慮して決める
        →2.5kHz, 500Hzにピークがあり、1kHzにディップがある周波数特性
        時間的に揺らぎを与えた方が認知度が上がる
        停止時からの音の立ち上げ方のフィールド調査(日米欧)
        発進直前、停止直前に接近音を流す
・音による警報の情緒的イメージの形成
        単音で感じる印象と音響特性の関係
                基本周波数:高いほど重大に感じる
                吹鳴周期:短いほど緊急に感じる
        連続音の音の組み合わせとイメージ
                音楽理論を参考に音作り(協和・不協和)
                上昇・下降、完全音程・短増音程で大きく4つに分かれる

音声A「サーチ・信頼度」
○Efficient Online Vocabulary Expansion in WFST based Speech Recognition (NICT)
Paul Dixonさん。WFSTへの実行時の語彙追加方法。言語モデルはクラスn-gramで、そのクラスに語彙を追加する。漢字から読みへの変換が必要なので、追加する語を既存のWFSTで分割可能な単位に分割する(都電荒川線→都電/荒川/線、など)。すべての単語を登録した場合に比べてやや遅いが、最終的には同程度の速度で同程度の性能。

○音声認識システムのパイプライン分解と遅延評価を用いた実装法(千葉大)
篠崎先生。理解しやすいデコーダHuskyの話。メモリ量が大きすぎて計算も遅いので、パイプラインによって音声認識システムを記述してみた。特徴抽出だけでなくデコーディングもパイプラインに分解するところが新しい。パイプライン化するために、Progressive back-trackingを使う。Haskellの遅延評価を使うと、無限に長い配列を引数として関数につっこんでも問題なく動作する。既存のHuskyと比べるとメモリ量が大幅に削減された(40G→10G、Juliusの20倍程度)。

☆Stochastic連続DPを用いた特定単語検出についての検討(東北大)
うちの藤田君が発表。連続DPを拡張した方法でワードスポッティングをするという方法。特定単語の認識のために、共分散行列をちょっといじる(単位行列との間で内挿)するとちょっと性能が上がる。

◎音声の構造的表象を用いた大語彙音声認識の識別的リランキング(東大)
鈴木雅之さん。長時間の音響特徴量を利用した識別的リランキング。構造的表象は発話の全体をみるので、この手の方法と相性がよいはず。構造的表象の良さはStatistical Edge Model (SEM)を使って確率化する。ベースラインと比べて、エラー削減で6.7%ぐらい。

○単語アライメントネットワークと識別的誤りタイプ分類による認識精度推定(NTT)
小川さん。認識対象の正解単語列なしに、認識精度を推定する。これには、コンフュージョンネットワークを使った「単語アライメントネットワーク(WAN)」を使う。「誤りタイプ」は正解・置換・挿入・脱落のこと。さらに、WANの結果をCRFにかけて精度を改善する。元々の方法では、置換誤りを低く算出しがちだが、CRFによって改善できる。

◎事例を用いた単語信頼度の教師なし補正法(NTT)
単語信頼度の性能向上。識別モデルによる単語信頼度補正がよく使われているが、そのための正解ラベルがない場合に使える方法。「類似事例」(似た文脈で発生したほかの単語)の信頼度が本当の認識結果に対してどうだったのかを調べ、それによって当該単語に信頼度を訂正する。提案方で算出した単語信頼度で単語認識をすると、再現率が低い領域で適合率を大幅改善。

音声A「音響モデル」
☆ディープラーニングを用いた日本語大語彙話し言葉音声認識(東工大)
DNNを使ったCSJの認識。DNNの学習法について詳しい説明があって勉強になった。学習に使ったのはCSJの本講演の5%。各層のRBMの計算に一週間強、さらにDNNの学習に2日以上かかる(GPGPU使用)。GMMよりも5ポイント以上高性能。

○ディープニューラルネットワークを用いた音声認識器の英語講義音声認識による評価(NTT)
久保さん。DNNによる認識をMITのOpen-CourseWare音声で評価。DNNについて概念的な解説があり、上の発表と併せてDNNについての理解が進んだ。中間層1層に比べて、8層使うとエラー率が8ポイントぐらい下がり(まだ下がりそう)、異なる中間層数の結果をCNCであわせるとさらに下がる。最終的に、MLのGMM-HMM(32.8%)から、全部入りで20.8%まで下がる。

◎リーマン部分空間クラスタリングによる共分散行列の回転共有化(東芝)
全共分散HMMの計算の高速化。共分散を対角共分散の分布と回転行列に分け、回転行列をクラス間で共有する。このとき、分布を同じ形に回転させる回転行列を同一視することが難しい。回転行列間の距離尺度として、従来「リーマン多様体上の距離」を提案していたが、このとき空間がユークリッド空間ではないのでクラスタリングアルゴリズムが作りにくい。そこで、リーマン多様体の接平面上(ユークリッド空間)での距離尺度を新たに開発した。各回転行列を「対数共分散ベクトル」に変換し、その部分空間を考えることでクラスタリングを行う。

☆隠れ条件付き確率場を用いた音声認識のためのアニーリングに基づく学習アルゴリズムの検討(名工大)
確率計算に識別モデルHCRFを用いた音声認識。パラメータの推定精度を上げるために、パラメータ推定にアニーリングを行う。アニーリングを入れることで、ML-HMMに比べて3ポイントぐらい向上。特徴選択の話はよくわからなかった(よけいなパラメータを入れたら性能が下がった、という話に見えた)。

音声A「音声対話」
☆対話システムにおける話題誘導のための単語間の関係性を用いた応答文生成(NAIST)
あらゆる現実をすべて自分の方へねじまげる対話システム。「説得対話システム」という考え方は新しい。ロボット受付嬢ではなくロボットセールスマンだね。相手の発話に対して、それを受けながら自分の勧めたいものをそれとなく応答文に含める方法の提案。そのために、概念辞書やWeb検索を使って単語間の関係を推定する。タスクは大学院の研究室の推薦。文の生成はテンプレートによる。2つの単語を使った生成文の自然性を主観評価。概念辞書に記述があるものは高い自然性があるが、Web検索を使う方法でもそれなりな自然性が得られる。

☆説得対話システムにおける対話制御に関する検討(NAIST)
前の発表に続いて説得対話。こちらの発表は対話自体のモデル化。ユーザを特定の目標に誘導するため、競合する目標に関する説明はせず、必要な場合は相手が望んでいない情報を開示する。また、対話中に動的にユーザの嗜好を推定する。実対話実験によって評価をしているが、説得がどの程度うまくいったかを評価指標にするにはもっと慎重な実験が必要そうな気がする。説得が成功した方が満足度が高い、というところに何かを感じる。

○日本語ユーザ発話を利用した英語音声対話システム構築コストの低減(NICT)
翠さん。対話システムの言語間移植。今回は音声認識、特に言語モデルの言語間移植について(特に日本語から英語)。基本的には日本語の音声認識結果を機械翻訳で英語にするが、元の日本語を言語理解にかけて、うまく理解できた場合にドメイン内発話とみなして機械翻訳にかける。それ以外は捨てる。また別な方法として、折り返し翻訳を使う方法も試した。結果として、折り返し翻訳結果に対してドメイン内/外の2クラス識別によってデータ選択をする方法が良かった。

◎対話型システムユーザの発話前内部状態推定に寄与するモダリティの考察(東北大)
うちの研究室の千葉君。対話ユーザが音声入力できなくて困っているか推定するときに、人間はなにを手がかりにそれを推定しているかを調べた。ユーザの回答の言語内容は評価にあまり影響しないが、システムの質問の言語内容は評価に影響する。また、ユーザの音声情報はある程度重要。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

吾輩はリファレンスである。名前はまだ無い -- perlの中の人

読み込み中...