aitoの日記: SP/SLP研究会@定山渓 2日目まとめ
日記 by
aito
7月22日(金)
セッション1:分析
・聴覚フィルタバンクを用いた声道長比推定(和歌山大)
入野先生のところ.声道長正規化に聴覚フィルタを使う研究.2名が同じ文章を発声した音声の間でスペクトルを伸縮させて声道長の比を求める.スペクトルとして聴覚フィルタバンク(Gammachirp, Gammatone)とメルフィルタバンクを比較.評価として,14人の中のすべての2名について推定した声道長比から回帰分析で求めた声道長を真値として,そこからの誤差で評価する.メルフィルタバンクよりも聴覚フィルタ(特にガンマチャープフィルタ)によるスペクトルのほうが誤差が少ない.
・情動音声聴取時の聴覚初期情報処理過程―脳磁界計測を用いた検討―(NICT)
感情音声を聞いた人の脳がどうなっているかをMEGによって調査した.発表はいまひとつな感じで,内容が良く理解できなかった.匂坂先生にだいぶ批判されていた.
・A Preliminary Perceptual Analysis on the Relationship of Phoneme Duration and Speaking Rate(東大)
日本語学習者の特殊拍学習がテーマ.長母音と短母音の知覚は発話速度に影響されるので,その関係を聴取実験で調べた.無意味語を用意し,話速と特定の母音の長さをPraatでいじった.無意味語としてさまざまな条件のもの(長さ,長音位置,無声化の有無等)を用意.結果として,話速の違いによる長短母音の知覚への影響はあまりなく,また単語のモーラ数や位置による違いも大きくない.
セッション2:音声対話1
・Speaker Adaptation for Dialogue Act Classification(東工大)
篠田研.話者に依存した発話行為(DA)の分類.対象はICSI Meeting data.単語単位で6種類の発話行為ラベルを振る.手法はCRFで,MAP推定により話者適応を行う.話者によってクセのある表現("Can I ask..."とか"I wonder..."とか)を捉える.特徴は単語n-gramとDAラベルbigramのみ.話者適応によってほのかに改善.
・Amazon Mechanical Turkを用いた音声データ収集による音声検索システムの評価(京大)
アマゾンのデジタル内職システムMechanical Turkを使って音声検索の評価を行った.タスクは本の検索.Mturkを使って検索発話を集めた後,それらの発話の品質評価自体もMturkを使って行う.ちなみに1発話あたり(チェックも含め)11セントかかったそうだ.
・意志決定を支援する音声対話システムの構築と評価(NICT)
翠さん.NICTなので京都観光案内.POMDPを使ったユーザモデルが良いのかどうかを被験者実験によって評価した.単なる対話ではなく,観光スポットの推薦のための手法をいくつか試した.被験者実験により,推薦のための「優先度」の高いスポットを選ぶ被験者が多いことがわかった.ただし,同じシステムを2回目に使うと被験者の嗜好をうまく推定できない.
セッション3:音声対話2
・音声対話システムのための非言語情報を用いた発話前状態の推定(東北大)
うちの千葉君(@yuya_chiba)が発表.音声対話システムで,ユーザが最初の発話をする前に,そのユーザがどういう状態なのか(何かに困っているかどうか)を推定する.特徴量はシステム発話が終わってからユーザが答えるまでの時間,フィラーの区間長,顔の向きなど.困っているかどうかは比較的簡単にわかるが,どう困っているか(戸惑っている・考えている)の識別は難しい.
・述語項の類似度に基づく情報推薦を行う音声対話システム(京大)
河原研の吉野さん(@caesar_wanya).情報検索において,キーワードではなく文の構造を考慮したクエリを使う.Exact matchだとカバレージが低いので,要素の一部を捨てたもの(どこを捨てるかはNaive Bayesによるスコアを使う)や単なるBag of wordsを併用する.また,情報検索対話において,過去の対話履歴から似ている答えを推薦情報として提示する.
・統計的機械翻訳の手法を用いた音声情報案内システムのための応答文生成手法の検討(奈良先端)
鹿野研.想定外発話や,同じ質問でもニュアンスが違う問いかけに対して,適応的な応答を生成するための研究.質問文から応答文を生成する統計的機械翻訳モデルを無理やり学習する.それなりに答えられるようだけど,汎用性はないんじゃないのかなあ.
・ネットワーク型音声対話システム開発ツール:WFSTDMビルダー(NICT)
イタリアから帰ったばかりの堀さん.ハードスケジュールでちょっと元気がなさそうだ.これまでやってきたWFST対話制御をツール化しましたという話.前半はWFSTベースの対話方式のおさらい.ネットワーク型音声翻訳プロトコルがITU-Tで標準化された話.そのプロトコルを翻訳だけでなく対話にも使うことができる.WFSTDMをつかうと,自分で対話をデザインしつつ,そのプロトコルでサーバと通信できる.
招待講演
・音声認識アルゴリズムの最前線(堀貴明・NTT)
内容の見出しだけ.
デコーダ技術の歴史
デコーダの基本的枠組み
WFSTによる音声認識
WFSTの最近の結果
Pre-determinization(2004)
同じ入力に対して複数の出力がある場合(同音異義語など)
→補助シンボルを自動挿入
Log semiring における最適化
On-the-fly合成
Specialized on-the-fly合成
最終状態に行き着かないdead stateが生成される問題への対処
再帰的拡張遷移ネットワークWFST(2003)
マルチテープWFSTによるマルチストリーム音声認識
F次元マルチストリームに対する状態遷移
Hyper time領域での状態遷移
ビームサーチの最適化
サーチエラーリスク最小化デコーディング
枝刈をするかどうかをモデルによって決める
並列計算
マルチコアCPUの並列計算,GPU利用
WFSTと線形辞書ベース認識の比較(2010)
WFSTは並列計算には最適化されていない
テンプレートベース音声認識
コーパス全体をリファレンスとする音声認識
ノンパラメトリック音響モデル
識別モデル的アプローチ
今後
Left-to-rightデコーディングが通用しないかもしれない
Many core ではWFSTが最適ではないかもしれない
・統計翻訳アルゴリズムの最前線(塚田元・NTT)
内容の見出しだけ.
1990年代にIBMが提案,2000年代にコンテストが研究を牽引
2000年代後半に実用化(Google Translate, MS Translator, etc.)
統計翻訳の基礎
log-linearモデルに基づく統計翻訳:MERTによる重みの学習
主な素性
翻訳モデル,言語モデル,並び替えモデル,対象言語長
BLEU:自動評価尺度のデファクトスタンダード
フレーズベース翻訳
単語のアラインメント
句に基づく翻訳モデル
デコーディング:出力がleft-to-rightになるように入力単語をカバーしていく
探索空間(ワードグラフ)
階層的な句に基づく翻訳
句に基づく翻訳の問題:長距離の並び替えが困難
重み付き同期CFGを対訳データから自動獲得
句のアラインメントにおいて単語をXに抽象化
Watanabe et al.による拡張(2006)
目的言語側をGreibach標準形に制限→目的言語をleft-to-rightに生成
構文木に基づく翻訳
tree-to-string, string-to-tree, tree-to-tree
木の書き換えによるモデル化
同期CFGによるモデル化
Cube pruning
事前並び換え翻訳
語順の大きく異なる言語間で有効
言語モデル
言語モデルは有効:学習データはあればあるほどよい
言語モデル圧縮:Bloomフィルタなど
学習法
Minimum Error Rate Training (MERT): BLEUを最大化する重みを決定
新しい評価尺度
BLEUの問題点
RIBES:順位相関を用いた評価尺度
セッション1:分析
・聴覚フィルタバンクを用いた声道長比推定(和歌山大)
入野先生のところ.声道長正規化に聴覚フィルタを使う研究.2名が同じ文章を発声した音声の間でスペクトルを伸縮させて声道長の比を求める.スペクトルとして聴覚フィルタバンク(Gammachirp, Gammatone)とメルフィルタバンクを比較.評価として,14人の中のすべての2名について推定した声道長比から回帰分析で求めた声道長を真値として,そこからの誤差で評価する.メルフィルタバンクよりも聴覚フィルタ(特にガンマチャープフィルタ)によるスペクトルのほうが誤差が少ない.
・情動音声聴取時の聴覚初期情報処理過程―脳磁界計測を用いた検討―(NICT)
感情音声を聞いた人の脳がどうなっているかをMEGによって調査した.発表はいまひとつな感じで,内容が良く理解できなかった.匂坂先生にだいぶ批判されていた.
・A Preliminary Perceptual Analysis on the Relationship of Phoneme Duration and Speaking Rate(東大)
日本語学習者の特殊拍学習がテーマ.長母音と短母音の知覚は発話速度に影響されるので,その関係を聴取実験で調べた.無意味語を用意し,話速と特定の母音の長さをPraatでいじった.無意味語としてさまざまな条件のもの(長さ,長音位置,無声化の有無等)を用意.結果として,話速の違いによる長短母音の知覚への影響はあまりなく,また単語のモーラ数や位置による違いも大きくない.
セッション2:音声対話1
・Speaker Adaptation for Dialogue Act Classification(東工大)
篠田研.話者に依存した発話行為(DA)の分類.対象はICSI Meeting data.単語単位で6種類の発話行為ラベルを振る.手法はCRFで,MAP推定により話者適応を行う.話者によってクセのある表現("Can I ask..."とか"I wonder..."とか)を捉える.特徴は単語n-gramとDAラベルbigramのみ.話者適応によってほのかに改善.
・Amazon Mechanical Turkを用いた音声データ収集による音声検索システムの評価(京大)
アマゾンのデジタル内職システムMechanical Turkを使って音声検索の評価を行った.タスクは本の検索.Mturkを使って検索発話を集めた後,それらの発話の品質評価自体もMturkを使って行う.ちなみに1発話あたり(チェックも含め)11セントかかったそうだ.
・意志決定を支援する音声対話システムの構築と評価(NICT)
翠さん.NICTなので京都観光案内.POMDPを使ったユーザモデルが良いのかどうかを被験者実験によって評価した.単なる対話ではなく,観光スポットの推薦のための手法をいくつか試した.被験者実験により,推薦のための「優先度」の高いスポットを選ぶ被験者が多いことがわかった.ただし,同じシステムを2回目に使うと被験者の嗜好をうまく推定できない.
セッション3:音声対話2
・音声対話システムのための非言語情報を用いた発話前状態の推定(東北大)
うちの千葉君(@yuya_chiba)が発表.音声対話システムで,ユーザが最初の発話をする前に,そのユーザがどういう状態なのか(何かに困っているかどうか)を推定する.特徴量はシステム発話が終わってからユーザが答えるまでの時間,フィラーの区間長,顔の向きなど.困っているかどうかは比較的簡単にわかるが,どう困っているか(戸惑っている・考えている)の識別は難しい.
・述語項の類似度に基づく情報推薦を行う音声対話システム(京大)
河原研の吉野さん(@caesar_wanya).情報検索において,キーワードではなく文の構造を考慮したクエリを使う.Exact matchだとカバレージが低いので,要素の一部を捨てたもの(どこを捨てるかはNaive Bayesによるスコアを使う)や単なるBag of wordsを併用する.また,情報検索対話において,過去の対話履歴から似ている答えを推薦情報として提示する.
・統計的機械翻訳の手法を用いた音声情報案内システムのための応答文生成手法の検討(奈良先端)
鹿野研.想定外発話や,同じ質問でもニュアンスが違う問いかけに対して,適応的な応答を生成するための研究.質問文から応答文を生成する統計的機械翻訳モデルを無理やり学習する.それなりに答えられるようだけど,汎用性はないんじゃないのかなあ.
・ネットワーク型音声対話システム開発ツール:WFSTDMビルダー(NICT)
イタリアから帰ったばかりの堀さん.ハードスケジュールでちょっと元気がなさそうだ.これまでやってきたWFST対話制御をツール化しましたという話.前半はWFSTベースの対話方式のおさらい.ネットワーク型音声翻訳プロトコルがITU-Tで標準化された話.そのプロトコルを翻訳だけでなく対話にも使うことができる.WFSTDMをつかうと,自分で対話をデザインしつつ,そのプロトコルでサーバと通信できる.
招待講演
・音声認識アルゴリズムの最前線(堀貴明・NTT)
内容の見出しだけ.
デコーダ技術の歴史
デコーダの基本的枠組み
WFSTによる音声認識
WFSTの最近の結果
Pre-determinization(2004)
同じ入力に対して複数の出力がある場合(同音異義語など)
→補助シンボルを自動挿入
Log semiring における最適化
On-the-fly合成
Specialized on-the-fly合成
最終状態に行き着かないdead stateが生成される問題への対処
再帰的拡張遷移ネットワークWFST(2003)
マルチテープWFSTによるマルチストリーム音声認識
F次元マルチストリームに対する状態遷移
Hyper time領域での状態遷移
ビームサーチの最適化
サーチエラーリスク最小化デコーディング
枝刈をするかどうかをモデルによって決める
並列計算
マルチコアCPUの並列計算,GPU利用
WFSTと線形辞書ベース認識の比較(2010)
WFSTは並列計算には最適化されていない
テンプレートベース音声認識
コーパス全体をリファレンスとする音声認識
ノンパラメトリック音響モデル
識別モデル的アプローチ
今後
Left-to-rightデコーディングが通用しないかもしれない
Many core ではWFSTが最適ではないかもしれない
・統計翻訳アルゴリズムの最前線(塚田元・NTT)
内容の見出しだけ.
1990年代にIBMが提案,2000年代にコンテストが研究を牽引
2000年代後半に実用化(Google Translate, MS Translator, etc.)
統計翻訳の基礎
log-linearモデルに基づく統計翻訳:MERTによる重みの学習
主な素性
翻訳モデル,言語モデル,並び替えモデル,対象言語長
BLEU:自動評価尺度のデファクトスタンダード
フレーズベース翻訳
単語のアラインメント
句に基づく翻訳モデル
デコーディング:出力がleft-to-rightになるように入力単語をカバーしていく
探索空間(ワードグラフ)
階層的な句に基づく翻訳
句に基づく翻訳の問題:長距離の並び替えが困難
重み付き同期CFGを対訳データから自動獲得
句のアラインメントにおいて単語をXに抽象化
Watanabe et al.による拡張(2006)
目的言語側をGreibach標準形に制限→目的言語をleft-to-rightに生成
構文木に基づく翻訳
tree-to-string, string-to-tree, tree-to-tree
木の書き換えによるモデル化
同期CFGによるモデル化
Cube pruning
事前並び換え翻訳
語順の大きく異なる言語間で有効
言語モデル
言語モデルは有効:学習データはあればあるほどよい
言語モデル圧縮:Bloomフィルタなど
学習法
Minimum Error Rate Training (MERT): BLEUを最大化する重みを決定
新しい評価尺度
BLEUの問題点
RIBES:順位相関を用いた評価尺度
SP/SLP研究会@定山渓 2日目まとめ More ログイン