aitoの日記: Interspeech: 9/29 午前
日記 by
aito
水曜日午前はポスターをふらふら回る。以下は聞いたものだけ。
Wed-Ses1-P2: ASR: Language Modeling and Speech Understanding I
Within and Across Sentence Boundary Model (Saarland U)
通常のN-gramに、distant bigram、distant trigramと、直前の文の単語をコンテキストとした単語出現確率を組み合わせる。組み合わせは線形結合。こういうのは10年前にもあった気が。結果はパープレキシティのみ。
Impact of Word Classing on Shrinkage-based Language Models (IBM)
昨日も聞いたModel M。指数モデルのパラメータの総和がテストセットパープレキシティと簡単な関係にある(パラメータの総和が大きいほどPPが大きい)というのがおもしろい。これが成立するためには何らかのregularizationが必要な気がする。というわけで、パラメータ総和が小さければPPも小さいんだろうと言うことで、クラスモデル化によってパラメータの総数を減らす。ソフトクラスタリングを導入。
Combination of Probabilistic and Possibilistic Language Models (LIA)
Possibilistic Model(可能性モデル?)は初めて聞いたが、確率モデルではない。「ありそう」な場合に大きな値をとり、総和は1にならない。この研究では、入力文の連続する単語n個組の集合のうち、コーパスに出現したものの割合をPossibilityとしている(したがって、コーパスに出現した文のpossibilityは1になる)。頑健性を上げるためにバックオフみたいなこともする。Possibilityを単純に確率と線形結合するだけでなく、N-gramのバックオフ時の重みに使ってみたり、確率からpossibilityにバックオフしてみたりいろんなヒューリスティックなことをしているが、一番よいのは対数線形結合。
On-demand Language Model Interpolation for Mobile Speech Input (Google)
ボイスメールとか音声クエリ入力など6種類の分野について独立にN-gramを作り、線形結合で組み合わせる。枠組みはぜんぜん新しくないが、これらをバックオフしたときの結合確率計算をWFSTで簡単に表現するための近似がおもしろい。各分野に対して最良のモデルを1個作るより、組み合わせモデルの重みを分野ごとに最適化したものの方が性能が高い。
Efficient Estimation of Maximum Entropy Language Models with N-gram Features: An SRILM Extension (Talinn U of Tech)
2002年頃提案された、最大エントロピーモデルの正規化項の高速計算法(MITだったかな?)を、SRILMにインプリメントしてみた。
Similar N-gram Language Model (LORIA)
N-gram確率を求めるのに、まずふつうのN-gram確率を求めておき、あるN-gram確率計算の際には、対象の単語列と似た単語列の確率を重みつきで平均する。重みはレーベンシュタイン距離のマイナスの指数。この発表自体はヒューリスティックだが、もっと確率的に妥当なモデル化が可能な気がする。
Wes-Ses1-P3: First and Secong Language Acquisition
言語獲得と言いつつ、CALLみたいな発表もある。
Validation of a Training Method for L2 Continuous-Speech Segmentation (U of Western Sydney)
ここでのTrainingは人間のトレーニング。単語の聞き取り能力を上げるための練習方法として、連続して流れる無意味語の中からターゲット単語を検出する練習が有効だという発表。L2の単語リズムというか単語区間を規定する韻律がL1のルールに影響されてしまうので、それをなんとかするための練習方法らしい。
Spoken English Assessment System for Non-Native Speakers Using Acoustic and Prosodic Features (IBM/Tsing Hua U)
中国人英語の評価システム。Chinglish専用音響モデルを学習し、認識及び単語のセグメンテーションを行う。単語ごとに音素継続長とパワーを計算し、尤度などと合わせて最終結果を出す・・・のだが、データが少なくて、合わせる部分の設計がいまいちできていないらしい。
Wed-Ses1-P4: Spoken Language Resources, Systems and Evaluation I
An Empirical Comparison of the T3, Juicer, HDecode and Sphynx3 Decoders (Tokyo Inst. Tech)
東工大で開発中のT3デコーダを、同じWFSTデコーダのJuicer、従来型デコーダのHDecode、Sphynx3と比較してみた。xRTと精度の関係による比較で、GPUを使えばT3がダントツ。通常のCPUによる実行では、T3とJuicerが競っている(T3がやや速い)。おなじみJuliusと比べたらどうなんだろう。
Tracter: A Lightweight Dataflow Framework (Idiap Research Inst.)
音声認識計算(主に特徴量計算)をMAXみたいなデータフローで表現できるシステム。だからどうしたという気はするが、教育用には良さそう。
Automatic Estimation of Transcription Accuracy and Difficulty (MIT)
複数人による音声の書き起こしがどれほど不一致になるかを、1つの書き起こしだけから推定する方法。手法は簡単で、書き起こし内容からforced alignmentで音声の音響スコアを計算し、そのスコアを使う。単純な方法だが、書き起こしの不一致度や、書き起こし時の聞き直し頻度などと相関が(高くはないが)ある。
Building Transcribed Speech Corpora Quickly and Cheaply for Many Languages (Google)
Android携帯を使った音声録音プラットフォームを作った。性別や年齢などの情報を入力し、指示された内容を携帯に向かってしゃべるだけ。あっという間に20言語の音声が5000時間も集まった。やっていることは単純だが、たちまちデータが集まるところは、さすがGoogle。
Developing a Chinese L2 Speech Database of Japanese Learners with Narrow-Phonetic Labels for Computer Assisted Pronunciation Training (Beijing Language & Culture U)
日本人中国語話者のデータベース。こまかい音素ラベルつき。特におもしろいわけではないが、役には立つかも。
Wed-Ses1-P2: ASR: Language Modeling and Speech Understanding I
Within and Across Sentence Boundary Model (Saarland U)
通常のN-gramに、distant bigram、distant trigramと、直前の文の単語をコンテキストとした単語出現確率を組み合わせる。組み合わせは線形結合。こういうのは10年前にもあった気が。結果はパープレキシティのみ。
Impact of Word Classing on Shrinkage-based Language Models (IBM)
昨日も聞いたModel M。指数モデルのパラメータの総和がテストセットパープレキシティと簡単な関係にある(パラメータの総和が大きいほどPPが大きい)というのがおもしろい。これが成立するためには何らかのregularizationが必要な気がする。というわけで、パラメータ総和が小さければPPも小さいんだろうと言うことで、クラスモデル化によってパラメータの総数を減らす。ソフトクラスタリングを導入。
Combination of Probabilistic and Possibilistic Language Models (LIA)
Possibilistic Model(可能性モデル?)は初めて聞いたが、確率モデルではない。「ありそう」な場合に大きな値をとり、総和は1にならない。この研究では、入力文の連続する単語n個組の集合のうち、コーパスに出現したものの割合をPossibilityとしている(したがって、コーパスに出現した文のpossibilityは1になる)。頑健性を上げるためにバックオフみたいなこともする。Possibilityを単純に確率と線形結合するだけでなく、N-gramのバックオフ時の重みに使ってみたり、確率からpossibilityにバックオフしてみたりいろんなヒューリスティックなことをしているが、一番よいのは対数線形結合。
On-demand Language Model Interpolation for Mobile Speech Input (Google)
ボイスメールとか音声クエリ入力など6種類の分野について独立にN-gramを作り、線形結合で組み合わせる。枠組みはぜんぜん新しくないが、これらをバックオフしたときの結合確率計算をWFSTで簡単に表現するための近似がおもしろい。各分野に対して最良のモデルを1個作るより、組み合わせモデルの重みを分野ごとに最適化したものの方が性能が高い。
Efficient Estimation of Maximum Entropy Language Models with N-gram Features: An SRILM Extension (Talinn U of Tech)
2002年頃提案された、最大エントロピーモデルの正規化項の高速計算法(MITだったかな?)を、SRILMにインプリメントしてみた。
Similar N-gram Language Model (LORIA)
N-gram確率を求めるのに、まずふつうのN-gram確率を求めておき、あるN-gram確率計算の際には、対象の単語列と似た単語列の確率を重みつきで平均する。重みはレーベンシュタイン距離のマイナスの指数。この発表自体はヒューリスティックだが、もっと確率的に妥当なモデル化が可能な気がする。
Wes-Ses1-P3: First and Secong Language Acquisition
言語獲得と言いつつ、CALLみたいな発表もある。
Validation of a Training Method for L2 Continuous-Speech Segmentation (U of Western Sydney)
ここでのTrainingは人間のトレーニング。単語の聞き取り能力を上げるための練習方法として、連続して流れる無意味語の中からターゲット単語を検出する練習が有効だという発表。L2の単語リズムというか単語区間を規定する韻律がL1のルールに影響されてしまうので、それをなんとかするための練習方法らしい。
Spoken English Assessment System for Non-Native Speakers Using Acoustic and Prosodic Features (IBM/Tsing Hua U)
中国人英語の評価システム。Chinglish専用音響モデルを学習し、認識及び単語のセグメンテーションを行う。単語ごとに音素継続長とパワーを計算し、尤度などと合わせて最終結果を出す・・・のだが、データが少なくて、合わせる部分の設計がいまいちできていないらしい。
Wed-Ses1-P4: Spoken Language Resources, Systems and Evaluation I
An Empirical Comparison of the T3, Juicer, HDecode and Sphynx3 Decoders (Tokyo Inst. Tech)
東工大で開発中のT3デコーダを、同じWFSTデコーダのJuicer、従来型デコーダのHDecode、Sphynx3と比較してみた。xRTと精度の関係による比較で、GPUを使えばT3がダントツ。通常のCPUによる実行では、T3とJuicerが競っている(T3がやや速い)。おなじみJuliusと比べたらどうなんだろう。
Tracter: A Lightweight Dataflow Framework (Idiap Research Inst.)
音声認識計算(主に特徴量計算)をMAXみたいなデータフローで表現できるシステム。だからどうしたという気はするが、教育用には良さそう。
Automatic Estimation of Transcription Accuracy and Difficulty (MIT)
複数人による音声の書き起こしがどれほど不一致になるかを、1つの書き起こしだけから推定する方法。手法は簡単で、書き起こし内容からforced alignmentで音声の音響スコアを計算し、そのスコアを使う。単純な方法だが、書き起こしの不一致度や、書き起こし時の聞き直し頻度などと相関が(高くはないが)ある。
Building Transcribed Speech Corpora Quickly and Cheaply for Many Languages (Google)
Android携帯を使った音声録音プラットフォームを作った。性別や年齢などの情報を入力し、指示された内容を携帯に向かってしゃべるだけ。あっという間に20言語の音声が5000時間も集まった。やっていることは単純だが、たちまちデータが集まるところは、さすがGoogle。
Developing a Chinese L2 Speech Database of Japanese Learners with Narrow-Phonetic Labels for Computer Assisted Pronunciation Training (Beijing Language & Culture U)
日本人中国語話者のデータベース。こまかい音素ラベルつき。特におもしろいわけではないが、役には立つかも。
Interspeech: 9/29 午前 More ログイン