aitoの日記: 2010年7月23日(金)SP&SLP研究会まとめ 特別講演2
日記 by
aito
(SLP10) 音声ドキュメント検索の現状と課題
豊橋技術科学大の秋葉先生.最初10分ぐらい所用により聞き逃す.
認識と検索の違い:計算資源の量の違い,ラベルからデータを探す課題,前処理の可能性
典型的な前処理:音声認識(量子化),索引付け(組織化)
2つのタスク:Spoken Term DetectionとSpoken Document Retrieval
テキストなら前者は文字列照合(あるいは近似文字列照合),後者は文書検索
音声認識結果を対象とするための拡張:OOV・認識誤りへの対応,計算効率や検索性能の問題
OOVへの対応:サブワード認識結果の利用
サブワードの選択:書記単位(単語,文字,統計的単位など),発音単位(音節,音素など)
単語とサブワードの併用,単語で認識してからサブワードに分解する,等
認識誤りへの対応:複数候補の利用(N-best,ラティス,Confusion Network)
問題点:サイズの増加,テキスト用の手法がそのまま利用できない
→非可逆圧縮(N-best→Confusion networkなど)
Confusion Network, Position-Specific Posterior Lattice(PSPL),
Time-based Merging(TMI), Time-Anchored Lattice Expansion (TALE)
計算効率:索引付けによる効率化
転置ファイル,サフィックスアレイ,距離空間上のインデクス
音声ドキュメントの評価
STD共通タスク TREC SDR track(STD), NIST STD Evalutation, CSJ STD test collection
SDR共通タスク TREC SDR track(Ad-hoc), CSJ SDR test collection
豊橋技術科学大の秋葉先生.最初10分ぐらい所用により聞き逃す.
認識と検索の違い:計算資源の量の違い,ラベルからデータを探す課題,前処理の可能性
典型的な前処理:音声認識(量子化),索引付け(組織化)
2つのタスク:Spoken Term DetectionとSpoken Document Retrieval
テキストなら前者は文字列照合(あるいは近似文字列照合),後者は文書検索
音声認識結果を対象とするための拡張:OOV・認識誤りへの対応,計算効率や検索性能の問題
OOVへの対応:サブワード認識結果の利用
サブワードの選択:書記単位(単語,文字,統計的単位など),発音単位(音節,音素など)
単語とサブワードの併用,単語で認識してからサブワードに分解する,等
認識誤りへの対応:複数候補の利用(N-best,ラティス,Confusion Network)
問題点:サイズの増加,テキスト用の手法がそのまま利用できない
→非可逆圧縮(N-best→Confusion networkなど)
Confusion Network, Position-Specific Posterior Lattice(PSPL),
Time-based Merging(TMI), Time-Anchored Lattice Expansion (TALE)
計算効率:索引付けによる効率化
転置ファイル,サフィックスアレイ,距離空間上のインデクス
音声ドキュメントの評価
STD共通タスク TREC SDR track(STD), NIST STD Evalutation, CSJ STD test collection
SDR共通タスク TREC SDR track(Ad-hoc), CSJ SDR test collection
2010年7月23日(金)SP&SLP研究会まとめ 特別講演2 More ログイン