2010年7月23日(金)SP&SLP研究会まとめ　特別講演3 | aitoの日記

aitoの日記： 2010年7月23日(金)SP&SLP研究会まとめ　特別講演3 0

日記 by aito 2010年07月23日 18時26分

(SLP11) Voice Search at Google
GoogleのMike Schusterさん．Googleの音声サーチとその他音声グループの活動の紹介．

GOOG-411 → VoiceMailTranscription → Audio Indexing → Voice Search
GOOG-411: 音声による電話番号案内，google mapsがバックエンド
first generation
What city/state? →１つの言語モデル
What business or category? → 30000ぐらいの言語モデル（場所依存）
学習データ：ビジネスデータベース（古い），Google Mapsクエリ（ミスマッチ），実データ（高価）
second generation
最初に一言だけ Say the business, city and state
言語モデル1個だけ
ビジネス上の問題
Voice Search
スマートフォン対象，検索単語を音声で入力
位置に依存した検索結果
英語版：GOOG-411データから音響モデル　開発に1年ぐらい 3-10k状態，数千時間分の学習データ
　　　　google.comのクエリから言語モデル　数年のクエリで700M種類単語
高頻度語1M，ほとんどの発音を自動推定最大6-gram 枝刈り前のサイズは100GBぐらい
デコーダ：WFST
辞書：読みの例外，言語依存
セグメンテーション：単語間にスペースを入れるかどうかを統計モデルで決める
日本語の表記の問題，同音異義語
Text normalization
インフラ
ハードウェア：マシン数千台
ソフト：MapReduce, BigTable, ほか　その他はすべて自作　C++ ときどき Java, Python
開発プロセス
システムの複雑さが問題
品質評価
Voice Searchの場合，検索がうまくいったかどうかわからない
WebScore measure: 認識結果とリファレンスを両方検索してみて，トップが同じならOK
WebScore > 50% なら Launch，現在はもっと高性能
運用中
24/7 で交代で対応
各種モデルの再学習
高速化のためのチューニング　ストリーミング，UI
発見されたこと
VoiceSearchは夕方，夜と週末に多い
マスメディアが取り上げた後，利用が急上昇
機械の書き起こしのほうが人間よりよいことがある
ほとんどの端末では音声入力品質が悪い：人間のための各種信号処理が認識性能を下げる
今後
Voice Navigation
Contact Search
すべてのテキストボックスへの音声入力
その他のサービス
YouTube Transcription: 自動キャプション付与，翻訳もあり
Voice Mail transcription

aitoの日記： 2010年7月23日(金)SP&SLP研究会まとめ　特別講演3 0

2010年7月23日(金)SP&SLP研究会まとめ　特別講演3 More ログイン

スラド

2010年7月23日(金)SP&SLP研究会まとめ 特別講演3 More ログイン

2010年7月23日(金)SP&SLP研究会まとめ　特別講演3 More ログイン