aitoの日記: 2010年7月23日(金)SP&SLP研究会まとめ 特別講演3
日記 by
aito
(SLP11) Voice Search at Google
GoogleのMike Schusterさん.Googleの音声サーチとその他音声グループの活動の紹介.
GOOG-411 → VoiceMailTranscription → Audio Indexing → Voice Search
GOOG-411: 音声による電話番号案内,google mapsがバックエンド
first generation
What city/state? →1つの言語モデル
What business or category? → 30000ぐらいの言語モデル(場所依存)
学習データ:ビジネスデータベース(古い),Google Mapsクエリ(ミスマッチ),実データ(高価)
second generation
最初に一言だけ Say the business, city and state
言語モデル1個だけ
ビジネス上の問題
Voice Search
スマートフォン対象,検索単語を音声で入力
位置に依存した検索結果
英語版:GOOG-411データから音響モデル 開発に1年ぐらい 3-10k状態,数千時間分の学習データ
google.comのクエリから言語モデル 数年のクエリで700M種類単語
高頻度語1M,ほとんどの発音を自動推定 最大6-gram 枝刈り前のサイズは100GBぐらい
デコーダ:WFST
辞書:読みの例外,言語依存
セグメンテーション:単語間にスペースを入れるかどうかを統計モデルで決める
日本語の表記の問題,同音異義語
Text normalization
インフラ
ハードウェア:マシン数千台
ソフト:MapReduce, BigTable, ほか その他はすべて自作 C++ ときどき Java, Python
開発プロセス
システムの複雑さが問題
品質評価
Voice Searchの場合,検索がうまくいったかどうかわからない
WebScore measure: 認識結果とリファレンスを両方検索してみて,トップが同じならOK
WebScore > 50% なら Launch,現在はもっと高性能
運用中
24/7 で交代で対応
各種モデルの再学習
高速化のためのチューニング ストリーミング,UI
発見されたこと
VoiceSearchは夕方,夜と週末に多い
マスメディアが取り上げた後,利用が急上昇
機械の書き起こしのほうが人間よりよいことがある
ほとんどの端末では音声入力品質が悪い:人間のための各種信号処理が認識性能を下げる
今後
Voice Navigation
Contact Search
すべてのテキストボックスへの音声入力
その他のサービス
YouTube Transcription: 自動キャプション付与,翻訳もあり
Voice Mail transcription
GoogleのMike Schusterさん.Googleの音声サーチとその他音声グループの活動の紹介.
GOOG-411 → VoiceMailTranscription → Audio Indexing → Voice Search
GOOG-411: 音声による電話番号案内,google mapsがバックエンド
first generation
What city/state? →1つの言語モデル
What business or category? → 30000ぐらいの言語モデル(場所依存)
学習データ:ビジネスデータベース(古い),Google Mapsクエリ(ミスマッチ),実データ(高価)
second generation
最初に一言だけ Say the business, city and state
言語モデル1個だけ
ビジネス上の問題
Voice Search
スマートフォン対象,検索単語を音声で入力
位置に依存した検索結果
英語版:GOOG-411データから音響モデル 開発に1年ぐらい 3-10k状態,数千時間分の学習データ
google.comのクエリから言語モデル 数年のクエリで700M種類単語
高頻度語1M,ほとんどの発音を自動推定 最大6-gram 枝刈り前のサイズは100GBぐらい
デコーダ:WFST
辞書:読みの例外,言語依存
セグメンテーション:単語間にスペースを入れるかどうかを統計モデルで決める
日本語の表記の問題,同音異義語
Text normalization
インフラ
ハードウェア:マシン数千台
ソフト:MapReduce, BigTable, ほか その他はすべて自作 C++ ときどき Java, Python
開発プロセス
システムの複雑さが問題
品質評価
Voice Searchの場合,検索がうまくいったかどうかわからない
WebScore measure: 認識結果とリファレンスを両方検索してみて,トップが同じならOK
WebScore > 50% なら Launch,現在はもっと高性能
運用中
24/7 で交代で対応
各種モデルの再学習
高速化のためのチューニング ストリーミング,UI
発見されたこと
VoiceSearchは夕方,夜と週末に多い
マスメディアが取り上げた後,利用が急上昇
機械の書き起こしのほうが人間よりよいことがある
ほとんどの端末では音声入力品質が悪い:人間のための各種信号処理が認識性能を下げる
今後
Voice Navigation
Contact Search
すべてのテキストボックスへの音声入力
その他のサービス
YouTube Transcription: 自動キャプション付与,翻訳もあり
Voice Mail transcription
2010年7月23日(金)SP&SLP研究会まとめ 特別講演3 More ログイン