パスワードを忘れた? アカウント作成
240296 journal

aitoの日記: 2010年7月23日(金)SP&SLP研究会まとめ 特別講演3

日記 by aito
(SLP11) Voice Search at Google
GoogleのMike Schusterさん.Googleの音声サーチとその他音声グループの活動の紹介.

GOOG-411 → VoiceMailTranscription → Audio Indexing → Voice Search
GOOG-411: 音声による電話番号案内,google mapsがバックエンド
    first generation
        What city/state? →1つの言語モデル
        What business or category? → 30000ぐらいの言語モデル(場所依存)
        学習データ:ビジネスデータベース(古い),Google Mapsクエリ(ミスマッチ),実データ(高価)
    second generation
        最初に一言だけ Say the business, city and state
        言語モデル1個だけ
        ビジネス上の問題
Voice Search
        スマートフォン対象,検索単語を音声で入力
        位置に依存した検索結果
        英語版:GOOG-411データから音響モデル 開発に1年ぐらい 3-10k状態,数千時間分の学習データ
            google.comのクエリから言語モデル 数年のクエリで700M種類単語
                高頻度語1M,ほとんどの発音を自動推定 最大6-gram 枝刈り前のサイズは100GBぐらい
                デコーダ:WFST
                辞書:読みの例外,言語依存
        セグメンテーション:単語間にスペースを入れるかどうかを統計モデルで決める
        日本語の表記の問題,同音異義語
        Text normalization
インフラ
        ハードウェア:マシン数千台
        ソフト:MapReduce, BigTable, ほか その他はすべて自作 C++ ときどき Java, Python
        開発プロセス
        システムの複雑さが問題
品質評価
        Voice Searchの場合,検索がうまくいったかどうかわからない
        WebScore measure: 認識結果とリファレンスを両方検索してみて,トップが同じならOK
        WebScore > 50% なら Launch,現在はもっと高性能
運用中
        24/7 で交代で対応
        各種モデルの再学習
        高速化のためのチューニング ストリーミング,UI
発見されたこと
        VoiceSearchは夕方,夜と週末に多い
        マスメディアが取り上げた後,利用が急上昇
        機械の書き起こしのほうが人間よりよいことがある
        ほとんどの端末では音声入力品質が悪い:人間のための各種信号処理が認識性能を下げる
今後
        Voice Navigation
        Contact Search
        すべてのテキストボックスへの音声入力
その他のサービス
        YouTube Transcription: 自動キャプション付与,翻訳もあり
        Voice Mail transcription
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

※ただしPHPを除く -- あるAdmin

読み込み中...