10月25日（金）SLP研究会（デベロッパーズフォーラム）まとめ | aitoの日記

aitoの日記： 10月25日（金）SLP研究会（デベロッパーズフォーラム）まとめ 0

日記 by aito 2013年10月25日 18時25分

■一般講演＋デベロッパーズフォーラム（I）（10:30-12:00）　
（1）意味属性パターンを用いたマイクロブログ中の発言に対する自動対話行為付与
　　　目黒豊美，東中竜一郎，杉山弘晃，南泰浩
NTT。目黒さん体調不良のため東中さんが発表。マイクロブログの発言を対話の「発話」に見立てて発話行為を付与する。ツイートを対話に利用する研究って、この発表に限らず結構あるらしい。この発表では、対話行為が付与された対話データを楽手データとしてSVMを作り、それを使ってツイートに対話行為ラベルを振る。ツイートが対話なのかと疑問に思ったが、対話行為を付与して比較してみたら（ツイッター上で対話になっているものだけが対象）対話行為分布は結構似ている。ツイートは単語の情報が多くて処理が難しいので、シソーラスを使う抽象化と、文字レベル特徴量を使う。それぞれの手法が効いて、単純な単語n-gramベースの手法よりも改善。

（2）コールセンターにおける音声技術の利用～音声のパラ言語情報・非言語情報を含めた活用～
　　　桜井淳宏，木村晋太
株式会社アニモ（富士通発のベンチャー）。最初に会社概要。コールセンターへの音声技術利用には、リアルタイム（IVRなど）だけでなく非リアルタイム応用も多い。オペレータ教育への応用、モニタリング、通話の分類・分析・活用など。オペレータ支援（リアルタイム応用）としては、顧客の要求を復唱するオペレータ音声からワードスポッティングをして、関連ヘルプを自動検索するなど。オペレータ評価としては、従来の主観的な評価から客観手法に基づく評価法を併用へ。コールセンター対応での「OKワード」と「NGワード」の頻度など。「ベテランオペレータの方がNGワードの頻度が高い」などの分析が可能。また、話速、無音時間、発話のかぶりなどの対話指標による分析。聴取・モニタリング作業効率化としては、話速変換による聴取時間短縮、音声認識によるタグ付けなど。「テンション分析」として、声の変化（韻律、スペクトル）から数値を計算する。テンション値の時系列から通話の可視化（だんだん顧客がエキサイトしているなど）ができる。問題呼発見の効率化にも役立つ。「望まれる機能」（実現できていない）としては、顧客満足度の自動推定、通話内容の自動要約、厳密なコンプライアンス管理など。

（3）耐雑音音声認識エンジンVoiceDoの応用
　　　服部浩明，辻川剛範
製造、物流の現場などで実際に利用可能な音声認識エンジンVoiceDoの紹介。入力は音声入力と雑音入力用のマイクを使って雑音抑圧をする。VADでは、入力をサブバンドに分けて、SNRが高いサブバンドを使って音声検出を行う。音響モデルではMDLによるモデル選択によって分布数を減らし、メモリに合わせてモデルをコンパクトにする。尤度計算では分布の木構造を使った枝刈りによって計算量を削減。話者適応では木構造を使って適応データ量に合わせた適応レベルを使う。適用事例として、食肉検査（紙やキーボードに触らずに入力できる）、製品検査（ガイド音声による検査漏れの防止）、受注データ入力（FAXや電話で来た手書きの注文伝票を入力）など。従来の手作業だと月曜の朝に誤入力が多かったという話が面白い。音声認識技術で入力時間短縮ができるおかげで入力チェックの時間ができ、それが誤入力をさらに減らしている。実際に使われているBluetoothヘッドセットの紹介。通常のヘッドセットプロファイルはパケットロスに弱いので独自のプロファイルを使っている。さらに、Android版VoiceDoの紹介。音声入力を使うことで、ソフトウェアキーボードやプルダウンリストに比べて半分～2/3に入力時間を短縮。最後に雑音環境下での利用デモ。非常にうまくいっていた。

■招待講演（13:30-15:30）
（4）「音声アシスト」の音声認識と自然言語処理の開発
　　　磯健一，颯々野学
Yahooの音声認識プラットフォームYJVOICEと、対話システム音声アシストの紹介。
YJVOICEについて。サーバはApache、クライアントはAndroid/iOS。音響モデル学習にはHadoop/MapReduceによる並列学習を使う。言語モデルの学習コーパスは検索クエリログ、SNSログ、音声ログ（書き起こし）など。単語は頻度上位100万。言語モデルはGood-Turingバックオフのトライグラム＋エントロピー枝刈り。デコーダーはWFST。WFSTが大きいので、アークの入力記号としゅつ力記号の組み合わせをコード化することでメモリ量を削減する。また、新語の追加のために、追加のWFSTをもとのWFSTに結合する方法を採用。ワンパスでデコードするための「単語の終端位置の決定」「同形異音語の使い分け」などについてのテクニック。
次に音声アシストについて。2012年4月公開。できることは検索、経路探索、スマホ操作などなど。
音声アシスト開発から感じた音声インタフェースの問題点。
・言語表現の多様性（ある機能を起動するにも多くの表現がある）。
・入力形式が自由なので、何を言ったらいいかわからず、システムも何を言われるか予想できない。
・音声認識誤り、言い直し、言い間違い、表記ゆれ
評価が高い点：使って楽しい、面白い、声がいい、かわいい
　人格や知性を感じさせる（人間と同じように接する）
処理できない時の対応はどうすべきか・変な入力があった場合はどう返答すべきか
　難しい。利用者の印象に直結
頑健なシステムにすることが重要（あらゆるレベルの誤りが来ることを覚悟）。再現率を重視。使われ方を観測して改善する（運用中に発話を観測し、仕様をいろいろ変更してよい方を選ぶ）。楽しさもおろそかにしない。
そのほかさまざまな話題。音声アシストの面白やりとり例。

（5）音声合成VoiceTextの実用化の技術的な課題と成功事例
　　　金田隆志
・もともと(2003)ペンタックス株式会社でマルチメディアビジネスを立ち上げるなかで音声合成(Globalvoice)のビジネスを開始。最初は語学学習ビジネスのために音声合成を利用していたが、そのうち海外の音声メーカーごと買収して本格的にビジネスを開始。エンジンは波形接続方式。
・最初の音声（Miyu, Show）はまったく売れなかった（声に魅力を感じない、イントネーションが不自然、等）。Miyuは声に魅力がないので新しい話者を開発。
・アプリケーション開発を最優先課題として取り組み。日本語から外国語に翻訳して読み上げるアプリケーション SpeechTranslatorを開発⇒売れなかった。
・音声エフェクター、Web読み上げ⇒売れない
・偉い人からの指令で「しゃべるカメラを作れ」→没
・魅力的な話者の開発→Misaki(2006) →大ヒット「音声合成とは思えない、人間らしさ、声が魅力的」
・2007年HOYAと合併→音声事業は何とか継続
・2007年「初音ミク」→音声合成の認知度が上がる
・アプリケーション：音声合成を作った英語学習ソフト開発→GlobalVoice English
　大学の先生に公表、目的がシンプルではっきりしている
・英語の発音矯正アプリ Globalvoice CALL→CALL教室用に一定の売り上げを確保
・話者開発　Misakiと同じくらい支持される話者を開発
　Haruka（ビジネスで使えるアニメ声）→あまり売れていない（コンセプトがおかしい）
　　KIBO ROBOT Projectに採用、しゃべってコンシェルの最初のバージョンの声
　人間らしく温かみのある声を。「ありがとうございます」等は自然な感情をこめて録音する
　適正な読み上げ速度、防災放送（販売分野に特化したシナリオで録音→その方面での音声の品質向上)
　Sayaka (2009) 600人の中から1人を選考→幅広い用途で高評価
　最初からいた男性話者Show 最初はまったく売れず→「モヤモヤさまぁ～ず2」に採用 (2007)→各方面で採用
・HOYAサービス株式会社に事業が移行
・HMM音声合成（研究中、デモのみ）
・SpeechBuilder: 音素片の選択・編集ができるソフト
・エディタの改善
・防災パック　全国85自治体に納入
・失敗パターン：予算を使う目的で余計なものを作って失敗、お客様の方を向いていない
・成功パターン：お客様の要望を集めて開発

■デベロッパーズフォーラム（II）（15:30-16:30）
（6）クラウド型音声認識サービスの車載機利用のための音声処理技術開発
　　　本間健，額賀信尾，大淵康成
クラリオンのIntelligent Voiceの紹介。クラウド型音声認識では組み込みと比較して多様な発話が受理でき、ユーザーによる更新が不要。車載機でのクラウド音声認識では雑音への対処が重要だが、クラウド側で様々な雑音への対応を行うのは実際問題として難しい。そこでフロントエンドで雑音対応VADと雑音抑圧を行い、クラウド側は通常の音声認識を行う。VADはしゃ再帰で実行し、雑音抑圧はクラウドで行う。VAD法はBOMLSA法（去年のAPSIPAで聞いた方法？）。1つの音声から異なる雑音抑圧手法(パラメータが違う)で複数の音声を作り、それをすべてデコードした後、信頼度順にソートして統合する。提案システムを搭載したカーナビClarion NX713のデモ。

（7）多様な雑音に頑健なクラウド音声認識サービス「SpeechRec Cloud」の紹介
　　　大庭隆伸，鎌土記良，浅見太一，青野裕司，阪内澄宇，高橋敏
NTTITが提供するクラウド音声認識サービスの紹介。迅速な開発・導入に対するニーズの高まりから、クラウド型の音声認識サービスを提供。
・音声認識サービスのクラウド化の課題。入力デバイスの多様化、認識性能の重要さの差異、入力の言語的多様性、モバイルの雑音対策。クライアントではVAD、雑音除去、符号化をサポート。
・音声認識の重要さの差異。アプリによって異なる。重要さに合わせて、松プラン（リアルタイム保証）と竹プラン（ベストエフォート）とお試しプランを用意。
・入力音声の言語的多様性。どんな単語でも認識するため、on-the-fly WFSTを利用して1000万語彙モデルを実現。巨大な言語モデルを使うが、アウトオブドメインタスクでは言語モデルの枝刈りは危険。
・モバイル端末における雑音対策。高雑音下では切り出しが失敗する。そこで、端末上で雑音除去をしながら区間検出を行う。

aitoの日記： 10月25日（金）SLP研究会（デベロッパーズフォーラム）まとめ 0

10月25日（金）SLP研究会（デベロッパーズフォーラム）まとめ More ログイン

スラド