2月1日 SLP＠伊豆長岡温泉まとめ | aitoの日記

aitoの日記： 2月1日 SLP＠伊豆長岡温泉まとめ 0

日記 by aito 2014年02月01日 16時12分

■特別講演２ (09:00-10:00)
（6）私の音声研究とＳＬＰ
　　　鹿野清宏
最初に鹿野先生の略歴。NTT→(CMU)→ATR→NTT→奈良先端
各時代での研究と関連する人たち。
ATR時代。Alex Weibel、東倉先生、Victor Zue、Frank Fallside
SLPの遠い前身のATR勉強会（＠温泉）。ATRで開発した各種技術（TDNN,Speaker Adaptation, etc.)
NAIST時代。輩出した博士が33名、修士が約200名、論文が160件、国際会議が450件。
JNAS、IPA日本語ディクテーション基本ソフトウェア、音声認識基本技術講習会
連続音声認識コンソーシアム
BSS、ASKA&たけまるくん、キタちゃん、平城遷都1300年
最後にGoogle Scholarでの各分野のランキング。

■テーマセッション「音声言語処理技術の今後」：音声合成(10:15-11:45)
（7）音声合成は今後こうなる！
　　　徳田恵一，峯松信明，戸田智基，額賀信尾，平井啓之
・徳田先生
最近の技術動向
　　単位選択型音声合成：高品質、多量のデータが必要
　　統計的パラメトリック(HMM)音声合成：多様性、方式が言語非依存、低メモリ量
　　ハイブリッド型
多様性の実現
　　話者適応、話者補間、固有声、感情音声合成、歌声合成（マツケンサンバ）
実世界での利用
　　カーナビ、電話音声案内、音声ポータル、ボイスサーチ、音声翻訳、etc.
今後の技術開発
　　統合モデル
　　　　波形レベルの統計モデル
　　　　テキスト解析部との統合
これまでの音声認識研究は音声合成のためだった？
ユニバーサル音響モデル：あらゆる話者性・発話スタイル・感情表現・言語等を自在にモデル化・制御可能な音声モデル
　　学習データをどうするかが問題
ユニバーサル音声モデルと超大規模音声データ
　　音声モデル構築のための技術的基盤+多様な音声データを蓄積・共有する社会的基盤が必要
社会的基盤
　　分断された音声データの共有化：医療（ボイスバンク）、エンターテイメント、商業分野、学術分野(Blizzard Challange)などで共有できないか
　　Web上の音声データの利用（Podcast, Audiobook)
音声コンテンツ制作支援
　　読みやアクセントの修正、抑揚の編集、歌唱表現の編集など
今後の音声合成
　　高品質化・多様化が着実に進み、音声インタラクションシステムとしての洗練・適応も進むことにより、日々の暮らしに溶け込んでいく

・峯松先生
ここ数年、音声合成ソフトの教育利用が増えている
　　電子化辞書、教科書読み上げ、会話エージェント
語学教師が感じている合成品質：読み上げ能力としては超上級者相当
実現しようとしている「母語話者らしさ」：人間は「通じればよい」音声合成は「母語話者のようでなければならない」
「どう読むか」を支援する
　　テキストに明示されていない情報（韻律など）を視覚的に表示→OJAD
スズキクン of OJAD：日本語韻律情報の教材
対話音声合成ってCALLに必要？
　　Communicativeな外国語教育：文法重視からコミュニケーション重視へ
　　　　焦点・意図などが重要
　　社会生活を営むための音声教育が求める技術（日本語の場合）
　　　　外国語訛りが「態度」として受け止められる、若者言葉の使用の問題→TPOにあった「話し方」を教えるツールとしての音声合成技術
英語を対象にすると
　　さまざまな「英語」：発音を「正しく」する必要があるか？
他社の英語を「聞き取りやすい訛り」に変換するインフラ→それぞれの人がそれぞれの英語でコミュニケーション
個人単位で外国語能力を管理する
　　CEFR: 言語パスポート（個人の言語能力証明）

・戸田先生
音声変換技術とは
　音声→音声、または（音声＋テキスト）→音声
基本的な枠組み
　パラレルコーパスによる統計モデル：
　　　コードブック→ソフトクラスタリング→線形回帰→GMM→結合pdf学習→ML系列変換＋GV→各種確率的枠組みへ
　　　フォルマントシフト、セグメント単位選択→フレーム単位選択
　適応技術の発展
　応用技術の発展
　　　個人性→言語間→感情→帯域拡張→雑音抑圧→調音逆推定→電気喉頭音声変換→・・・
音声変換技術を今後こうしたい
　　非言語情報を制御→物理的・身体的制約を超えたコミュニケーションの実現
　　　　いかに意図をシステムに伝えるか
　　発声障碍者補助、サイレント音声合成、コンテンツ創作
　　品質を許容レベルに抑える（極端な劣化がない）
　　物理的な制約の導入
　　リアルデータの収録の枠組み作成
　　データとモデルのミスマッチを補正する
　　パラ言語情報の生成・制御
　　主観的・知覚的特性との対応のモデル化（創作支援）
　　音声データベースの拡充
　　音声変換技術の社会的認知を広げよう

・額賀さん
日立の音声合成技術と今後の展開。
日立の音声合成技術の歩み：アナログ→合成LSI（符号化方式）→単位選択型
セレクティブ重畳方式（波形の韻律が連続的になるための接続方式）
Ruby Talk（カーナビ用記号規格JEITA TT-6004）、ボイスソムリエ（ナレーション作成、韻律手動制御）
音質向上をドライブした要因
　　計算機リソースの充実
　　ユーザが厳しい
　　良いコンペティタがいた
　　ツール類の充実
今後の課題・方向性
　　人間の音声との差の解消（特に対話システムに利用した時の不自然さ）　会話調音声のアノテーション・制御
　　Controllabilityの獲得（想像した声を作り出す）
　　話者が希少な言語、書き言葉がない言語の保存と合成

・平井さん
エーアイの音声合成の現状と今後について。
H15にCHATRの販売会社からスタート。自家製エンジンAITalk作成。J-ALERTに採用、「大沢たかおのあなたに朗読」、しゃべってコンシェル
日本語に特化したエンジン：少ない収録音声から安定した高品質な音声の合成が可能
専門の技術者による精密なラベリング（半自動）
カスタムボイス：有名人などの音声合成器を提供（2時間～6時間の音声）予算に応じて作成
　　サンプルボイス（吉田君、ふなっしー、ガチャピン/ムック）
　　関西弁対応
現状の課題
　　合成音声の品質が話者に依存して劣化（少ない収録量で顕著）
　　劣化要因：読み方の安定度（滑舌、感情）、ピッチマークのずれ、PSOLAの波形変形による劣化
今後の目標
　　利用分野を広げる：コンテンツ作成

・ディスカッション
HMM音声合成と波形接続の関係の今後は？
→ハイブリッド型（HMMで単位選択、HMM合成結果と単位選択結果の混合）など。
　ハイクオリティなら単位選択、多様性を求めるならHMM（徳田）
　韻律等には統計的モデルが利用できる。ボコーダの品質は問題。そこがクリアできれば（平井、額賀）
汎化誤差が0にならない問題に対して音声合成ではどう対応するか？
→うまい軸を設定すれば汎化の問題は何とかなると思う（徳田）
音声合成に使われている各種基盤技術は日本初（嵯峨山）
スペクトルベースの方法はどの程度になったら使えるのか（森勢）
→「そちらを使ったほうがメリットがある」ということが必要。読み上げならば波形接続で十分（平井）
日本語のテキスト解析の現状は（西沢）
→テキスト解析の部分も言語非依存にしたい。基本的な構造だけを使って機械学習という方法で収束させたい（徳田）
　Blizzard Challangeでインドの言語を一か月で作るチャレンジをしている（徳田）
　言語教育の場合は教えるのは人間なので、言語依存なところにも意味がある（峯松）

■インダストリーセッション(13:00-14:00)
庄境誠 (旭化成), 西村雅史 (日本IBM), 大淵康成 (日立/クラリオン), 河村聡典 (東芝),越仲孝文 (NEC)
・西村さん
IBMの研究成果。ViaVoice(1996)累計200万本→音声理解システム、裁判所システム（コスト面で失敗）
　現在も毎日血の涙を流しながら認識率向上に努力している
車載用音声理解システム(2008)、コールモニタリングシステム(2009)、クラウド型音声検索サービス(2011)など
音声認識はクラウドへ（組み込み型認識はニッチへ）
次はCognitive Computingの時代
・大淵さん
日立グループの音声言語処理ビジネス。
カーナビ型ミドルウェア→携帯型音声翻訳装置→耐雑音音声認識→車載向け音声対話→マイクアレイ→音声認識実用化PJ→ビッグデータ応用STD→音声強調・VAD→車載向けクラウド音声認識（エンジンはGoogle）
音声認識ビジネスのこれから:音声I/Fと音声ビッグデータ
UI設計・対話機能/認識エンジン（巨人に対抗）/パラ言語解析他
・河村さん
東芝の音声言語処理ビジネス。
過去：LaLaVoice、音声ミドルウェア（カーナビ用）
現在：音声合成→オンラインサービス ToSpeak Online（自分の声で合成器が作れる）
　　　　　　　　　　　　　　　　　音訳システム Daisy Rings
　　　音声認識→クラウド利用B2Bソリューション　音声つぶやきシステム（作業中に音声でログを取る）
　　　　　　　　　　　　　　　　　　　　　　　書き起こし支援システム ToScribe
未来：音声合成→単なる読み上げから、会話・コンテンツ作成・エンタメ系へ
　　　　　　　　ビジネスのためには編集コスト削減も重要
　　　音声認識→CPS(Cyber Physical System) 人間のコミュニケーション活動のセンサーとしての音声認識
　　　音声インタフェース→コグニティブアシスタント Xpressive Talk（感情音声合成＋トーキングヘッド）のデモ
・越仲さん
過去：音声タイプライタ、音声翻訳などを開発してきた
現在：音声入力端末 VoiceDo（品質管理など）　議事録作成 VoiceGraphy　キャラクタ会話「おしゃべりシナモン」
　　　裁判音声認識システム(2009) 検察取り調べの録音の認識、話者認識
未来：ICTを利用した社会インフラの高度化領域へ経営資源を集中
　　　「音声言語」から「音声・音響理解」へ
　　　　　Speech-to-Text技術は継続的に注力
　　　　　Speech-to-X, Sound-to-X
・庄境さん
過去：部品ソフトウェアビジネス VORERO 累積424万ライセンス N自動車のカーナビを作っているC社が採用
　　　多言語に対応しきれないので撤退
現在：統合ソフトウェアビジネス　業務用音声ソリューションパッケージVOHMIAK
　　　音声対話部分VOHMIAK PD-2 ＋モトローラ業務用タブレット　音声対話による業務支援
　　　システム導入の経済効果の定量化が可能、ユーザへの訴求
未来：社会インフラ、社会システムを支える音声でないとビジネスにならない
　　　業務の中で話されている音声を処理して価値を与えるソリューションを探す
JEITAの調査：
　医療応用（パーキンソン病を音声で診断支援）調剤薬局の薬剤師支援　等

・ディスカッション
つぶやき声認識はどの程度のレベルにあるのか？（小林）
→業務を限れば文字正解率9割程度。日常での会話はまだ無理（河村）
　通常の会話音声の認識には証跡としての価値がある。ターゲットを絞ればLVCSRである必要はない。（庄境）
　STDではかなり自然な会話でも精度は9割。再現率はまだまだ。精度が高ければよい応用から攻めたい（大淵）
認識エンジンがクラウドになっていくときに、音声技術企業としてどう対応するのか。（中村）
→これからはエンジンの時代ではない。その周辺のVADやエンハンスメントが競争力の源泉になる。音声対話も。（大淵）
　セキュリティが重要な分野では独自エンジンもある（大淵）
　IBMでは認識エンジンに力を入れている。データもできるだけたくさん利用する。あらゆる組み合わせを試している。（西村）
　NECでも認識性能に力を入れている。データでどう勝負するかは考えていかなければならない。他人がとってこられないデータをどう確保するかがポイント（越仲）
　Googleのエンジンは強力だが、Googleが及ばない世界がある。業務の世界はGoogleからは遠い。（庄境）
日本で今後はそれぞれのメーカーで音声技術が生き残るのか。それとも1社に縮退するのか（中川）
　音声認識は市場の期待に全く応えられていない。話し言葉はまだまだできない。そちらを進めればまだまだ行けると期待（河村）
　音声技術を単体で売ると大した額にならないが、大きなシステムの本質的な一部になれば大きなビジネスになりうる（大淵）
若者をエンカレッジする意味で何か一言ずつ。（徳田）
　音声認識の研究は終わっていない。それを追求すればまだすべきことが多い。（西村）
　「音声認識」で何をイメージするか。その技術はspoken languageだけのものではないのではないか。ほかの分野にも活用ができる部分があるので、そちらでも若い人に頑張ってほしい。（庄境）
いま中国の音声市場は盛り上がっている。日本の状況はどうか。（山岸）
　世界では音声研究者の取り合いになっている。日本でも、お客さんを見る限りニーズは高い。日本・世界分け隔てなく高いポテンシャルがある。しかし音声認識技術はそのニーズを救い上げるだけのポテンシャルがない。（河村）
　いま音声を含む人工知能ビジネスは世界的には旬。それと比べると日本は弱いが、音声技術への期待はViaVoiceの時代よりはるかに高い。（西村）

■テーマセッション「音声言語処理技術の今後」：音声応用(14:15-15:45)
（8）音声応用（音声対話）は今後こうなる！
　　　中野幹生，李晃伸，駒谷和範，東中竜一郎
（9）音声言語処理を利用した情報検索評価タスク: NTCIR SpokenDocからSpokenQuery&Docへ
　　　秋葉友良
音声対話と音声検索の現在から未来へ。
・秋葉先生
音声ドキュメント処理ワーキンググループ (2006～2012)
目的：音声ドキュメントを利活用する技術の開発を目指し、研究基盤を整備する。
活動内容：データベース整備、テストコレクションの開発・公開、ワークショップの開催
WGによる音声ドキュメント検索テストコレクションの構築(2009～2010)→NTCIRにタスク提案(2010)
　　NTCIR: 検索システムの力比べ
NTCIR-9 SpokenDocとNTCIR-10 SpokenDoc2
　　音声検索語検出と音声内容検索タスクを同時に実施
　　可変長区間パッセージ検索
　　ISTD（単語が検出しないことの確認）タスク
従来のテキスト情報検索では「検索窓へのキーワード入力」パラダイムから脱していないのではないか。音声検索はそれを打ち破る可能性がある。
→長い自由発話音声クエリによる音声ドキュメント検索 NTCIR-11 SpokenQuery&Doc
・中野さん
音声対話システムの流れ
　ATIS→Communication/Error Handling/話題管理/意図理解/話者交代/POMDP
今後（予想）↓
音声対話システムはこうなる
　どんな場面で対話システムが使われるか？→重要な形態は限られる
　　　音声が重要な局面では多人数マルチモーダル対話システムが有力だろう
研究テーマはこうなる
　深い意味理解・実世界にグラウンドした意味の理解・状況依存対話（なるべく音声を発しなくても理解されるシステム）
研究体制はこうなる
　対話研究者はそれぞれの要素技術（音声・言語・画像・知識・インタラクション・ロボット）の統合に集中せざるを得ない
音声入出力ツールはこうなる
　音声のことをよく知らない対話研究者が簡単に使えるツール
　テキスト入出力ではない特徴の利用
　　　リッチな音声音響センシング（音声と認識結果、音響イベントなど）、多様な音声出力（感情、態度、パーソナリティなど）
その他こうなるかも
　「音声対話システム」という言葉は使われなくなる（マルチモーダルが当たり前）
　「対話システム」→AIエージェント？
　対話研究者は音声認識率を気にしなくなる？
・李先生
音声IF・音声対話の応用に向けて
音声応用の現状：現在は注目の山を登っている
　　　　　　　　　次に来るものは？キャラクター対話、モバイル・ユビキタス、オームオートメーション、エンタメ
音声モーダルの楽観的予測・悲観的予測
　　　悲観的予測は音声認識率がどんなに上がっても変わらない？（話しにくさ）
　　　話しかけにくさは音声応用における重要課題の一つ
話しかけにくさの原因：切り分けが難しく、個別のノウハウになりがち
　ユーザに自由な発話を許すと、音声言語の外にある諸要素の影響が大きくなる
　　　実際にモノを作ると「センス」が問題になる
ツールキットによる実証的アプローチ
　　　音声言語処理技術とデザインの分離
MMDAgent
　耳、口、骨、皮、空間を実装した研究用プラットフォーム
　他分野の人が使える音声認識・合成基盤ソフトウェア
コンテンツの作り手からの普及
　　能動的ユーザを創り出す：音声対話の理解者の増大
いまなにをすべきか
　　作って、使ってもらうことを通して研究につなげる
　　技術とデザインの接点を模索する
20年後
　　関連分野との新たな連携（音声対話デザイン論、音声対話心理学）
　　コンテンツ業化、「音声対話デザイナー」が成立
・駒谷先生
言ったことの理解から意図の理解へ
Situated Dialog（ある状況・コンテキスト下で動く対話）
　　従来は入力音声を分析理解する部分のみを対象にするが、発話には信号・言語・社会などのレイヤがある。
社会的制約の利用
　　人間同士の対話タイミングを人間ロボット対話に利用、など
意図の理解へ
　　ユーザ・周辺環境を含めた系を理解する
　　すべての情報を言葉で支持するのは煩わしい←言ったことを理解するだけでなく「状況」を理解する必要がある
必要なこと
　　１．相手のモデルを持ったシステム：ユーザへの適応、ユーザが適応
　　２．膨大な背景知識の構築とその獲得：ドメイン知識のプロトタイピング、知識獲得
　　３．発話状況の理解：マルチモーダル化、状況理解（信号レベル、社会レベル）
「言ったこと」の理解から意図の理解へ
・東中さん
雑談対話システムに向けて
現状認識
　　タスク指向型対話システム：2000年代初頭から変わっていない、モジュールの進化とロバスト化
　　雑談（オープンドメイン対話）：体系的研究はなく、アドホックに実装
20年後はこうなる
　　音声はタスク達成のためのモダリティとして確立、日常に入り込む（技術を意識しないレベル）
　　オープンドメインの発話内容を理解する技術が確立
　　発話内容の記録に基づいたシステム
なぜ雑談対話システムなのか
　　対話はもっと多くの用途に利用できる
　　ユーザは実際に雑談をする傾向がある
　　いずれオープンドメインな理解系が必要になる
雑談の有効性
　　システムとの社会関係、愛着、ユーザ情報の獲得、指向喚起・承認
必要となる技術
　　照応解析、述語項構造解析、談話関係認識、トピック認識、結束性判定、含意認識
　　コーパスがほとんどない。コーパス作成から要素技術の確立に10年、要素技術の統合に10年
　　20年度は発話内容の記録（聞き役）はできそう
NTTの雑談対話システム
　　ドコモ　ドライブネットインフォに実装
　　おっさんと雑談
雑談対話の評価型ワークショップが必要

対話エージェントに人格や個性が必要なのではないか？（嵯峨山）
→しゃべるときには相手に人格を投影することが必要。それをどうモデル化・表出するかが問題（李）
　人格が破たんする応答をすると満足度が下がる。しかし人工的に人格が与えられるかどうか疑問。共同作業者として予測可能な人格は必要だが、それ以上のものがあるべきかどうかについては議論が必要（東中）
人間を超える能力を持った対話システムについてはどうか？（後藤）
→対話は人と人のプロトコルなので、それを超えるプロトコルは人が受け止められないのではないか（駒谷）
意図理解などの用語技術はこの20年ほとんど進んでいないと思うが、どうか（中川）
→言語理解は進んでいないが、Webによってだいぶ状況が変わってきている。今後はウェアラブルと言語に注目している（東中）
日本語特有の省略などから独自の「場を読む技術」というものが出てくるかどうか（峯松）
→日本語特有の照応問題などがあるので、そこから独自の技術が現れる可能性はある（中野）
Situated dialogなどは、以前のICOTなどでやっていた問題と基本的には同じ。システムは「場を読まない」ことが許される。人間にとって透明であればいいのでは。（河原）
システムよりも人間のほうが場を読めない。機械が人間を止めにかかるようなこともあるのでは。言語処理は80年代以来ずっと表層をやっていて成功したが、また深い理解が必要になる。コーパスを集めなければならないが、何かアイデアはないか（小林）
→アメリカではディスコース系のコーパスはあって、小さいがブートストラップには使える。実際にはシステムを作ってリリースするほうが早い。（東中）

aitoの日記： 2月1日 SLP＠伊豆長岡温泉まとめ 0

2月1日 SLP＠伊豆長岡温泉まとめ More ログイン

スラド