パスワードを忘れた? アカウント作成
10611757 journal
日記

aitoの日記: 1月31日 SLP@伊豆長岡温泉まとめ

日記 by aito

■特別講演1 (13:00 - 14:00)
(1) 音声言語をキーワードとした40余年の研究生活
   中川 聖一
・SLP創設前後の動向
1985にCMUに長期出張で刺激を受ける。1987頃に手弁当で今後の研究についての議論。1988科研費総合研究Aの申請・採択。1989活動開始。
1986ATR創設。1987重点領域研究「音声言語」。1988合宿形式の討論会。信学会2種研究会時代の話。音声だけでなく画像・文字認識などさまざまな分野の人との交流。
1992情処学会「音声言語情報処理と音声入出力装置研究グループ」創設。
1994音声言語情報処理研究会発足。SP・NLCとの関係。
主な活動:大語彙音声認識WG、情処特集号、日本語ディクテーション基本技術講習会、Spoken Language Processing 出版
・論文賞になった4つの研究紹介
1977 D論の論文化。記号系列間のDPによる単語スポッティング。CFGによる言語モデル。ビームサーチ、話者適応。
1988 Stochastic Dynamic Time Warpingによる音声認識。DPとHMMの統合。
2000 サーベイ論文「音声認識研究の動向」人間と機械の認識能力の比較。trigramは人間に近く、音響モデルは人間に及ばない。
・最近の話題であるニューラルネットワークの再考
1989 「HMMとニューラルネットワークの接点」
現代の視点からの補足。
最後に「人間の脳とニューラルネットは関係あると思うか」について去年やったアンケート結果の披露。

■テーマセッション「音声言語処理技術の今後」:音声認識 (14:15-15:45)
(2) 「音声認識」は今後こうなる!
   篠田 浩一,堀 貴明,堀 智織,篠崎 隆宏
(3) 音声認識の方法論に関する考察―世代交代に向けて―
   河原 達也
河原先生が「20年ぐらいキャリアがあって、さらに20年ぐらい研究しそうな人」を人選。
・河原先生:去年の「音学シンポジウム」の講演と似た話
「標準的な」音声認識の定式化。Noisy channel model+最尤推定+大規模コーパス。しかしそれらが現在揺らいでいる。
大規模コーパス:数十時間(90年代)→数百時間(2000年代)→数千時間(2010年代) 規模の伸びは指数的だがかかるお金は規模に比例
   →「データをがんばって集める」枠組みの限界→リアルなデータを自然にかつ超大規模に集積できる枠組み
    キラーアプリ(音声サーチなど)を無料で公開、会議・講演を蓄積
モデルの最尤推定:複雑怪奇なモデル → 識別モデルの導入(DNNなど)
Noisy Channel Model:対数線形モデルへ(統計的機械翻訳が通った道)さまざまな情報を統合
音声認識の世代交代(第4世代)
・篠田先生
篠田先生の心象風景。20年前はblue oceanにHMMとN-gramが浮かんでいたが、現在はGraphical Model/WFSTの陸の一部。沖にはDNNの島。20年後はおそらくその部分も陸になっているだろう。
ハードウェアがソフトウェアを規定する。量が問題。
新しいアプリケーション、ユーザが学習する
20年後:コンピュータは速くなりつづける。センサ技術の発達によりモダリティの違いに意味がなくなる?
事例ベース、Product of Experts, 隠れ変数はなぜ必要なのか?
センサークラウド
・堀貴明さん
今後のトレンド:ユビキタス、ウェアラブル、パーソナライズ
音声認識技術の進歩と今後:日常会話音声、遠隔発話
日常会話野認識→字幕、議事録、ライフログ→個人・集団のアイデアや行動の履歴としての価値
現在の技術は一入力一出力(単一話者仮定)→将来は多入力他出力で相互作用もモデル化する。
多入力他出力系=ニューラルネット?
30年後:一を聞いて十を知る音声認識 予測変換のような技術(長期履歴に基づく補完)
・堀智織さん
音声言語処理研究分野の発展
現在のNICTでの音声インターフェース:多言語翻訳、高齢者支援
多言語音声翻訳 U-STAR
アジア太平洋地域での音声言語翻訳の展開 2015年までに生活会話の翻訳
音声自動インデキシング・字幕付与研究
 多言語字幕付与システム
 多言語音声翻訳を用いた聞き耳システム
音声認識は水道のようなもの:いつでもどこでも音声インタフェース
多言語音声対話システムビルダー:音声技術開発者とアプリ開発者の橋渡し
東京オリンピック2020に向けた音声認識・翻訳技術
・篠崎先生
音声認識研究の難しさ:
 音声認識率のインパクト低下、ベースラインシステム作成の困難化
新しいステージへ
 現在の音声認識技術は「カンブリア爆発」の直前
現在の音声認識に足りないもの
 明らかに機械なのに妙に生物っぽい怪しさ(こっそり言ったことがいつのまにか認識されている等)
  →学習・適応化プロセスの自律化
 ワンタッチを上回る直感性および正確性
  →自己完結な音声インタフェース(耐雑音、ハンズフリー)
 組み込み部品としての使いやすさ
  →低消費電力音声認識技術、ワンチップ化、ワイヤレスセンサ化
新しい方法論
 BCIを使った音声認識過程のリバースエンジニアリング(動物実験)
 分野交流 バイオインフォマティクス
・河原先生によるまとめ
何ができる(what):
 中期的には講演音声、放送・ネット音声、ロボット対話
 長期的にはプライベートな会話、ドラえもん、「一を聞いて十を知る」
 方言への対応
どうできる(how)
 生成モデル vs. 識別モデル
 30年後もDNNやN-gramが使われているか?
「気持ちの分かる」音声認識?(嵯峨山)

■ショート発表 (16:00-18:00)
(4) SIG-SLP第100回記念シンポジウム:ショート発表
最初に齋藤さんがオープニングトーク。

第一部 (16:04-16:40)
モデレータ: 森勢 将雅 (山梨大)
鈴木 直人 (東北大): "ARキャラクタとの英会話練習時における交替潜時のタイムプレッシャーによる制御"
 キャラクタとの会話による英会話練習。ARを使って現実を参照しながら英会話練習をする
千葉 祐弥 (東北大): "マルチモーダル情報を使った音声対話システムのユーザ状態推定"
 もう少し社会性のある対話システムがほしい。そのために相手の心的状態(考えている、戸惑っている)を音声と画像から推定。
中島 陽祐 (名工大): "クラウドソーシングを用いたインタラクティブな音声対話システムのための大規模主観評価プラットフォームの構築"
 MMDAgentのようなシステムのインタラクションに対する大規模な主観評価をしたい。そのためクラウドソーシングによる大規模実験のプラットフォームを作った。
西村 良太 (名工大): "楽しい音声対話システムを作りたい!"
 中川研ドクター時代は雑談音声対話システムを作成。特にリズムを重視。名古屋大ではデータベースの音声検索システムを作成。現在は名工大でMMDAgentベースの音声対話システムの構築を目指す(ブラウザ上で作れる対話シナリオエディタ)。
原 直 (岡山大): "地理情報を活用したモバイル音声対話システムに関する研究"
 自分用の音声対話システムを持つのが当たり前の世界へ。ブログやSNSのように誰でも作れて公開できる音声対話システム。設置型の(たけまる型)システムをモバイルに移植。現在位置に依存して推薦情報を変える。マルチエージェント強調による推薦、ライフログからの情報自動生成。
堀田 尚希 (名古屋大): "発話の誤分割を修復する音声対話システム"
 発話の途中で言いよどむことによって途中でシステムが反応してしまう(発話の誤分割)への対処。
松山 洋一 (早稲田大): "多人数会話ファシリテーションロボット"
 人間3人の会話の中にロボットが4番目の話者として参加し、会話に干渉して全体の場をコントロールする。
吉野 幸一郎 (京都大): "ユーザの焦点に適応的な音声によるニュース案内システム"
 ユーザの曖昧な要求に対して対処するために、焦点(ユーザの興味など)を導入したPOMDPによる対話のモデル化を行っている。「空気の読める対話システム」ユーザが言いたいことがうまく言えないときにシステムが主導してくれる。
Yuan Liang (東工大): "Error Correction Interface for Speech Recognition"
 音声認識結果の修正まで考えて、単に認識率が高いだけでなく、修正したときの手間が少なくなる認識結果を優先する。

第二部 (16:44-17:20)
モデレータ: 原 直 (岡山大)
川渕 将太 (名古屋大): "音楽における個人性の信号処理的モデル化"
 バネ質量系を用いた合唱歌唱のモデル化(F0の引き込み)。類似楽曲検索(楽曲間の主観的類似度の推定)。そのための主観評価データの分析(数量化理論III類)。
小林 和弘 (奈良先端大): "統計的手法に基づく歌声声質変換"
 声質を自由に変えられるボーカルエフェクタ。対象歌手がいる場合と、具体的な対象がなくて表現語を使う場合があり得る。前者では固有声GMMによる多対多声質変換。後者は修正重回帰GMMによる声質変換(制御パラメータは年齢)。
白鳥 大樹 (山梨大): "危機的状況を瞬時伝達する警報音の合成を目指した音響パラメータ制御の検討"
 叫び声に固有のパラメータを強調した音声を警告音に使うことでより警告らしさを強調したい。そのために叫び声のパラメータを分析中。音声をTANDEM-STRAIGHTで分析し、フォルマントとF0を操作する。
田中 宏 (奈良先端大): "スペクトル補正及び統計的音源生成に基づくハイブリッド電気音声強調法"
 電気式人工喉頭の音声の自然性向上手法。特に劣化要因をなくすことが重要。統計的声質変換によるF0変換と、スペクトル減算による音声強調の組み合わせ。
田中 宏季 (奈良先端大): "自閉症スペクトラム児と定型発達児のナレーティブ発話分析"
 自閉症者支援のために、コンピュータによる「共感(エンパサイジング)」の認知と表出の補助を行う。
俵 直弘 (早稲田大): "MCMC法に基づく話者モデリング"
 「混合混合ガウス分布」による話者クラスタリング。GMMの混合になるが、その混合数も推定するためにディリクレ混合分布モデルを利用。MCMC法による推定を行う。
西田 昌史 (同志社大): "最近の研究内容について"
 NMFによる話者クラスタリング:階層型クラスタリングに基づく方法よりも高精度。音声入力による音声ドキュメント検索:ベイズリスク最小化音声認識による評価中。マルチモーダル会話分析:多人数でCALLシステムと会話するシステムを構想。言語によって多人数会話時の特徴がどう違うかを分析中。
橋本 浩弥 (東京大): "日本語アクセントに基づく基本周波数パターンの区分線形回帰とHMM音声合成への適応"
 長時間に現れる韻律的特徴をモデル化。句に対するF0変動を音節とそのアクセント(H/L)を使って区分的線形関数として近似する。音声合成のF0生成に応用。
Sangeeta Biswas (東工大): "Clustering i-Vectors for Training PLDA Models in Speaker Verification"
 i-Vectorを使った話者照合。PLDAモデルを学習するときに、話者クラスタに依存した学習をする。

第三部 (17:24-18:00)
モデレータ: 齋藤 大輔 (東京大)
秋田 祐哉 (京都大): "音声言語処理技術を用いた講義・講演の字幕付与"
 講義・講演に字幕をつける。オフラインで正確な字幕(アーカイブ)と、リアルタイム性が重要な字幕(ライブ)がある。アーカイブ用には、できるだけ正確な音響モデル・言語モデルを使って編集もできるシステムを開発した。リアルタイム字幕については、リアルタイム音声認識+有用性の判定により人手による編集を効率化。
市川 賢 (名古屋大): "クエリ拡張と音節認識結果を併用した音声ドキュメント検索"
 音声ドキュメント検索の未知語対応のために、クエリ拡張と音節認識結果を併用する。
桂田 浩一 (豊橋技科大): "高速で高精度な音声ドキュメント検索システムの開発と試験運用"
 放送大学を対象とした音声ドキュメント検索のプロジェクト紹介。音声認識(中川、新田)+音声検索(西崎)+高速なSTD(桂田)+音声コンテンツ検索システム(秋葉)。
柏木 陽佑 (東京大): "Deep Neural Networkを用いたクリーン音声状態識別による雑音環境下音声認識"
 DNNを使った雑音除去。NNによってクリーンかどうか識別。学生交流のすすめ。
張 聡穎 (東京大): "Using Phonetic Context for Continuous Speech Recognition with Invariant Structure"
 構造的特徴による連続音声認識。従来の認識結果を構造的特徴によるスコアでリランキング。従来の構造的特徴はmonophoneだが、この研究ではtriphoneを使う。
ポンキッティパン ティーラポン (東京大): "日本人英語音声を対象とした単語了解度の自動予測"
 ERJの単語了解度を自動予測。ERJ音声の聴取実験結果から各単語の了解度(人間による認識率)を測り、音響的特徴から了解度を予測する。
長野 雄 (東北大学): "省リソースな計算機のための音声認識における演算量の削減"
 Raspberry Pi上での音声認識のための計算量削減。
増村 亮 (NTT): "言語モデリングにおける学習データの課題を解決するための2つのアプローチ"
 N-gramの基本性能・利便性をあげるための研究。Web上の言語資源からCSJ並の言語モデルを作る。またバックオフの限界を超えるため、複雑な構造の言語モデルから生成した文を使って通常のN-gramを学習する。
森勢 将雅 (山梨大): "Deep neural networkによる音声認識に適した特徴量抽出の検討"
 DNNで音声の「好感度」に相当する特徴量を取り出したい。現在試し中

■(20:00-21:30)
(5) 音声言語情報処理研究会の20年―歴代主査による研究レビュー―
   新田 恒雄,小林 哲則,中村 哲,武田 一哉,河原 達也,伊藤 彰則
司会だったのでメモを取り忘れた。それぞれの主査が昔を偲んで講演。
研究レビューのつもりだったけど自分の研究紹介的な話が多かった。時間をちょっと超過して終了。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

皆さんもソースを読むときに、行と行の間を読むような気持ちで見てほしい -- あるハッカー

読み込み中...