aitoの日記: 3月9日音響学会スペシャルセッション 「人間の聴覚情報処理過程と音声認識技術」メモ
日記 by
aito
○コンピュータによる音声認識のこれまでと今後の展望(古井貞熙:東工大)
コンピュータによる音声認識技術の変遷
第1世代:アナログ回路、数字認識
第2世代:
DPマッチング 迫江・千葉/Vintsyuk(1968)
音素・音節単位認識、大語彙
DARPAプログラム Hearsay, Harpy
第3世代:1980~
連続単語認識、統計的枠組み
第3.5世代:1990~
識別的アプローチ、話し言葉、頑健性向上
人の音声認識とコンピュータの音声認識
スペクトルの動的特徴
聴音結合→モデル化できないのでtriphoneやquinphone
音声動特性の知覚とモデル化
スペクトル変化が最大になる点に音節の特徴がある
超分節的特徴(韻律など)
音声動特性知覚の階層構造
知覚的現在(50~100ms)
階層1(数ms)時間感度
階層2(数十ms)時間の粒
より長い階層:この辺の音声認識モデルはない
階層3(数百ms)能動的聴取機構
階層4(2s)記憶による処理
多様な知識の利用
多様な音響的・言語的変動のモデル化が必要
超大規模話し言葉コーパス、unsupervised/lightly supervised learning
Fourth Research Paradigm (Jim Gray)
Data-intensive Science
○音声の知覚と認識-人は脳で音声を聞く.機械は?-(赤木正人:北陸先端大)
人による音声認識と機械による音声認識の対比
音声認識とは:目的音を予測して探索する→モデル化の必要性
デモンストレーション
正弦波音声・劣化雑音音声・音韻修復・混合音声
→脳からのトップダウン情報
劣化した音声は人間に対しても機械に対しても同じ
トップダウン情報の使い方が違う?
自動音声認識のトップダウン情報は数十ms
「聞き耳」モデルによる音声認識
狙った音だけに聞き耳を立てる行為のモデル化
音響的に劣悪な環境において意識的に目的音に注意を向けて予測し、目的音を選択的に聴取し続けようとする行為
必要な処理
目的音の選択的分離
事前情報を積極的に利用
存在の妥当性による評価
音の選択的分離・抽出・分凝
音脈分凝 Bregman(1993)→楽器音分離(Unoki et al. 2006)
Piano音+楽譜情報をキーとして使う
音声認識への応用
ある音があると仮定して、それを分離したときに得られたものが仮定した音に似ていれば、音が存在したものと見なす
○マザリーズから学ぶ日本語の韻律特性(馬塚れい子:理化学研究所)
マザリーズとは
マザリーズは世界の大多数の言語で観察される
韻律・音素が強調される
乳児の言語獲得の主な入力
乳児はマザリーズを好む
マザリーズの言語依存性、言語獲得に果たす役割
言語の音韻体型の柔軟性(マザリーズによってどこまで言語がひずんでもよいか)、コンテクスト効果
理研日本語母子会話コーパス
日本語のマザリーズにおけるイントネーションの誇張
多くの言語に見られるピッチ範囲の拡大が日本語のマザリーズには見られない (Fernold et el. 1989)
日本語のマザリーズは例外なのか?
計測すると差がないが、聞くと違いがわかる
日本語は発話の最後にイントネーションの特徴がある(boundary pitch movement:BPM)
BPMを含む音節だけだとピッチ範囲が異なる
なぜマザリーズ(IDS)とふつうの発話(ADS)のピッチ範囲が同じなのか
IDSの方が発話が短い
長い発話の方がピッチ範囲が大きい
→IDSの方が全体としてピッチ範囲が狭い
IDSでは発話末ピッチが強調されるのでイントネーションが強調されて聞こえる
マザリーズに含まれる母音の特性
IDSの母音空間が各国語で広がっている(Hyperarticulate)
対乳児発話では広がるが、対ペット発話では広がらない
IDSは分散が大きいので、マハラノビス距離を測ると、通常音声や読み上げ音声よりは空間が小さい
マザリーズ母音がhyperarticulateされているというのは分布を考慮しないことによる誤解釈
音声認識技術とマザリーズ研究
音声認識技術はマザリーズ研究に役立つ
マザリーズ研究は音声認識研究に役立つか? maybe
音声認識モデルと乳児が獲得するものは同じ
○情報の分離とモデリング-人間らしい音響モデリング-(峯松信明:東大)
HCG特集号の招待論文の内容
音声が運ぶ情報
言語的情報:言語、パラ言語
非言語的特徴:話者性、伝達特性
音響情報からの特徴抽出
音韻性、話者性の抽出:周辺化操作(いらない量で期待値をとる)
大量の音声からの統計
工学的実装と認知的実装
子供の聞く声は偏っている
音響的不一致による認識率の低下
子供の声まね:音まねではない
発達的視点から考える技術的欠損
自閉症者:音声模倣=声帯模写
音声コミュニケーションに困難がある
進化的視点から考える技術的欠損
動物による模倣=音の模写
写像不変量によるモデル化
音高の場合の相対音感
話者不変量:f-divergence
コンピュータによる音声認識技術の変遷
第1世代:アナログ回路、数字認識
第2世代:
DPマッチング 迫江・千葉/Vintsyuk(1968)
音素・音節単位認識、大語彙
DARPAプログラム Hearsay, Harpy
第3世代:1980~
連続単語認識、統計的枠組み
第3.5世代:1990~
識別的アプローチ、話し言葉、頑健性向上
人の音声認識とコンピュータの音声認識
スペクトルの動的特徴
聴音結合→モデル化できないのでtriphoneやquinphone
音声動特性の知覚とモデル化
スペクトル変化が最大になる点に音節の特徴がある
超分節的特徴(韻律など)
音声動特性知覚の階層構造
知覚的現在(50~100ms)
階層1(数ms)時間感度
階層2(数十ms)時間の粒
より長い階層:この辺の音声認識モデルはない
階層3(数百ms)能動的聴取機構
階層4(2s)記憶による処理
多様な知識の利用
多様な音響的・言語的変動のモデル化が必要
超大規模話し言葉コーパス、unsupervised/lightly supervised learning
Fourth Research Paradigm (Jim Gray)
Data-intensive Science
○音声の知覚と認識-人は脳で音声を聞く.機械は?-(赤木正人:北陸先端大)
人による音声認識と機械による音声認識の対比
音声認識とは:目的音を予測して探索する→モデル化の必要性
デモンストレーション
正弦波音声・劣化雑音音声・音韻修復・混合音声
→脳からのトップダウン情報
劣化した音声は人間に対しても機械に対しても同じ
トップダウン情報の使い方が違う?
自動音声認識のトップダウン情報は数十ms
「聞き耳」モデルによる音声認識
狙った音だけに聞き耳を立てる行為のモデル化
音響的に劣悪な環境において意識的に目的音に注意を向けて予測し、目的音を選択的に聴取し続けようとする行為
必要な処理
目的音の選択的分離
事前情報を積極的に利用
存在の妥当性による評価
音の選択的分離・抽出・分凝
音脈分凝 Bregman(1993)→楽器音分離(Unoki et al. 2006)
Piano音+楽譜情報をキーとして使う
音声認識への応用
ある音があると仮定して、それを分離したときに得られたものが仮定した音に似ていれば、音が存在したものと見なす
○マザリーズから学ぶ日本語の韻律特性(馬塚れい子:理化学研究所)
マザリーズとは
マザリーズは世界の大多数の言語で観察される
韻律・音素が強調される
乳児の言語獲得の主な入力
乳児はマザリーズを好む
マザリーズの言語依存性、言語獲得に果たす役割
言語の音韻体型の柔軟性(マザリーズによってどこまで言語がひずんでもよいか)、コンテクスト効果
理研日本語母子会話コーパス
日本語のマザリーズにおけるイントネーションの誇張
多くの言語に見られるピッチ範囲の拡大が日本語のマザリーズには見られない (Fernold et el. 1989)
日本語のマザリーズは例外なのか?
計測すると差がないが、聞くと違いがわかる
日本語は発話の最後にイントネーションの特徴がある(boundary pitch movement:BPM)
BPMを含む音節だけだとピッチ範囲が異なる
なぜマザリーズ(IDS)とふつうの発話(ADS)のピッチ範囲が同じなのか
IDSの方が発話が短い
長い発話の方がピッチ範囲が大きい
→IDSの方が全体としてピッチ範囲が狭い
IDSでは発話末ピッチが強調されるのでイントネーションが強調されて聞こえる
マザリーズに含まれる母音の特性
IDSの母音空間が各国語で広がっている(Hyperarticulate)
対乳児発話では広がるが、対ペット発話では広がらない
IDSは分散が大きいので、マハラノビス距離を測ると、通常音声や読み上げ音声よりは空間が小さい
マザリーズ母音がhyperarticulateされているというのは分布を考慮しないことによる誤解釈
音声認識技術とマザリーズ研究
音声認識技術はマザリーズ研究に役立つ
マザリーズ研究は音声認識研究に役立つか? maybe
音声認識モデルと乳児が獲得するものは同じ
○情報の分離とモデリング-人間らしい音響モデリング-(峯松信明:東大)
HCG特集号の招待論文の内容
音声が運ぶ情報
言語的情報:言語、パラ言語
非言語的特徴:話者性、伝達特性
音響情報からの特徴抽出
音韻性、話者性の抽出:周辺化操作(いらない量で期待値をとる)
大量の音声からの統計
工学的実装と認知的実装
子供の聞く声は偏っている
音響的不一致による認識率の低下
子供の声まね:音まねではない
発達的視点から考える技術的欠損
自閉症者:音声模倣=声帯模写
音声コミュニケーションに困難がある
進化的視点から考える技術的欠損
動物による模倣=音の模写
写像不変量によるモデル化
音高の場合の相対音感
話者不変量:f-divergence
3月9日音響学会スペシャルセッション 「人間の聴覚情報処理過程と音声認識技術」メモ More ログイン