パスワードを忘れた? アカウント作成
6399983 journal
日記

aitoの日記: 9月19日 音響学会1日め(音声A・B)まとめ

日記 by aito

音声B 個人性・声質変換

☆スパース表現を用いた雑音環境下の声質変換(神戸大)最近流行のスパース表現を用いた声質の変換。パラレル辞書の存在が前提。ある人の辞書を使って入力音声をスパース表現し、その重み行列と別な人の辞書を使って声を合成する。雑音辞書を足すことで、雑音を含む音声の雑音除去と声質変換を同時に行う。パラレルコーパスの発話様式が大きく違うと破綻するんじゃないだろうか。

☆リアルタイム肉伝導音声変換処理のDSP上への実装(NAIST)
NAMを使った声質変換の実装の話。DSP(TMS320C6748)を使う。共分散行列の対角化、フレームシフトを大きくするなどの演算量削減をしている。DSP組み込み関数を使うと品質が変化するのはなぜだろう。精度の問題かな。

○テンソル表現に基づく任意話者声質変換における話者正規化学習の検討(東大)
齋藤さん。テンソル表現による一対多の声質変換の性能を上げるためにSATを使う(ちなみにeigenvoiceベースの手法に対するSAT利用は既存)。発表時間がぎりぎり。

○スペクトル包絡の伸縮が音声の個人性・音韻性に与える影響(岡山大)
スペクトル包絡を区分線形な非線形関数で変換する声質変換。「個人性が変化しているか」「音韻性が保存しているか」を評価。音韻性については了解度試験をした。3kHz以上の周波数成分は音韻性への影響はなく、3kHz以下の成分は音韻性への影響が大きい。個人性については原音声との類似性の主観評価。高域のみでは個人性はあまり変化しない。

○基本周波数及び1次ケプストラム係数の個人性への寄与の検討(琉球大)
高良先生。F0と1次のケプストラム係数(C1)に個人性がどの程度含まれているのかを調べた。C1はスペクトルの傾きにおおまかに対応する。自主開発のスペクトルエディタを利用。3人の話者音声のF0,C1を入れ替えた音声を作り、どの音声がどの話者の音声に似ているかを主観評価。F0またはF0・C1を入れ替えたときに、話者性が入れ替わる場合がある。

音声B 歌声

○日本伝統歌唱における“あたり”の生理的・音響的分析と歌声合成への応用(金沢大)
齋藤さん。声区(地声、裏声などの発声様式)の意図的な変換による歌唱法(声区変換)について。ここでは、民謡での声区変換(あたり)の分析・合成。地声と裏声における声帯の振動様式の違い。「あたり」を発声する人の声帯振動を撮影した結果から、声区変換の境界で声帯振動が止まることはなく、連続的に変化をしている。また、音響的な分析により、F0の変化速度が通常音声より速いこと、あたり部分でスペクトル傾斜が急峻だということがわかった。

☆多対多固有声変換に基づく歌声声質変換及び歌声合成を用いた学習データ生成(NAIST/産総研)
このまえSIGMUSで聞いた話だと思う。

ここで会議のため会場を抜ける。うちの加藤君がスクリームの発表をしてたのだが。

音声Bスペシャルセッション「音声が何を伝えているか、もう一度考えてみよう I」

○音声が伝えるものとは(森大毅:宇都宮大学)
藤崎先生による「言語・パラ言語・非言語」の批判と拡張。従来の定義では感情は「非言語」に含まれ、パラ言語には含まれないが、感情にも話者が制御可能なところがあるのではないか。「感情」を「意図的に表出される感情」(パラ言語的)と「心理状態」(非言語的)に分けてはどうか。また、「非言語」が「非音声」と紛らわしく、従来のNon-verbalと対応したりしなかったりしているので、「非言語」という分類をやめ、「話者性」と「心理状態」に分けてしまってはどうか。また、聞き手を考慮した言語によるコミュニケーションのモデル化。
予想通り、藤崎先生と勾坂先生からつっこみが入った。勾坂先生の「分類は研究目的に依存するので統一なんかできない」という主張は、強力なんだけどそれを言ったらなにも始まらなくなるんじゃないのかなあ。森川先生から「萌えを扱うべき」という意見が。

○学術用語としての感情概念の検討:表情研究における感情について(中村真:宇都宮大学)
・感情とは何か。感情の3つの側面(主観的経験・表出行動・生理的反応)
・感情の表出と表示規則(文脈による行動規範のようなもの?)
・感情と情動の定義はこれでいいのか。定義もいろいろあってどちらが上位概念なのかもはっきりしない。
・日本語の概念と英語の概念の関係。emotionとaffect。定義によってどちらが広いのかわからない。
・表情研究における感情について。心理学研究において、表情と感情はどのように結びつけられているか。
・感情カテゴリー研究、感情次元研究
・最近の心理学の感情研究の検索結果。
・今後の課題
        文脈化。論文化に当たり、可能な限り付随条件についての情報を提供する。
        メタ分析による不変項の抽出
・表情とは?「顔」に額まで含めた方が都合がいい
・顔が発する情報
        静的特徴:年齢、性別、人種、健康状態
        動的特徴:意志・思考、性格、表情・気分
・表情に関係した概念の整理
        非言語情報>記号的情報→感情、意図:表情の言語的使用(ポーズ)
             >非記号的情報→心的状態、身体状態、個人性:自発的表出

○発話意図のアノテーションは可能か?談話行為記述に学ぶ(高梨克也:京大)
・「伝える」と「伝わる」の関係。コミュニケーションは話してと聞き手の共同行為。
        話し手と聞き手の「寄与率」のバランス:どの辺にあるのか。
・聞き手を視野に入れることの利点
        聞き手の応答から「何が伝わったか」がわかる。
        談話行為タグの理論的背景:話し手の意図が中心
・(日本)談話行為タグ標準化WG(SIG-SLUD) 90年代後半
        やりとり構造の導入(対話におけるタグの出現順の制約)
        →会話分析と連鎖分析 分析者が参与者の視点に立つ
         聞き手が話し手の発話をどのように理解したかは話し手の応答に現れる
        隣接ペア(2ターンの対話のパターン)
 隣接ペアに基づくタグの種類と出現順序の規定
 対応するペアが規定しがたい発話もある(雑談など)
・問題点
        多人数・マルチモーダルインタラクション
                アドレス・次話者の問題
                マルチモーダルな聞き手行動
                すべての聞き手のすべてのモダリティの反応を認識できるか?
                そのすべてが同様に重要か?
        非言語情報の種類の問題
                伝達意図を伴わないが他者の反応を引き起こす行為
        他者の認知の利用(他者の行動を見て環境を推定する)
                伝達意図に基づくコミュニケーションとは違う
        遡及的連鎖
                後の発話によって前の発話の種類が決まる
        関連性理論
                聞き手による発話の解釈は話し手が符号化したコードの復号ではない
                伝達原理、コミュニケーション
                認知原理
・「伝える」と「伝わる」の境界
・聞き手を視野に入れることのジレンマ

音声Bスペシャルセッション「音声が何を伝えているか、もう一度考えてみよう II」

○音声の韻律的特徴が伝える話者のパーソナリティ印象(大学入試センター)
内田照久先生。人柄の印象を表現する因子(Big five)を使い、韻律的特徴量と性格印象の関係を探る。この手の発表は直前のInterspeechでも見たなあ。話速については、評価指標について最適な話速が異なる。F0変動についても似たような感じ。母音コントラスト(母音五角形の大きさ)はBig fiveへの影響はそれほどでもないが、話し方の印象への影響が大きい。

○話者移行手がかりとしての発話末の音長変化(NII)
発話末の音声の一部を除去して、聞き手が発話末であることをどの程度認知できるかを調べた。実際のタイミングを考えると、聞き手が話し手の最終モーラを聞く前に発話末であることを知覚しているはず。発話末要素(終助詞)がない場合には最終モーラを削除すると反応が遅れるが、発話末要素がある場合には全部聞いた場合と同じ。発話末要素が後続する発話では、発話末要素がなくても「この後に何かが続く」ことがわかる。

○話し言葉におけるモードの違いによる感情の伝わり方の分析(大阪工大)
鈴木基之先生。「発話内容のテキスト」「音声」「音声と文脈や表情」を開示したときにどのような感情が伝達されやすいか似ついて調べた。使用データは映画の中のせりふ。すべての情報を開示しても、感情の伝わる割合は60%弱。その中でも、「恐れ」「嫌悪」はそもそも伝わらない。「悲しみ」と「驚き」は音声だけで伝わる。「喜び」は音声だけでは伝わらず、「悲しみ」に間違うことが多い。「モード」は「モダリティ」が正しいんじゃないだろうか。

○表現豊かな音声の収集における多様性の追求(早稲田大/国語研)
菊池英明先生。次の会場に移動するために途中で抜けたせいで、聞けなかった。

音声A 「言語モデル・自然発話」
☆WebデータとSTDによる未知語推定の検討(東北大)
うちの研究室の佐藤君。認識器の辞書にない単語の中から、認識対象音声に話題的に似ている単語の中から、音声ドキュメントに音響的に出現している可能性のある単語を選び出す。

◎n-gram言語モデルの非負値行列因子分解に基づく動的適応化(NHK技研)
バラエティ番組の生字幕作成のために、番組進行にあわせて言語モデルを動的に適応する。そのための話題モデルに、n-gram確率行列のNMFを使う(GPGPU等で高速に計算できるから)。n-gram確率を直接使うことによって、unigram rescalingが必要ない。短い番組だと効果があるが、長い番組で基底がたくさん必要な場合にはベースラインよりも悪化する。

○講演の音声認識と整形に基づく自動字幕付与(京大)
秋田先生。話し言葉(発言体)と書き言葉(文語体)の文体変換を使って、書き言葉の言語データから話し言葉の言語モデルを学習する用途と、話し言葉で認識された認識結果を整形して書き言葉に近い文体(口語体)に変換する用途に使う。発言体と口語体の変換は統計的変換、文語体と口語体との変換はルールベース。

○会話分析タスクにおける複数人自由会話音声認識の改善(NTT)
堀さん。NTTグループでやっている会議音声の認識で、オフライン認識でできるだけ精度を上げるにはどうするかを追求した。通常の枠組み(HMM識別学習、音源分離+雑音抑圧)に加え、WFST-CRFによるWFST事態の学習、さらにR2D2を使った識別的言語モデルを導入した。さらに話者適応(fMAPLR+SMAPLR)を行う。デコーディングをいくつかの異なる強調音声で行い、最後にコンフュージョンネットワークによる仮説統合で〆る。音声強調なしの精度が17%ぐらいのところ、全部入りで73.3%。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

にわかな奴ほど語りたがる -- あるハッカー

読み込み中...