パスワードを忘れた? アカウント作成
11530163 journal
日記

aitoの日記: 8/29 A3 foresight program workshop@北九州まとめ

日記 by aito

Seoul National University Session (1)

Il-Young Jeong
Vocal separation from monaural music using Schatten p-/lp- norm RPCA
歌唱を含むモノラル音楽信号を歌唱と伴奏に分離する.RPCAはRobust PCAの略で,相関行列を低ランク行列とスパース行列の和に分解してPCAをかける方法のようだ.提案法はこれを一般化した方法のようだが,数学的には十分ついていけない.通常の伴奏のスペクトログラムは水平・垂直な線からなっていて,行列としては単純な形になっているので,行列を思い切り圧縮した後で残差を取ると複雑な形の部分(ボーカル)だけが残るという原理.RPCAでL1/L2 normを使っているところをShatten p-normに変えてpの値を振ってみたら少し性能が上がった.

Kang Hyun Lee
Enhanced IMM-based Feature Compensation using DNN
加法性雑音に対する音声認識の特徴補償.IMM-based feature compensationは雑音を複数のカルマンフィルタで予測しながら,それを除去する線形フィルタをかけ続ける手法のようだ.複数のカルマンフィルタからの出力を混合し,混合したスペクトルが最もクリーン音声に近くなるように混合比を決める.「クリーン音声との近さ」の評価はGMM.提案手法では,GMMの部分をDNNに変えてみた.全体に性能が改善するが,条件によっては非常によく効く.

JAIST Session
Yasuhiro Hamada, Elbarougy Reda Elsaid and Masato Akagi
Presenter: Yasuhiro Hamada ( PhD Candidate)
Emotional Speech Synthesis Based on the Position of Emotional State in Valence-Activation Space
感情の2次元平面(valence-activation)上の点を指定し,無表情な入力音声に感情を付加する.STRAIGHTで分析して得られた21種類の音響特徴(詳細不明)について,感情空間上の点との線形回帰を行う.そのモデルを使って音響特徴を変換して音声を再合成.主幹評価実験の結果,sadな音声の自然性が低かった.感情の知覚については,おおむね意図通りではあるが,程度は予定よりも小さい.合成に問題があるのか,評価者の点数づけに問題があるのかはっきりしない.

Jessada Karnjana and Masashi Unoki Presenter: Jessada Karnjana ( PhD Candidate)
An Audio Watermarking Scheme based on Singular-Spectrum Analysis
入力音声をSVDによって分解し,特異値をいじって音に戻すことで情報を埋める.波形を直接SVDで分解すると,フーリエ変換に似たような波形の細かさごとの分解が行われる.それで,次数の大きい方の特異値の領域を選んで,最大値と最小値のどっちかに特異値を変えてしまう.MP3攻撃などに対しては頑健.

Tohoku Univ. Tohoku Gakuin Univ. Session
Shoya Yarimizu and Yukio Iwaya
Presenter: Shoya Yarimizu ( Master’s course student)
Perceptional evaluation of virtual sound fields different in threshold frequency of the spatial aliasing
包囲型マイクロフォンアレイによる音場再現では高周波領域で空間的エイリアシングの影響が避けられないが,どのくらいの周波数まで空間的エイリアシングがあると聴覚的に問題なのかを主観評価によって調べた.音は全部シミュレーションで作ってHRTFを畳み込んでバイノーラル呈示.ABX試験で違いを調べてd'を計算したところ,エイリアシングが起きない上限周波数1kHzと2kHzはオリジナルと違うが,4kHz以上は区別できない.

Yu Bi, Takashi Nose, and Akinori Ito
Presenter: Yu Bi ( Master’s course student)
HMM-based style control of synthetic speech using facial features
うちの研究室の畢君が発表.HMM音声合成の感情制御を顔画像からやろうという試み.Kinectで取った顔の特徴をPCAで圧縮し,直接重回帰HSMMに突っ込んで学習する.楽しい顔を見せると楽しい感じの音声が合成されるというわけだが,研究的にはまだまだ.

Zeyu Hao, Takashi Nose, and Akinori Ito
Presenter: Zeyu Hao ( Master’s course student)
Investigation of language dependence of singing enthusiasm
熱唱度が言語依存かどうかの調査.「雪の華」の日本語版と中国語版を十数人の素人に歌わせ,それを評価した時に評価者の母語と歌唱言語によって熱唱度評価に差が出るかどうかを見た.中国人が中国語の歌を評価した時の方が,中国人が日本語の歌を評価した時の方が評価の一貫性が下がる.

Chinese Academy of Sciences Session
Ji Xu
Coalescence Type based Confidence Warping for Agglutinative Language Keyword Spotting
膠着語の音声認識というのだが,何語がターゲットで何が問題なのかさっぱりわからん(質問したところ韓国語だそうだ).キーワードスポッティングの時に,信頼度を基準として単語検出を行うが,短い形態素は湧き出しが多いので信頼度を変換してから検出するという話のような気がする.

Xin Li
Subword-based Speech Recognition and Spoken Term Detection for Uyghur
ウイグル語の音声認識.ウイグル語は膠着語なので単語の認定が難しい.10万弱の語に対し,教師なし形態素分割を行う.それをつかって音声認識システムを構成した.「単語」を単位とした場合よりも,形態素や教師なし分割単位を使ったほうがやや性能がよい.同様にSTDをやった場合には形態素のほうが教師なし分割単位よりも高い性能.

Seoul National University Session (2)
Soo Hyun Bae
Acoustic event classification in the office environment
オフィスでの音響イベント検出.特徴量はMFCC+Δ+ΔΔ+ZCC+spectral flux+etc.で,識別はSVM.多クラス識別のために,すべてのクラス間のSVMを学習する.また,何段階かで識別を行い,段階ごとに特徴量を変えるらしい.検出するのはコック,ドア音,拍手,咳,電話など.GMMよりも1%ほど良い.

Ji Won Choi
Modeling Human body effects for acoustic channels
音場再生で再生時に(元の音場にはいない)人間がいることの効果.無線通信では人間の体をモデル化して(円筒形の導体として)扱っている.そこでこの研究でも音場の人間の影響を調べた.

Tohoku Univ. Session
Shu Kitajima, William Martens, Shuichi Sakamoto and Yoiti Suzuki
Presenter: Shu Kitajima ( Master’s course student)
Sound localization of vowel sounds with different formant frequencies
母音を刺激に使った音源定位実験.2つの母音を前や後ろから(仮想音響ディスプレイを使って)呈示して,方向を答えるタスク.2つの母音をどう方向から提示したとき,片方が/e/の場合に逆方向に知覚しやすい.理由はまだ不明.

Shun Torai, Tomoko Ohtani, Shuichi Sakamoto and Yoiti Suzuki
Presenter: Shun Trai ( Master’s course student)
Influence of irrelevant speech movie presentation on serial recall tasks
数字発話を聞いてあとから思い出すタスクで,しゃべる内容と違う発話動画を見せるとタスクのパフォーマンスがどう変わるか.ターゲットの音声に関係ない音声をかぶせて,さらに「数字の発話映像」を見せた場合と「関係ない音声の発話映像」を見せた場合の比較.音声がかぶることでタスクの性能は下がるが,映像を見せることによる影響は見られなかった.

Tomori Miyashita, Zhenglie Cui, Shuichi Sakamoto and Yoiti Suzuki
Presenter: Tomonori Miyashita ( Master’s course student)
Effects of inter-word pauses on speech intelligibility of four-continuous-words under long-path echo condition
防災無線でロングパスエコーによる聞き取りの悪化を防ぐため,単語間にポーズを入れる(エコーがポーズと重なって直接音との重なりが小さくなる)という提案.さまざまな遅延に対してポーズの長さをいろいろ変えたが,聞き取りの良さには統計的有意性はない.

Arif Herusetyo Wicaksono, Jorge Trevino, Shuichi Sakamoto and Yoiti Suzuki
Presenter: Arif Herusetyo Wicaksono ( Master’s course student)
Analyzing redundancies of spherical microphone array recording with crosscorrelation
球形マイクロフォンアレイSENZIの信号圧縮のための基礎検討.200チャンネル以上ある入力信号の間にどのような相関があるか調べた.数百ヘルツぐらいまでは隣接チャネル間の相関が比較的高いが,それ以上だと相関は低い,

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

ハッカーとクラッカーの違い。大してないと思います -- あるアレゲ

読み込み中...