パスワードを忘れた? アカウント作成
11529494 journal
日記

aitoの日記: 8/28 IIH-MSP@北九州まとめ

日記 by aito

Keynote 3:
Tracing back the processing history of multimedia content
Professor Alessandro Piva
University of Florence, Italy
私が座長.8時半スタートだったのだが,客が集まらなくて10分遅れでスタート.
・テーマは「ビデオの処理履歴の追跡」.最初の例では,高圧縮ビデオをリサンプルして高品質コーデックにする(しかしビデオの品質は高くならない)とか.そのような処理履歴をどうやって知ることができるか.基本的な考え方としては,処理の際に生じるアーティファクトを手掛かり(フットプリント)として処理を推定する.
・撮影時のフットプリント.デジタルカメラで撮影するときには,集めた光をRGBのフィルタに通した後で補間(demosaicking)をすることで得られる.その処理にメーカーや機種による差があるので,撮影したカメラがわかる.
・符号化のフットプリント
・編集のフットプリント.さまざまな画像処理
・処理チェーン.さまざまな処理を順番に行う.Homogenious(トランスコードなど)とheterogenious(異なる処理を順番に適用)がある.これらの検出(処理されたことを知る)と推定(どのような処理が行われたか)がある.
・Homogenious chains (JPEG/MPEG/MP3)
・JPEGの場合.DCT係数を量子化するので,DCT係数のヒストグラムを見ると量子化ステップの整数倍にだけ値がある.2回JPEG圧縮をした時に,量子化が違っていたり,DCTブロックがずれているとそれがわかる.(ヒストグラムの頻度に2つの量子化ステップに依存した周期が現れ,ブロックがずれているとヒストグラムに周期が見られなくなる).そこで,JPEGをデコードした後に別な画像を張り付けてもう一度JPEG圧縮すると,場所によってJPEG圧縮回数が違うので,編集されたことがわかる.
→あるブロックが編集されたかどうかをベイズ推定で当てる
→DCTブロックがずれたかどうか(トリミングされたかどうか)を当てる
・2つのJPEG圧縮の間にほかの処理が入っていた場合(今回はコントラスト補正).コントラストを補正すると,DCT係数のヒストグラムが持つ周期が変化する(ピクセル値の分布が変わるため).コントラスト補正の検出としては,元のDCTヒストグラムと,JPEGブロックのアラインメントをちょっと変えたときのDCT係数のヒストグラム(もう少しなめらかな分布になる)との類似度を使う.
・オーディオ・ビデオの場合.MPEGの場合はJPEGと類似(二重量子化の検出).Iフレームの圧縮はJPEGとほぼ同じなのでJPEGの方法が使えるが,どのフレームがIフレームになるかは再エンコードした時にはわからない.そこで,再エンコードされた各マクロブロックが,前のエンコードでどのようなブロックだったのかを推定する.

9:20-10:10
Keynote 4
Security and privacy challenges at border between cyber and physical worlds
Professor Isao Echizen
National Institute of Informatics, Japan
・あらゆるシーンで実世界の情報がキャプチャされてサイバー世界にアップロードされる.それに伴うプライバシーや著作権の問題.
 例:映画泥棒.人気映画は封切り後2週間ぐらいでビデオ共有サイトに海賊版が出回る.
 例:ディスプレイキャプチャ.PCのディスプレイを撮影することで情報が漏えい.
・いったん実世界を通してキャプチャされるとDRMは役に立たない
・IR Hiding: 撮像デバイスには写るが人間には知覚されない信号を使う
 近赤外線(near-infrared)LEDを使う
 人間の視覚はは10Hz付近の時間変化に敏感(Bartley effect)なので,10Hzの信号を使う
 この技術のニュースリリース,ニュース映像を流す.映画泥棒の映像も流れる.
 IRカットフィルタへの対策.IRカットフィルタは赤外線を選択的に反射するので,IRカットフィルタがどの席で使われているかがわかる.
・ディスプレイ撮影への対策
 iCabinet.ハーフミラーでディスプレイ映像とIR信号を混ぜる.
 より小さいデバイスとして,LCDバックライトを使った薄いデバイスを開発.
・顔画像撮影への対策
 デジタルカメラによる(意図しない)顔撮影→顔認識(Facebookなど)→プライバシー侵害
 撮影された映像からの顔検出(Viola-Jones)を邪魔する信号をIR-LEDで放出する装置(プライバシーバイザー),目の上と鼻の部分にLEDが仕込まれていて,Viola-Jonesで使うHaar-like特徴を攪乱する.
 顔検出実験.何もしないと,20m以上離れた顔も普通のデジタルカメラ画像から検出できる.
 現在はLEDを使わずメガネの反射特性だけを使ったプライバシーバイザーを開発中.レンズ部分が網みたいなものでできた白いメガネ

10:30~12:00 Session D1: Signal Processing Methods for Music Information Retrieval in the Future Internet
Session Organizers: Prof. Kyogu Lee and Prof. Akinori Ito
次は私がCo-Organizerのセッション.

D1-01 "A Singing Voice Synthesizer Controlled by Arm Motions Using Compressed Phoneme Determination Algorithm" by Masashi Ito, Tomohiro Ashina and Yujiro Saegusa
腕の動きで歌声合成をする一連の研究の一つ.このシステムでは発音する母音を手の回転角度で指定するが,回転角の遷移と母音のフォルマント遷移が対応していないために不自然な発音系列になる.そこで.現在の回転角ではなく,回転角と角速度から予測される最終回転角度から発音母音を推定する.

D1-02 "Analysis of English Pronunciation of Singing Voices Sung by Japanese Speakers" by Kazumichi
Yoshida, Takashi Nose and Akinori Ito
当研究室の吉田君が発表.日本人による英語歌唱の発音評価.自動評価が目標だが,今回は英語ネイティブ話者による評定の分析結果を発表.歌唱音声に特に起きやすい発音誤りの分析(語末子音の脱落など)と,英語ネイティブ話者/日本語ネイティブ話者による評定の一貫性の分析.日本人による英語歌唱音声の評定は日本人同士でも一貫性がなく信頼できない.また,歌唱経験者は歌唱音声の発音が未経験者に比べて良い.

D1-03 "Assessing the Intended Enthusiasm of Singing Voice Using Energy Variance" by Akinori Ito
私の発表.音声パワーの平均・分散のセグメントごとの平均と分散から,どのぐらい歌唱者が熱唱するつもりかを当てる.性能72%ぐらい.

D1-04 "Transcribing Frequency Modulated Musical Expressions from Polyphonic Music using HMM
Constrained Shift Invariant PLCA" by Dooyong Sung and Kyogu Lee
複数楽器による音楽信号からの音楽表現(ビブラート,グリッサンド)推定.PLCA(Probabilistic Latent Component Analysis)はNMFの確率版みたいなやつ.SI-PLCAは信号を基底・シフト・アクティベーションに分解する.アクティベーションをHMMで制約することで音符を切り出す.表現に対応する.まだ識別まではいってない.

D1-05 "On-line Nonnegative Matrix Factorization for Music Signal Separation" by Seokjin Lee
NMFのオンラインアルゴリズム.式展開が完全には追えなかった.ある時間までの計算結果が,次のフレームでの計算結果に反映できる漸化式を導出しているようだ.応用としてモノラル信号から多チャネル信号を作る課題を扱っている.

D1-06 "Melody Extraction for Vocal Polyphonic Music Based on Bayesian Framework" by Liming Song,
Ming Li, Yonghong Yan
No Show.

13:30~15:20 Session E1: Technologies for Speech Communication in the future Internet
Session Organizers: Prof. Yonghong Yan, Prof. Nam Soo Kim and and Prof. Masato Akagi

E1-01 "Emotional Speech Recognition and Synthesis in Multiple Languages Toward Affective Speech-to-Speech Translation System" by Masato AKAGI, Xiao HAN, Reda ELBAROUGY, Yasuhiro HAMADA and Junfeng LI
音声翻訳に感情認識合成をいれる試み.そのための多言語感情音声認識・合成について.感情を3層モデルで表現(音響信号→プリミティブ→感情).感情はactivation-valenceの2次元.

E1-02 "Quantized F0 Context and Its Applications to Speech Synthesis, Speech Coding and Voice Conversion" by Takashi Nose and Takao Kobayashi
F0の値を量子化して教師なしでシンボル化し,その系列をコンテキストとして使う.応用は音声合成と音声符号化(認識合成によるボコーダ).

E1-03 "Voice Activity Detection based on Statistical Model Employing Deep Neural Network" by Inyoung Hwang and Joon-Hyuk Chang
DBNによる音声切り出し.全体的に従来法(ふつうの方法とSVM)よりもよいが,雑音が大きい場合,衝撃音が支配的な場合,未知の雑音の場合などで特に性能が上がる.

E1-04 "Speaker adaptation using nonlinear regression techniques for HMM-based speech synthesis" by Doo Hwa Hong, Shin Jae Kang, Joun Yeop Lee and Nam Soo Kim
HMM音声合成の話者適応に線形回帰ではなくカーネル回帰の一種MPLKR(Maximum Penalized Likelihood Kernel Regression) を使う.ガウシアンカーネルを使った時にMLLRよりもほのかに改善.

E1-05 "Boosted Hybrid DNN/HMM System Based on Correlation-Generated Targets" by Mengzhe Chen, Qingqing Zhang, Jielin Pan and Yonghong Yan
代読.DNN-HMMの話だが,1999年に3層NNでいまいちだった方法のリベンジらしい.方法がよく理解できなかったが,HMMの状態間の相関(何の?)を見て,似ているものを共有するという話のような?

E1-06 "Enhanced Out of Vocabulary Word Detection Using Local Acoustic Information" by Xuyang Wang, Ta Li, Pengyuan Zhang, Jielin Pan and Yonghong Yan
STDの話.Confusion networkでインデックスされた音声文書の検索.OOVがあった場合にサブワードで探索するのだが,その時に言語スコアを無視して音響スコアだけを使うという話?よくわからない.

15:40~17:10 Session F1: 3D Spatial Audio Technologies in the Future Internet
Session Organizers: Prof. Yoiti Suzuki, Prof. Li Junfeng and Prof. Seong-Cheol Kim
F1-01 "Virtual Auditory Display by Remote Rendering Via Computer Network" by Yukio Iwaya, Makoto Otani, Takao Tsuchiya and Junfeng Li
岩谷先生.ネットワーク越しにデータが転送できる仮想音響ディスプレイ(ヘッドホン利用).リモートで音源にHRTFを畳み込み,アンドロイド端末で再生.通信はHTTP.条件によってはリモートで畳み込んだ方がローカルより速い(マシンが速いので).全体としてはローカルでレンダリングした場合と同程度.

F1-02 "Effect of Interaural difference for localization of spatially segregated sound" by Daisuke Morikawa
ITD・ILDの違いと「音源が分離できるかどうか」を調べた基礎的な研究.ホワイトノイズの音源2個を異なるILD・ITDで呈示して,音源の数を答えさせるタスク.音像が離れれば離れるほどよい,というものでもないらしい.左右に同程度離れているより,中心ともう片側に離れている方が分離がよい.

F1-03 "Representation of individual HRTFs using weighting coefficients of SENZI" by Shuichi Sakamoto, Yoshiki Satou, Jorge Trevino and Yoiti Suzuki
SENZIは球の上にマイクロフォンが250個ぐらい張り付いている集音装置.ここで録音した多チャネル信号を重みづけして加えることで,HRTFを畳み込むのと同じ効果を得る.この時のマイクロフォンへの重み係数を見るとHRTFそのものより単純なので,重み係数の方をHRTFの個人性の表現として使おうという提案.また係数を球面調和関数ドメインで表現.

F1-04 "Feasibility Study for Objective Measurement on Sound Localization Using Auditory Evoked Potential" by Chan Jun Chun, Seok Hee Jeong, Jong Won Shin, Hong Kook Kim and Jin Ah Kang
音源定位の客観評価(機械が音源定位するのではなく,人間がどう音源定位しているかを機械的に測る)の提案.被験者にさまざまな方向からの音を聞かせて脳波を測り,それを周波数分析した.その結果α波に近い領域(8~10Hz)にピークが見られた.その他,どの方向から音を聞かせるとどの位置のどの周波数に影響があるか,など.

F1-05 "Auralization of musical instruments in virtual halls considering source directivity" by Park Kyoungsoo, Jeong-Hun Seo, Kim JeungHun and Cheon Sung Jun
発表時に大掛かりなデモをやって大変そうだった.仮想コンサートホールの話.ホールの室伝達関数だけでなく,各楽器の音響放射特性も関係する.各楽器を平面上の包囲型マイクで録音し,包囲型スピーカーで再生.ソウル大のホールの伝達関数を畳み込んだもののデモがあった.後で聞いたら,この時持ち込んだスピーカーからアンプまで全部自作なのだそうだ.

F1-06 "On the Performance and Robustness of Crosstalk Cancelation with Multiple Loudspeakers" by Xing Yang, Risheng Xia, Zhonghua Fu, Junfeng Li, Yonghong Yan, Shuichi Sakamoto and Yoiti Suzuki
トランスオーラル再生のためのクロストークキャンセル.スピーカー2個でキャンセルする方法と3個でキャンセルする方法の定量評価.(当然だが)3個でキャンセルしたほうが性能がよく安定性もよい.

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

ハッカーとクラッカーの違い。大してないと思います -- あるアレゲ

読み込み中...