パスワードを忘れた? アカウント作成
11527777 journal
日記

aitoの日記: 8/27 IIH-MSP@北九州まとめ

日記 by aito

8時20分ごろに会場(北九州国際会議場)入り.会議の看板は出ているが,客が誰もいなくてちょっと不安.そのうち関係者がぽつりぽつりと現れる.

9時からオープニング.潘先生他による挨拶.

9時半からキーノート.
Redesigning the Future Mobile Internet The whole world is going mobile
Charles E. Perkins, Senior Principal Engineer at Futurewei
講師はIETFの偉い人(たくさんの会社を渡り歩いて,現在はHuaweiの関連会社所属),
・4Gではもう不十分.すでに通信容量は不足しているが,だからといって顧客は余分にお金を払うわけではない.
・5Gについてさまざまな予測があるが,どのようなものでいつ利用できるのかだれも知らない
・関連技術 LTE advance / LTE-U / 802.11なんとか
・5Gはふつうのユーザの希望となるのか
・異種ネットワーク間のハンドオーバー/小規模セルと周波数再利用による容量増加
・モビリティ・ハンドオーバーのための様々な技術(複数アンカーポイント,セキュリティ,トンネリング)
・WiMAXのアーキテクチャ
・Offload: Wifi利用可能な時はIPトラフィックはWifiに流し,それ以外はモバイルネットワークを流す(VoIPは自動判定)
・IEEE802規格
    802.11ax
    802.21 Media Independent Handover
・IETFの関連技術
    Mobile IP, Proxy Mobile IP, FMIP seamless handover
    netext WG: extensions to PIMP
・未来のインターネットは「全部モバイル」
    LTEはIP mobilityのように単純ではなく,ハンドオーバーも複雑
・DMM: Distributed Mobility Management IPv6のモビリティ管理フレームワーク
    いくつかのケースについて検討(全く動かない,少し動く,高速移動など)
・IoT は「何がインターネットなのか」の認識を変えてきている
・最後に今後の技術動向予測.ちょっと時間がなかった.

Distributed / Multiple Description Image and Video Coding
Professor Yao Zhao, Beijing Jiaotong University, China
・画像・映像符号化の概略
 画像・映像符号化は成熟していて新しい方法開発の余地は少ない→新たな状況のためのアルゴリズム対策(端末の性能が低いとか)
 通信チャネルの性質:到達遅延,パケットロス,高いBER,誤り伝搬
 エンコーダーの計算量:従来法だと大量の計算が必要だがスマホやセンサーなどは(バッテリー容量などにより)計算があまりできない
・MD符号化(MDC)
 MDCの基本的考え方:1つのストリームを2つ以上の記述に分ける
  全部の記述が集まると完全復元,1つだけでもそれなりに復元できる
 MDCのRate-distortion特性 符号化性能は通常の符号化より悪い.個々の記述のデコーディング結果と記述がすべてそろったときのデコーディング結果を両方浴することはできない.
 典型的な手法:サブサンプリング,相関変換/MDSQ, MDVQ
    誤り訂正付MDC (MDC-FEC) 元データとパリティを使ってデータを分割し,記述が集まるほど元データがたくさん復元できるようにする
・分散符号化(DVC)
 通常はエンコードが重く,デコードは軽い/エンコード側で複数フレームの相関を利用してエンコードし,デコーダはそれを復元するだけ
 DVCは複数のデータ(フレーム)を個別にエンコードし,デコード側で相関を利用してデコードする
 Wyner-Ziv理論とそれを利用したエンコーダ.通常のDCTベースのものより良い
・著者らの仕事
 Optimized MDLVQ for image coding: Wavelet変換の相関を利用してスキャン方向を変える.
 冗長マクロブロックに基づくMDC:エラー伝搬を考えて,各マクロブロックの重要性を計算.重要なものを冗長に送信
 MDC with Randomly Offset Quantizer: 複数の記述で量子化間隔をランダムに変える.複数の記述を集めると量子化間隔が狭くなる

昼食の後,午後最初は鳥生先生のセッションを聞く.

13:20~15:10 Session A1: Advanced Multimedia Processing and Retrievals
Session Organizers: Prof. Takashi Toriu and Prof. Hiromitsu Hama

A1-01 "An Image Inpainting Method for Stereoscopic Images Based on Filling Route" by Fang-Hsuan
Cheng and Moo-Di Loo
裸眼3Dのために,片目の映像と深度マップからマルチビュー映像を生成する.このときオクルージョンによって画像が生成できない部分があるので,そこをどう適当に埋めるか.基本的にはimpaintingによって周囲の色を適当に埋めるが,どこの色で埋めたらよいかを深度マップ情報から推定する.画像が欠けている部分(ホール)を3つに分類(gradient, clear-cut, layer),それぞれ違う方略(走査方向)で埋める.分類方法はよくわからなかったがヒューリスティックな気がする.埋め方として,縦方向・横方向・横方向ジグザグ・らせん状などがある.

A1-02 "Retinal projection display using diffractive optical element" by Yasuhiro Takatsuka, Hirofumi
Yabu, Kayo Yoshimoto and Hideya Takahashi
網膜投影ディスプレイ.網膜に画像を投影するには,投影する物体を無限遠に置かなければならない(Maxwellian view).それを実現するのにHOE (holographic optical element)というデバイスを使うが,その代わりにDOE(diffractive optical element)というのを使うらしい.

A1-03 "Three-dimensional light field display with overlaid projection" by Hodaka Yamada, Hirofumi
Yabu, Kayo Yoshimoto and Hideya Takahashi
半円筒レンズを使った裸眼3D.背面からプロジェクタでレンズアレイに画像を投影し,レンズによる結像位置を制御することで3D画像を得る.画像の質を上げるために,プロジェクタの数を増やして結像位置の数を増やす.

A1-04 "Vision-Based Path Learning for Home Robots" by Atsushi Ueno, Natsuki Kajihara, Natsuko Fujii
and Tomohito Takubo
強化学習によるロボットの軌道学習.始点と終点の座標だけが与えられ,カメラ画像だけを使って最適な軌道を発見・学習する.画像からSURFで特徴抽出して,クラスタリングによってvisual wordsを作り,Bag of visual wordsで今見ている画像の特徴を定義する.ロボットにランダムウォークをさせて,目的地に到達する画像特徴のクラス(状態)の重みが大きくなるように強化学習を行う.実験はシミュレーション.現在の画像がどういう状態なのかを認定するときに,「状態」の平均値からのユークリッド距離を使うのが新しいらしい(従来はマハラノビス距離).

A1-05 "A Cluster Based Ranking Framework for Multi-Typed Information Networks" by Pyke Tin,
Takashi Toriu, Thi Thi Zin and Hiromitsu Hama
(抽象的な意味での)ネットワークの分析がテーマらしい.ノードが複数のタイプからなるheterogenious networkが対象.いきなりクラスタリングとか言っているが,何の目的でどういうクラスタリングをするのかがわからなかった.実験では,ICASSP, ISCAS, ICIP, ICRAで発表された論文(の引用ネットワーク?)を対象にしたそうだが,結果は0.5秒ぐらいしか表示されず.

A1-06 "A New Background Subtraction Method using Bivariate Poisson Process" by Thi Thi Zin, Pyke
Tin, Takashi Toriu and Hiromitsu Hama
監視カメラ画像などでの背景画像の統計的モデリング.従来はピクセル値をガウス分布または混合ガウス分布でモデル化していたが,この研究では2次元ポワソン分布でモデル化する.また,これを使って動物体検出を行った.

15:30~17:20 Session B2: Recent Advances in Information Hiding and Enrichment Technologies for Audio and
Speech Signals
Session Organizers: Prof. Masashi Unoki and Prof. Kazuhiro Kondo

B2-01 "Gender-Dependent Babble Maskers Created from Multi-Speaker Speech for Speech Privacy
Protection" by Kazuhiro Kondo and Hiroki Sakurai
音声プライバシーのために,会話の立ち聞きを効率的に邪魔する雑音の研究.音声をもとに雑音を作るが,これまでの研究として,聞かせたくない発話と同じ話者による雑音,性別が同じ別な話者から作った雑音,別な性別から作った雑音などを比較して,同一性別話者から作った雑音が効率的(話者が男性の場合)だった.今回は,ある性別で複数(3名)の音声から作った雑音の有効性を調査.複数名から作った雑音の方が単一話者による雑音よりも効率的に音声をマスクする.雑音に話者自身の声が混ざっているかどうかはそれほど関係ない.

B2-02 "Encoding data by frequency modulation of a high-low siren emitted by an emergency vehicle" by
Akira Nishimura
救急車のサイレン音にデータを埋める.以前園田さんがNICTにいたころに同じことをやっていた.それよりも雑音に強くて埋め込み容量が大きい(12.3bps)方法を使う.基本的にFM変調(FSK)でデータを埋める(高低の各セクションに4シンボル).情報を取り出すときは,まずサイレン音検出をやって,さらにバンドパスフィルタバンクを通すことでデータを復元する.雑音とドップラーシフト,ロングパスエコーを加えてシミュレーション実験を行った.

B2-03 "Robust Audio Information Hiding Based on Stereo Phase Difference in Time-frequency Domain"
by Nobutaka Ono
ステレオ音声へのデータハイディング.右チャネルと左チャネルの位相差に情報を埋める.右チャネルと左チャネルの位相差(角度)を量子化し,そのどれかに強制的に変更する.頑健性のために,同じ情報を異なる周波数領域に何度も埋め込む.また,ところどころにM系列を埋め込み,それを目印にフレームを同期する.うまいパラメータ設定(埋め込み帯域数とか)を設定すると,さまざまな攻撃に頑健.

B2-04 "Secure Speech Encryption System Using Segments for Speech Synthesis" by Minoru Kohata
木幡先生.以前からやっている素片接続音声合成による暗号通信.入力音声と最も似ている音声素片を大規模コーパスから選び,その素片番号をスクランブルして疑似ランダムな素片番号系列にしたうえで,その素片を接続して送る.デコーダーでは入力音声に最も近い素片番号系列を求め,それを逆スクランブルして再度素片を合成することで元音声を得る.

B2-05 "An Audio Watermarking Method Using Pitch-Transformed Sound of Original Music" by Harumi
Murata and Akio Ogihara
高品質オーディオ信号の電子透かしのために,元のオーディオ信号にそれを1オクターブだけピッチシフトしたものを加えるというのだけど,意味が分からない.電子透かしの手法は,STFTのフレーム内の最大振幅要素と,その2倍または0.5倍の要素の間の位相差の情報を埋めるもののようだ.実験では1フレーム=1音だったが,これだと単音にしかデータを埋められないのでは.実験結果は微妙.

B2-06 "Hybrid Speech Watermarking based on Formant Enhancement and Cochlear Delay" by Shengbei
Wang and Masashi Unoki
以前から鵜木先生がやっておられる蝸牛遅延による音声電子透かしの改良.蝸牛遅延による電子透かしと,フォルマント操作による電子透かしの両方を併用する.蝸牛遅延埋め込みによる音声品質劣化が結構激しい気がするが,そんなに品質悪かったっけ?組み合わせ手法の品質は蝸牛遅延のみによる品質とほぼ同じ.組み合わせ手法は蝸牛遅延と比べてG.729エンコードには強いがG.726エンコードには弱い.

このあともう一枠セッションがあるのだが,ミーティングのためここで会場を出る.

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

普通のやつらの下を行け -- バッドノウハウ専門家

読み込み中...