パスワードを忘れた? アカウント作成
2103631 journal
日記

aitoの日記: EMM研究会@大阪大学 まとめ

日記 by aito

2012/03/16 09:34

・情報ハイディングと画質改善法を用いたJPEGカラー画像の圧縮効率の改善(九工大)
間に合わなくて聞けなかった。JPEGのカラー情報を濃淡画像に埋め込み、それを読める人だけがカラー画像を復元できるという枠組みらしい。

・副音響信号のハイディング機能を持たせた音楽電子透かし技術“ゲンコーダMark for COPY PROTECT”(第日本印刷)
茂出木さん。冒頭に著作権管理と電子透かしのわりと丁寧なレビューがあった。前回の提案はアナログ録音すると雑音が聞こえる電子透かしだったが、今回は折り返し歪みを利用して、ダウンサンプリングすると雑音が聞こえるという方法。アンチエイリアシングフィルタに対応するため、フィルタであまり減衰しない領域しない(fs/4付近)で折り返し先の信号をキャンセルするような信号を入れておいて、元信号を減衰させた上で雑音を発生させる。実際問題としてどの程度うまくいくのかなあというのが感想。

・音声合成を用いた秘話通信方式(千葉工大)
木幡先生。コーパスベースの素片接続型音声合成を使った秘話通信。どの素片を選ぶかの情報をシャッフルする事で秘話化する。送信側では正しい素片番号を暗号鍵によってシャッフルして、その番号によって合成された音声を送る。受信側ではOnePass DPマッチングによって音声から素片番号をデコードし、番号系列を暗号鍵によって元に戻した上で再合成する。ただしパターンが似た素片があるとデコード時に間違うので、似た素片をあらかじめ間引く。効率的に素片を間引く方法(Void chain法)を提案した。これはGreedyなやりかたで近い素片を間引いていく方法。実験に使った合成器はXIMERA。素片番号をデータとして送信するというアイデアと、コードを使って素片合成して音声に見せかけるというアイデアは独立なので、「画像なのに音声に見せる」みたいなことが可能だなあと思った。

・デジタル画像取引システムにおけるプライバシ保護と著作権管理のための画像分割の一手法(京大)
デジタルコンテンツ(ここでは画像)の取引方法。基本的な方法(Semi-blind Fingerprinting, Okada et al. 2009)では、購入者と販売者(CP)以外に第三者機関(TTP)が取引に関与し、ユーザ情報と透かし情報の管理を行う。買ったコンテンツの情報はCPだけ、個人情報はTTPだけが知っていて、「誰がなにを買ったか」を知っている人が購入者以外にいないというのがポイント。この方法では、画像の一部をTTPに渡して透かしの埋め込みを行うが、画像によっては何を買ったかがTTPに漏れてしまう。そこで、saliency mapを使って、saliencyが高い領域ができるだけバラバラになるように分割する。TTPに漏れては困る情報がある可能性がsaliency mapによってうまく推定できるのかどうか疑問に思った。

・結託耐性を有する観察者の権限に応じたプライバシー保護映像の配信方法(阪大)
馬場口研。監視カメラに対するプライバシー保護。撮影映像の一部(人物部分)にモザイクなどの処理をして、観察者に応じて復元するPriServの改良。撮影映像を背景情報と被写体情報に分け、被写体情報を離散ウェーブレット変換して背景情報に埋め込む。埋め込み情報のどこを復号できるかによって、被写体情報がエッジだけになったりモザイクになったりする。今回の発表では、エッジだけ再生できる人とモザイクだけ再生できる人が結託すると完全な被写体映像を復元できてしまう問題に対処。エッジ情報として利用できる情報を限定することで完全な被写体情報の復元を不可能にする。そもそもPriServのようなサービスがどのようなところで有効なのかについての質問があった。

・可逆的情報ハイディングを利用したJPEG画像のプライバシー保護(九工大)
写真に意図せず写りこんでしまった人のプライバシー保護と、Exif情報の秘匿を兼ねた方法。プライバシー保護をすべき領域を決めたら、そこに可逆電子透かし手法によってExif情報を埋め込む。透かし手法はImproved Capacity Reversible Watermark。現画像の閲覧可能なユーザは、透かし情報を取り出して画像をもとに戻すことで、現画像とそのExif情報を復元できる。対象がJPEGなので、埋込み対象は画素ではなく、各ブロックのDCT係数。この場合、情報を埋め込んだ領域はできるだけ劣化したほうが良いので、既存の可逆電子透かしを使うのは良くないんじゃないかなあ。

・[特別講演]感動評価尺度による音楽コンテンツの価値評価(NHK)
NHK技研の大出さんによる、NHK高臨場感音響システムのおはなし。
超臨場感システム:超高臨場感(その場にいるような感覚の再現)と超越臨場感(その場にいる以上の深い感動や理解)
スーパーハイビジョン映像:人の臨場感は画角100度ぐらいで飽和する。それを実現するために7680×4320pxぐらいの解像度
スーパーハイビジョン音響:22.2chマルチチャネル音響方式
        22.2chはどうやって決まったか:聴取者の周りに配置した24個のスピーカから間引いていくと、6~8個まで間引いてもわからない
高臨場感音響システムの評価:どういう音ならより放送を楽しめるのか。
        音の表現:音自体の評価が主で、それによる聴取者の感情はあまり考えていなかった
        展示会に見る音の良さ:AVフェスタとインターナショナルオーディオショーでの評価の違い
                システム(サラウンド vs. 2チャネルステレオ)、音楽ジャンル(ポップス vs. クラシック・ジャズ)
                再生システムとコンテンツには相性がある?
        アンプの価格の違いと「音の良さ」評価(STEREO誌 2006.3):生音感→空間の広がり→包み込まれる→何か
「感動」という観点から音を評価
        感動する音⇔音の印象⇔音の特徴量
感動について
        「感動」とは
                「感動」とは良いことにしか使わない(戸梶 2001) 感情の軸とは違う
        感動は5兆円のマーケット
        感動喚起のメカニズム
                戸梶(2001) 高関与状態
                茂木(2007) 1回性、場の共有
        感動には種類がある
                感動を表現する言葉:静的「ジーン」動的「ドキドキ、ウキウキ」
                感動の分類:喜び/悲しみ/驚き(戸梶2001)、鳥肌/高揚/切なさ(安田他2005)
        感動に関するアンケート調査
                対象(音楽が)+特徴(美しく)+感情(切なくて)+程度(思わず)+心の動き(ジーンとした)
        感動の類似度の測定
                ある感動語と別な感動語の主観的な類似度をベクトル表現→クラスタリング→経験的な分類とおよそ対応
評価実験
        音楽の印象評価
                音楽の印象語と感動語の類似:似ている場合もあるが、感動の高さとは必ずしも一致しない
                音の印象として良くても感動は低い場合がある
                同じ曲に対して感動する人としない人を比較すると、音の印象はよく似ているが、感動語の評価は大きく違う
                印象語に価値判断が含まれる(「迫力がある」vs. 「騒々しい」など)
                反意表現による評価値の差:例えば「音が大きいか小さいか」と「良いか悪いか」
                音楽の感情価と音の印象の組み合わせによって感動の度合いがわかる
音の差によって感動は促進されるのか
        音の広がりと感動
                広がり感を両耳間相互相関によってコントロールした
                リアルタイムの「感動」と「音の評価」を収集して分析
                感動の度合いの差は楽曲の後半で顕著(長いコンテンツで比較する必要がある)
感動メーターの試作
        10種類の音響物理量→重回帰による予測

・SIFT特徴点を用いた幾何学的攻撃に耐性のある静止画像向け電子透かしの研究(電通大)
SIFTに基づく特徴点を使うことで、拡大縮小回転などの攻撃に耐性のある電子透かしの提案。SIFT特徴点を検出し、その周辺の正方領域に情報を埋める。埋込み手法はQIM。従来手法(詳細不明)よりも画質の劣化が少なく攻撃耐性が高い。全体として従来法と比較してどういう部分にアドバンテージがあるのかよくわからなかった。

・スペクトル拡散型電子透かしにおける焼きなまし法による復号の性能評価(山口大)
電子透かしの復号。スペクトル拡散符号の複合には観測信号と拡散符号の畳み込みを使うが、複数ビットを重ねて符号化した場合には、符号間の干渉によって復号が難しい。メッセージから信号への変換を確率過程として、尤度最大の符号を推定する。このとき、複数ビットの最適な組み合わせの探索方法としてSimulated Annealingを使う。この時のアニーリングスケジュールを調べた。ずっと温度一定、高温から零度まで低下、高温からある低温>0まで低下の3種類を試して、有限な温度で止めたほうがよいことがわかった。

・動画中の物体の移動量に着目したなめらかな動画短縮手法(中京大)
ビデオの高速再生。一律に高速再生するのではなく、画面の動きの激しさに応じて再生倍率を適応的に変える。ブロックマッチングでオプティカルフローを求め、動きベクトルをnearest-neighbor法でクラスタリングして動きを領域に分ける。距離は動きの方向と大きさで定義する。クラスタから移動物体とその動きベクトルを求め,フレームの動きの激しさを算出する。動きが小さいときはフレームを大きく間引き、大きいときはあまり間引かない。また、再生速度が急に変化しないように、1秒の移動平均で再生速度を平滑化する。サンプルは猫動画。質疑の中で、音声はどうするんだという意見が西村明先生から出た。私もそう思う。

・標本化周波数の変更によるオーディオトリックアートの可能性(北大)
青木先生のオーディオトリックアートシリーズ。8kHzサンプリングされた4kHzまでの音と、196kHzサンプリングされた4kHzまでの音を(196kHzサンプリングだと解釈して)足し合わせると、再生時サンプリング周波数によって違う音が再生される。何に役立つかわからないが面白い。質疑も盛り上がった。こういう発表にみんなが乗ってコメントする研究会っていいよね。

・色時間変調を用いたアンビエントコード(豊橋技科大)
QRコードのようなタグを動画に埋め込む方法。見ればタグがあることはわかるが、見た目上あまり気にならないというのが目標。画像の一部の青色プレーンにQRコード風のパターンを挿入し、その変調パターンで1/0を決める。場合によってはほとんど目立たないのだが、目立たないように埋め込むと検出率も落ちてしまう。本格的な検討はこれからという印象。

・組み込み機器における効果的な情報ハイディング手法の検討(立命館大)
ウェーブレット変換に基づく電子透かしなのだが、「マックスプラス代数系に基づくモルフォロジカルウェーブレット」(MWT)を使う。積和演算が加算と最大値演算に置き換えられるので組み込み機器に向いている。Haarに比べて1/30、DCTに比べて1/3000ぐらいの演算量。ウェーブレット変換した高周波領域にデータを埋込む。手法はLSB置換。埋込み画像の品質はDCTより悪いが、整数演算しか使わないので丸め誤差が出ないのが利点。周波数ドメインでなく単にLSB置換をした場合とどの程度違うのかが気になった。MWTは面白そうなのでちょっと使ってみたいな。IntDCTとどう違うの、という質問があった。そりゃそうだ。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

UNIXはただ死んだだけでなく、本当にひどい臭いを放ち始めている -- あるソフトウェアエンジニア

読み込み中...