パスワードを忘れた? アカウント作成
10747354 journal
日記

aitoの日記: 3月10日 音響学会春季研究発表会

日記 by aito

午前-前半(9:30~10:30)[音響特徴量I] 座長 柘植 覚 副座長 篠原 雄介
座長が来られず,代理.

1-4-1 Using Phonetic Context for Continuous Speech Recognition with Invariant Structure
☆張 聡穎(東大・日本IBM),鈴木 雅之,倉田 岳人,西村 雅史(日本IBM),峯松 信明(東大)
構造的特徴を使った連続音声認識の認識候補のリスコアリング.従来は音響モデルとしてモノフォンを仮定していたが,音素コンテキスト依存モデルを利用することを検討.構造的特徴を使うにはすべての音素モデル間の関係を記述しなければならないので,triphoneをそのまま使うと破たんするため,音素コンテキストをクラスタリングして数を減らす.LVCSRタスクでは,音素モデルを90ぐらいまで減らし,文字誤り率で0.2ポイント強改善.

1-4-2 補助関数法による制約付きボルツマンマシンの学習アルゴリズムの検討
☆高宗 典玄,石原 達馬(東大院情報理工),亀岡 弘和(東大院情報理工 / NTT CS 研)
RBMの学習アルゴリズムとして補助関数法による方法を導出.IBIS的内容(実験は生成データなので音声とは関係ない).補助関数法を使うことが従来法と比較してどうよいのかについての原理がよくわからなかった.うまくハイパーパラメータを設定すると,従来法であるCD法よりも収束が速い.

ここで講演取り消しのため15分休憩

1-4-4 音響特徴量を利用した吹き出しテキストの生成
☆松宮 翔,サクティ サクリアニ,ニュービッグ グラム,戸田 智基,中村 哲(奈良先端大)
音声認識結果を使って映像に字幕をつける際に,パラ言語情報を使って吹き出しの形を変えて表示.吹き出し字幕の付与対象はアニメ(ワンピース).吹き出しは通常(丸い)とギザギザの2つを自動分類.特徴抽出にはopenSMILEを利用し,SVMで識別.音響特徴量と言語特徴量を組み合わせることで85%ぐらい吹き出し分類が可能.主観評価もしているが,声が実際に聞こえているのにさらに吹き出し表現を変えることにどの程度意味があるのかなあ.

---

第4会場 スペシャルセッション 音声A/音声B [音声技術と画像・動画処理の接点-基本から適用事例まで-]
1-4-9 (招待講演)コンピュータビジョンの最近の研究動向 ○岡谷 貴之(東北大)
人間の視覚系とコンピュータビジョン.人間の視覚系(背側=空間認知,腹側=物体認知)と合わせたコンピュータでの技術.
・多視点画像からの3次元モデリング.複数画像間の対応点検出(SIFT特徴量など)と,幾何計算による3次元形状の復元.
 応用:写真共有サイト(Flickrなど)の写真から都市の3次元モデルを作る
 AutoDesk(デジカメの画像から3次元モデルを作成するWebサービス)
 次の課題:風景画像からその画像に移っている建物の位置を推定する,など
 市街地時空間モデリング(東日本大震災の被災地の時間的変化を丸ごと記録)
・物体認識:機械学習によりさまざまな対象の認識が可能に
 DNNによる特徴学習:特徴量と識別機を同時に学習する
  畳み込みニューラルネット(ネオコグニトロンの末裔)
 画像特徴の教師なし学習→おばあさん細胞の生成を確認
 腹側皮質視覚路の処理と近い サルの脳と視覚の研究:サルはカテゴリ的な認識が可能
・その他難しい逆問題
 同一物体のセグメンテーション,人間のポーズ推定,表面反射,など(不良設定問題)
 Blind debrurring (ぼけ除去)

1-4-10 (招待講演)映像意味検索技術の最新動向 ○篠田 浩一(東工大)
・コンシューマのビデオデータの問題点(メタデータがない,品質が低い,など)
 テレビや映画のコンテンツ分析と比較して難しい
・音声と映像の共通点:通信モデル,「語彙と文法」
 →生成モデル,確率的方法論,高速な計算
・TRECVIDワークショップ
 データが提供される,技術の比較が可能
 2012年のタスク:Know Item Search, Semantic Indexing, Surveillance Event Detection, Instance Search, Mutimedia Event Detection, etc.
・Semantic Indexing (SIN)
 ショットの中から概念を抽出する(映像,音声)「概念」は346(物体,イベント,シーンなど)
  概念の出現頻度は全く違う
 600時間で学習,200時間で評価
 従来法:Bag of Words (BpW) 特徴量はSIFTとか
 新しいトレンド
  たくさんの特徴を使う,マルチモーダル,キーフレーム以外のフレームも使う,ソフトクラスタリング
  高速化(近似,並列化,GPU)
  思ったより使えなかった特徴:画像全体の特徴,音声認識(概念と関係なかった),文字認識,物体の位置(推定が難しい),概念間のコンテキスト
  篠田先生の研究室での研究:GMM,MAP適応,木構造サーチ(話者認識と類似した技術)
  関連研究:Sparse coding, VLAD(vector of locally aggregated descriptors), Super-vector coding, Fisher kernel
・Multimedia Event Detection (MED)
 複雑なイベントの検出(野球で点を取る,ケーキを作る,等)
 SINの手法をそのまま使っている
 時空間特徴量は強力,音声認識は有効でない
 SINで検出した概念を並べて,それを特徴として認識を行う

1-4-11 (招待講演)コンテンツを見ないコンテンツ内容理解へ向けて-人間行動から読み解くコンテンツ ○木村 昭悟(NTT CS研)
コンテンツを見ない理解:画像と説明があれば,画像そのものがなくても説明からどんな画像かわかる
周辺情報で変容するコンテンツ:画像にキャプションがあると画像の持つ意味が変わることがある
Malcolm SlaneyのIEEE Multimediaでのレビューから
 音楽の類似度:内容に基づく類似度と,ユーザのレーティングに基づく類似度では,レーティングの方が高性能
 映画の推薦:協調フィルタリングのスパースネスを補うのに,内容よりも日付の方が重要だった
 不適切画像のフィルタリング:テキスト,画像,Web上の関係を使うと,Web上の関係に基づくスコアがよい
教訓
 対象コンテンツだけを解析することの危うさ(ある種の文脈ではコンテンツよりメタ情報の方が重要)
 コンテンツが当てにならない場合がある(感性,感情,嗜好などを扱う場合)
 何を頼りにすべきか
  人間の行動,人間が行動する場の構造に着目
コンテンツを見ない内容理解のススメ
 システムを利用する人間の行動観察
 人間の行動解析による付加情報獲得
 獲得した付加情報をコンテンツ解析に使う:コンテンツを深く解析するための弱い教師情報
事例
・画像検索のユーザ行動を画像アノテーションに生かす
 画像検索サーバへのアクセスログのみから画像にラベルを付与
  単に「画像をクリックした」というだけでなく,クリック直前の滞在時間など前後の行動を使う
・SNS画像の有用性を推定
 Pinterestでの"pin"行動から画像集合の類似関係を求める→画像特徴量のためのコーパスとして利用
最後に (Malcolm Slaleyのレビューから)
 コンテンツそのものを無視すべきでないが,周辺情報を無視することも得策ではない
 人間が生み出すシグナルに耳を傾けることが重要

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

UNIXはただ死んだだけでなく、本当にひどい臭いを放ち始めている -- あるソフトウェアエンジニア

読み込み中...