音声ドキュメント処理ワークショップ特別講演まとめ | aitoの日記

aitoの日記：音声ドキュメント処理ワークショップ特別講演まとめ 0

日記 by aito 2011年03月07日 14時03分

13:00-14:00 特別講演 †
「映像内容解析ならびに検索技術の最近の動向　-TRECVIDを中心として-」（佐藤真一教授：国立情報学研究所)
・映像内容解析の必要性
映像コーパスによる内容解析
・TRECVID (2003～)
http://trecvid.nist.gov/
利用映像：ビデオクリップ，TV番組，CCTVなど
タスク：Semantic Indexing, Known-Item Search, Content-based Copy Detection, Surveillance Event Detection,
Instance Search, Event Detection in Internet Multimedia
・Semantic Indexing (SIN)
ショットに写っている物体などに基づくショットの意味分類
ビデオクリップ，人手による正解つき（130種類）Airplane_flying とか Throwing とか．
SIFTなどの局所特徴量による．大量の特徴量を組み合わせたほうが良い．
・Known Item Search (KIS)
映像の文による記述から実物を探すタスク
トピックの言語記述，メタデータの寄与が大きく，視覚情報はほとんど寄与しない
・Multimedia Event Detection (MED)
あるイベントを表現している映像の検出
野球でヒットして得点，ケーキを作っている，テントを張っている，等
検出漏れを重く見るようなスコアリング
・Content-based Copy Detection (CCD)
映像コピー検出（著作権保護，違法映像検出 etc.）
NIIのシステムが世界最速
・Surveillance Event Detection (SED)
Single-person event, Single-person + Object events, Multiple People Events
Queen Mary University of London が PersonRuns で突出してよい成績
学習用の正解データを人手で修正
・Instance Search (INS)
人・場所・ものなどの特定事物（インスタンス）を検出する
Person, Character, Object, Locationの4種
結果
15機関が参加，あまり性能が良くない（性能の中央値はほとんど0%）
顔と物の性能が大きく違う（顔の方が高性能）

aitoの日記：音声ドキュメント処理ワークショップ特別講演まとめ 0

音声ドキュメント処理ワークショップ特別講演まとめ More ログイン

スラド