aitoの日記: 音声ドキュメント処理ワークショップ特別講演まとめ
日記 by
aito
13:00-14:00 特別講演 †
「映像内容解析ならびに検索技術の最近の動向 -TRECVIDを中心として-」(佐藤真一教授:国立情報学研究所)
・映像内容解析の必要性
映像コーパスによる内容解析
・TRECVID (2003~)
http://trecvid.nist.gov/
利用映像:ビデオクリップ,TV番組,CCTVなど
タスク:Semantic Indexing, Known-Item Search, Content-based Copy Detection, Surveillance Event Detection,
Instance Search, Event Detection in Internet Multimedia
・Semantic Indexing (SIN)
ショットに写っている物体などに基づくショットの意味分類
ビデオクリップ,人手による正解つき(130種類)Airplane_flying とか Throwing とか.
SIFTなどの局所特徴量による.大量の特徴量を組み合わせたほうが良い.
・Known Item Search (KIS)
映像の文による記述から実物を探すタスク
トピックの言語記述,メタデータの寄与が大きく,視覚情報はほとんど寄与しない
・Multimedia Event Detection (MED)
あるイベントを表現している映像の検出
野球でヒットして得点,ケーキを作っている,テントを張っている,等
検出漏れを重く見るようなスコアリング
・Content-based Copy Detection (CCD)
映像コピー検出(著作権保護,違法映像検出 etc.)
NIIのシステムが世界最速
・Surveillance Event Detection (SED)
Single-person event, Single-person + Object events, Multiple People Events
Queen Mary University of London が PersonRuns で突出してよい成績
学習用の正解データを人手で修正
・Instance Search (INS)
人・場所・ものなどの特定事物(インスタンス)を検出する
Person, Character, Object, Locationの4種
結果
15機関が参加,あまり性能が良くない(性能の中央値はほとんど0%)
顔と物の性能が大きく違う(顔の方が高性能)
「映像内容解析ならびに検索技術の最近の動向 -TRECVIDを中心として-」(佐藤真一教授:国立情報学研究所)
・映像内容解析の必要性
映像コーパスによる内容解析
・TRECVID (2003~)
http://trecvid.nist.gov/
利用映像:ビデオクリップ,TV番組,CCTVなど
タスク:Semantic Indexing, Known-Item Search, Content-based Copy Detection, Surveillance Event Detection,
Instance Search, Event Detection in Internet Multimedia
・Semantic Indexing (SIN)
ショットに写っている物体などに基づくショットの意味分類
ビデオクリップ,人手による正解つき(130種類)Airplane_flying とか Throwing とか.
SIFTなどの局所特徴量による.大量の特徴量を組み合わせたほうが良い.
・Known Item Search (KIS)
映像の文による記述から実物を探すタスク
トピックの言語記述,メタデータの寄与が大きく,視覚情報はほとんど寄与しない
・Multimedia Event Detection (MED)
あるイベントを表現している映像の検出
野球でヒットして得点,ケーキを作っている,テントを張っている,等
検出漏れを重く見るようなスコアリング
・Content-based Copy Detection (CCD)
映像コピー検出(著作権保護,違法映像検出 etc.)
NIIのシステムが世界最速
・Surveillance Event Detection (SED)
Single-person event, Single-person + Object events, Multiple People Events
Queen Mary University of London が PersonRuns で突出してよい成績
学習用の正解データを人手で修正
・Instance Search (INS)
人・場所・ものなどの特定事物(インスタンス)を検出する
Person, Character, Object, Locationの4種
結果
15機関が参加,あまり性能が良くない(性能の中央値はほとんど0%)
顔と物の性能が大きく違う(顔の方が高性能)
音声ドキュメント処理ワークショップ特別講演まとめ More ログイン