パスワードを忘れた? アカウント作成
304428 journal

aitoの日記: 音声ドキュメント処理ワークショップ特別講演まとめ

日記 by aito
13:00-14:00 特別講演 †
「映像内容解析ならびに検索技術の最近の動向 -TRECVIDを中心として-」(佐藤真一教授:国立情報学研究所)
・映像内容解析の必要性
        映像コーパスによる内容解析
・TRECVID (2003~)
        http://trecvid.nist.gov/
        利用映像:ビデオクリップ,TV番組,CCTVなど
        タスク:Semantic Indexing, Known-Item Search, Content-based Copy Detection, Surveillance Event Detection,
                        Instance Search, Event Detection in Internet Multimedia
・Semantic Indexing (SIN)
        ショットに写っている物体などに基づくショットの意味分類
        ビデオクリップ,人手による正解つき(130種類)Airplane_flying とか Throwing とか.
        SIFTなどの局所特徴量による.大量の特徴量を組み合わせたほうが良い.
・Known Item Search (KIS)
        映像の文による記述から実物を探すタスク
        トピックの言語記述,メタデータの寄与が大きく,視覚情報はほとんど寄与しない
・Multimedia Event Detection (MED)
        あるイベントを表現している映像の検出
                野球でヒットして得点,ケーキを作っている,テントを張っている,等
        検出漏れを重く見るようなスコアリング
・Content-based Copy Detection (CCD)
        映像コピー検出(著作権保護,違法映像検出 etc.)
        NIIのシステムが世界最速
・Surveillance Event Detection (SED)
        Single-person event, Single-person + Object events, Multiple People Events
        Queen Mary University of London が PersonRuns で突出してよい成績
                学習用の正解データを人手で修正
・Instance Search (INS)
        人・場所・ものなどの特定事物(インスタンス)を検出する
        Person, Character, Object, Locationの4種
        結果
                15機関が参加,あまり性能が良くない(性能の中央値はほとんど0%)
                顔と物の性能が大きく違う(顔の方が高性能)
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

開いた括弧は必ず閉じる -- あるプログラマー

読み込み中...