論文まとめ：UniVTG: Towards Unified Video-Language Temporal Grounding

Posted On 2023-08-24

291{icon} {views}

タイトル：UniVTG: Towards Unified Video-Language Temporal Grounding
著者：Kevin Qinghong Lin, Pengchuan Zhang, Joya Chen, Shraman Pramanick, Difei Gao, Alex Jinpeng Wang, Rui Yan, Mike Zheng Shou
論文URL：https://arxiv.org/abs/2307.16715
コード：https://github.com/showlab/UniVTG
デモ：https://huggingface.co/spaces/KevinQHLin/UniVTG
カンファ：ICCV 2023

ざっくりいうと

UniVTGの前にも、Temporal Action Detectionのように時間方向に検出を走らせるタスクはあった。

今回のタスクは時間軸方向になにか検出を走らせるタスク

タスク
- モーメント検索
  - プロンプトに対する連続した時間窓（時間あたりの区間）の検索
- ハイライト検知
  - 最も価値のあるピンポイントを検出
- 動画要約
  - 動画を要約するための不連続なショットの収集
これらの3タスクを動画の時間的根拠に基づく事前学習を初めて行ったもの
背景
- GLIP（画像に対するゼロショット物体検出やキャプション生成）に見られるように、空間方向のGroundingは出ている
- Image-Languageの事前学習は進歩しているが、Video-Languageの事前学習はそれほど進歩していない
- 現在のVideo-Languageは、動画検索のように動画単位の方向に設計されている
この理由
- 時間軸方向のGroundingが進まない理由：アノテーションコストが高い
UniVTGの設計
- タスクの側面から、動画を細かいシーケンスに分解
- 各タスクに対してクエリ条件を定式化
- 時間軸方向のラベルのたりなさはCLIPベースの擬似ラベルを使用
- モダリティ融合とモダリティアラインメントのためのシングルストリームとデュアルストリームの経路を考案し、主要な3要素を解読するためのヘッドを作成。各タスクに対応

長い動画をいくつかのクリップに区切り、クリップ単位で評価

モーメント検索
- 動作の区間推定
- ASR（Not音声解析）を使うと、開始と終了のタイムスタンプを得られる。しかしノイジー
- VideoCCは動画の事前学習だが、時間的根拠を利用できる可能性がある
- 区間が得られたら、その部分のクリップを1、それ以外を0とする
ハイライト検知
- 曲線のラベリングを人間がやるとアノテーションが高価
- CLIPによるスコアリングを使い、動画のクリップ単位のCLIP類似度を計算
- しきい値処理によって疑似ラベルを作る

動画要約
- 動画全体に対して特定の割合（例：2%）のクリップ集合を作る
- Ego4Dデータセットが時間軸方面の点単位のラベリングを行っているためそれを活用
  - “I am opening the washingmachine” at ti = 2.30 sec

Moment-DETRと整合性を保つ
- DETRは物体検出。物体検出は空間方向だが、これを時系列方向に変えたもの
- 動画とテキストのエンコーダーはCLIP（ViT-B/32）とSlowFast（R-50）

モーメント検知(PTは事前学習のあとにFine tuning、ZSはゼロショット)

ハイライト検知。Top5まで含めればゼロショットでもある程度行けそう

Shikoan's ML Blogの中の人が運営しているサークル「じゅ～しぃ～すくりぷと」の本のご案内

技術書コーナー

北海道の駅巡りコーナー