論文まとめ：Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval

Posted On 2022-12-08

597{icon} {views}

タイトル：Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval
著者：Fan Hu, Aozhu Chen, Ziyue Wang, Fangming Zhou, Jianfeng Dong, Xirong Li
所属：中国人民大学、浙江工商大学
カンファ：ECCV 2022
論文URL：https://arxiv.org/abs/2112.01832
コード：https://github.com/ruc-aimc-lab/LAFF

ざっくりいうと

MHSAはAttentionあり。Ours(LAFF)はTransformerのようなAttentionを使っていない

Attentionフリーにすることで、計算量が軽くなる

画像モデルもテキストモデルもPretrainedモデルを大量にもってくる。コードを見たら、CLIPやBERTのエンコーダーは明示的に訓練しないようになっていたが、基本的にはLAFFの部分のみ訓練するのではないか。

重み付き平均を取るだけなので、CLIPやRX101などの静止画のモデルと、X3Dの動画のモデルをFusionできる

画像/テキストといったモダリティの次元だけでなく、時間軸など様々な次元で集約可能

先行研究にあった「triplet ranking loss with hard-negative mining」という損失関数を使用

sは類似度の関数、αはマージン。argmaxの実装は微分可能な形に工夫されていた

動画検索タスクにおいてSoTAだった

MHSAのようなAttention-likeなモジュールより、一貫してLAFFのほうがよかった。

モデル別のLAFFの重み（寄与率）を見ると、CLIPがかなり支配的になっているものが多い。側転のように動きが大事なものは、動画モデルの寄与率が大きくなっている。

モデルをもりすぎると悪化する（例：CLIPにBERTを盛ると悪化する）。特にここは議論はなかったが、次元の呪い？

Shikoan's ML Blogの中の人が運営しているサークル「じゅ～しぃ～すくりぷと」の本のご案内

技術書コーナー

北海道の駅巡りコーナー