Shikoan's ML Blog

Categories: DeepLearning

論文まとめ：Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval

520{icon} {views}

タイトル：Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval
著者：Fan Hu, Aozhu Chen, Ziyue Wang, Fangming Zhou, Jianfeng Dong, Xirong Li
所属：中国人民大学、浙江工商大学
カンファ：ECCV 2022
論文URL：https://arxiv.org/abs/2112.01832
コード：https://github.com/ruc-aimc-lab/LAFF

Toggle

ざっくりいうと

動画検索を目的として作られた、クロスモダリティのネットワークモジュールLAFFを提唱
Attentionフリーな単純な構造ながらSoTA
訓練済みの静止画・動画・テキストモデルをFusionし、類似度を学習できる

手法

LAFFモジュール

MHSAはAttentionあり。Ours(LAFF)はTransformerのようなAttentionを使っていない

Attentionフリーにすることで、計算量が軽くなる

バックボーンのモデル

画像モデルもテキストモデルもPretrainedモデルを大量にもってくる。コードを見たら、CLIPやBERTのエンコーダーは明示的に訓練しないようになっていたが、基本的にはLAFFの部分のみ訓練するのではないか。

動画のモデルと静止画のモデルをFusionできる

重み付き平均を取るだけなので、CLIPやRX101などの静止画のモデルと、X3Dの動画のモデルをFusionできる

画像/テキストといったモダリティの次元だけでなく、時間軸など様々な次元で集約可能

損失関数

先行研究にあった「triplet ranking loss with hard-negative mining」という損失関数を使用

sは類似度の関数、αはマージン。argmaxの実装は微分可能な形に工夫されていた

結果

動画検索タスクにおいてSoTAだった

MHSAのようなAttention-likeなモジュールより、一貫してLAFFのほうがよかった。

モデル別のLAFFの重み（寄与率）を見ると、CLIPがかなり支配的になっているものが多い。側転のように動きが大事なものは、動画モデルの寄与率が大きくなっている。

モデルをもりすぎると悪化する（例：CLIPにBERTを盛ると悪化する）。特にここは議論はなかったが、次元の呪い？

議論

ネットワークをマシマシにしたのだから、精度が上がるのはある意味当然とも言える
計算量重そうだが特に議論はなかった（2080Ti1枚で全実験をやったとは書いてある）
アンサンブル学習の文脈ではありそうだがなかった手法
異なるモダリティのFusion（静止画、動画、テキストモデル混ぜ混ぜ）が面白く、動画検索以外でやっても面白いのではないか

こしあん

Next 論文まとめ：OCR-free Document Understanding Transformer »

Previous « OpenCVで「 (-5:Bad argument) in function 'rectangle'」と怒られた

Python（requests）でDiscordにWebhook経由で複数の画像＋メッセージ投稿

DiscordにWebhook…

2日 ago

Arxiv RAGによる論文サーベイの自動生成

複数のLLM（GPT/Clau…

4日 ago

Uncategorized

[Terraform]HTTPタイプのAPI Gatewayをデプロイする

API Gatewayには2種…

1週間 ago

[Terraform]API Gateway+WAFで短期間の同一IPからのアクセスをブロックする

API Gateway＋WAF…

1週間 ago

[Terraform]CloudFront＋Lambda@EdgeでLambdaのみで静的ページをホストする

CloudFront+Lamb…

2週間 ago

[Terraform]CloudFront+S3でホームページを作る

CloudFrontちゃんと使…