こしあん
2022-12-08

論文まとめ:Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval


657{icon} {views}

  • タイトル:Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval
  • 著者:Fan Hu, Aozhu Chen, Ziyue Wang, Fangming Zhou, Jianfeng Dong, Xirong Li
  • 所属:中国人民大学、浙江工商大学
  • カンファ:ECCV 2022
  • 論文URL:https://arxiv.org/abs/2112.01832
  • コード:https://github.com/ruc-aimc-lab/LAFF

ざっくりいうと

  • 動画検索を目的として作られた、クロスモダリティのネットワークモジュールLAFFを提唱
  • Attentionフリーな単純な構造ながらSoTA
  • 訓練済みの静止画・動画・テキストモデルをFusionし、類似度を学習できる

手法

LAFFモジュール

MHSAはAttentionあり。Ours(LAFF)はTransformerのようなAttentionを使っていない

Attentionフリーにすることで、計算量が軽くなる

バックボーンのモデル

画像モデルもテキストモデルもPretrainedモデルを大量にもってくる。コードを見たら、CLIPやBERTのエンコーダーは明示的に訓練しないようになっていたが、基本的にはLAFFの部分のみ訓練するのではないか。

動画のモデルと静止画のモデルをFusionできる

重み付き平均を取るだけなので、CLIPやRX101などの静止画のモデルと、X3Dの動画のモデルをFusionできる

画像/テキストといったモダリティの次元だけでなく、時間軸など様々な次元で集約可能

損失関数

先行研究にあった「triplet ranking loss with hard-negative mining」という損失関数を使用

sは類似度の関数、αはマージン。argmaxの実装は微分可能な形に工夫されていた

結果

動画検索タスクにおいてSoTAだった

MHSAのようなAttention-likeなモジュールより、一貫してLAFFのほうがよかった。

モデル別のLAFFの重み(寄与率)を見ると、CLIPがかなり支配的になっているものが多い。側転のように動きが大事なものは、動画モデルの寄与率が大きくなっている。

モデルをもりすぎると悪化する(例:CLIPにBERTを盛ると悪化する)。特にここは議論はなかったが、次元の呪い?

議論

  • ネットワークをマシマシにしたのだから、精度が上がるのはある意味当然とも言える
  • 計算量重そうだが特に議論はなかった(2080Ti1枚で全実験をやったとは書いてある)
  • アンサンブル学習の文脈ではありそうだがなかった手法
  • 異なるモダリティのFusion(静止画、動画、テキストモデル混ぜ混ぜ)が面白く、動画検索以外でやっても面白いのではないか


Shikoan's ML Blogの中の人が運営しているサークル「じゅ~しぃ~すくりぷと」の本のご案内

技術書コーナー

北海道の駅巡りコーナー


Add a Comment

メールアドレスが公開されることはありません。 が付いている欄は必須項目です