目次
MHSAはAttentionあり。Ours(LAFF)はTransformerのようなAttentionを使っていない
Attentionフリーにすることで、計算量が軽くなる
画像モデルもテキストモデルもPretrainedモデルを大量にもってくる。コードを見たら、CLIPやBERTのエンコーダーは明示的に訓練しないようになっていたが、基本的にはLAFFの部分のみ訓練するのではないか。
重み付き平均を取るだけなので、CLIPやRX101などの静止画のモデルと、X3Dの動画のモデルをFusionできる
画像/テキストといったモダリティの次元だけでなく、時間軸など様々な次元で集約可能
先行研究にあった「triplet ranking loss with hard-negative mining」という損失関数を使用
sは類似度の関数、αはマージン。argmaxの実装は微分可能な形に工夫されていた
動画検索タスクにおいてSoTAだった
MHSAのようなAttention-likeなモジュールより、一貫してLAFFのほうがよかった。
モデル別のLAFFの重み(寄与率)を見ると、CLIPがかなり支配的になっているものが多い。側転のように動きが大事なものは、動画モデルの寄与率が大きくなっている。
モデルをもりすぎると悪化する(例:CLIPにBERTを盛ると悪化する)。特にここは議論はなかったが、次元の呪い?