論文まとめ：EVA-02: A Visual Representation for Neon Genesis

Posted On 2023-06-08

2.5k{icon} {views}

タイトル：EVA-02: A Visual Representation for Neon Genesis
著者：Yuxin Fang, Quan Sun, Xinggang Wang, Tiejun Huang, Xinlong Wang, Yue Cao
論文URL：https://arxiv.org/abs/2303.11331
コード：https://github.com/baaivision/EVA/tree/master/EVA-02

ざっくりいうと

MIMのターゲットをCLIPし、大規模な画像の事前訓練を追加データなしで可能にしたEVAの後継版
NLPで導入されていたTransformerのアーキテクチャー改善を、画像の観点から導入
MIMとCLIPの相互訓練により、EVA-01より少量のパラメーター・データで高精度を達成

EVA-01との違い

小型のプレーンViTにフォーカスした
NLPで使われているTransformerのアーキテクチャーの改善を、画像の側面から検討し、精度向上に導入した
- SwiGLU、sub-LN、RoPEの3点
MIMのターゲットをEVA-01から作られたCLIPとした
その結果、少ないパラメーター・少ないデータで、EVA-01を上回る下流タスク/ゼロショットの性能を報告

手法

プレーンViTのアーキテクチャーの改善

言語モデルのいくつかの重要なアーキテクチャーの進歩は、画像の表現学習の文脈からは検討されていなかった。これを取り込んでプレーンViTのブロック内の構造を改善する
- シグモイド線形ユニット（SiLU）/ スウィッチ活性化を持つゲート線形ユニット（SwiGLU）
- Normalizationレイヤーとしての正規化層としてsub-LN
- 2次元回転埋め込みのRoPE

SwiGLU

NLPの研究から。GLUの一種。GLUのシグモイドをSwishに置き換えたもの。元論文、PapersWithCode

Sub-LN

NLPの研究から。従来のLayer NormはAttentionの前後どちらかに入れていたが、両方に入れ初期化を工夫することで性能向上。元論文

RoPE

NLPの研究から。Positinal Encodingに回転行列の要素を適用。元論文

これらのアーキテクチャーをViTに取り込んだ結果

ImageNet1Kのファンチューニング精度が上がった。ベースラインはEVA-01のCLIP

SwiGLUは重みがランダム初期化だと平凡だが、xavier normalの初期化だとうまくいく（+1.1）
Sub-LNはPre-LNと比較してわずかにきく（+0.2）
2D-RoPEは性能向上するが（+0.4）、普通のRoPEだと学習が不安定化

アーキテクチャーの変化。TrV（Transformer Vision）が提案の構造

事前学習の戦略

EVA-01では、事前学習のMIMのターゲットとして既存のCLIPを使用していた
EVA-02のMIMでは、1Bパラメーターで訓練されたEVA-01をベースとしたCLIPをMIMのターゲットとしている
EVA-01のCLIPベースでは、短時間の訓練では既存のCLIPに劣るが、訓練時間を長くすることで精度がスケールする。また事前学習のデータセットが大きくなったときにもスケールする
- MIMはStudent-Teacherモデルとしても考えられる
- 短時間の訓練で劣るのは、EVA-01で学習された表現が複雑になって、Student側が特徴を捉えづらくなったため
VQKD-Bという小さなモデルでは必要だった中間のファインチューニングも不要になった

様々なモデルサイズがある（たった6Mのもある）。MIMの事前訓練データはL以外はIN21Kで訓練。Merged-38Mは（CC12M、CC3M、COCOなどを統合し、CCについてはキャプションのないデータのみ使用。EVA-01と一緒）

Lは1Bパラメーターだが、実装でFP16やxFormersを使用しており、BEiTよりも訓練時間は～10％短い。

結果

下流タスクの精度

EVA-01ではパラメーター1BでImageNet 1Kのファインチューニング精度が89.7％だったのに対し、EVA02-Lでは1/3のパラメーターでファインチューニング精度90.0％になった。MIMとCLIPのよる蒸留の繰り返しの有効性が示される

CLIPの精度向上

EVA-02をベースにCLIPを作ると、EVA-01のCLIPよりも良くなった。

EVA-CLIPと比較して

ゼロショット精度は+1.9％
画像のパラメーターは1/3
データ数は半分

上が小さなモデルでの比較。OpenAIのCLIPよりも総じて良い。下が大きなモデルでの比較。ImageNet系が特に強い。一部強さがまちまちなのがある（おそらく訓練データセットによるもの）

検出系

EVA-02が特徴抽出気として強いため、物体検出やセグメンテーションでも優位な性能を出した。

結論

MIMとCLIPの交互学習が、ブートストラップ方式でMIMとCLIPの両方の性能を改善できることを実証
Visionと、Vision & Languageの両方を事前訓練として有望でスケーラブルなアプローチ

所感

今度は2号機カラー
相変わらずモデル公開してくれているのがいい
Fight together with Asukaと書いてあるが、この論文でのAsukaってなんだろう（名前こじつけてモジュール作るのかと思ってた）
- コードにはある

Shikoan's ML Blogの中の人が運営しているサークル「じゅ～しぃ～すくりぷと」の本のご案内