こしあん
2023-06-08

論文まとめ:EVA-02: A Visual Representation for Neon Genesis


Pocket
LINEで送る
Delicious にシェア

970{icon} {views}

ざっくりいうと

  • MIMのターゲットをCLIPし、大規模な画像の事前訓練を追加データなしで可能にしたEVAの後継版
  • NLPで導入されていたTransformerのアーキテクチャー改善を、画像の観点から導入
  • MIMとCLIPの相互訓練により、EVA-01より少量のパラメーター・データで高精度を達成

EVA-01との違い

  • 小型のプレーンViTにフォーカスした
  • NLPで使われているTransformerのアーキテクチャーの改善を、画像の側面から検討し、精度向上に導入した
    • SwiGLU、sub-LN、RoPEの3点
  • MIMのターゲットをEVA-01から作られたCLIPとした
  • その結果、少ないパラメーター・少ないデータで、EVA-01を上回る下流タスク/ゼロショットの性能を報告

手法

プレーンViTのアーキテクチャーの改善

  • 言語モデルのいくつかの重要なアーキテクチャーの進歩は、画像の表現学習の文脈からは検討されていなかった。これを取り込んでプレーンViTのブロック内の構造を改善する
    • シグモイド線形ユニット(SiLU)/ スウィッチ活性化を持つゲート線形ユニット(SwiGLU
    • Normalizationレイヤーとしての正規化層としてsub-LN
    • 2次元回転埋め込みのRoPE

SwiGLU

NLPの研究から。GLUの一種。GLUのシグモイドをSwishに置き換えたもの。元論文PapersWithCode

Sub-LN

NLPの研究から。従来のLayer NormはAttentionの前後どちらかに入れていたが、両方に入れ初期化を工夫することで性能向上。元論文

RoPE

NLPの研究から。Positinal Encodingに回転行列の要素を適用。元論文

これらのアーキテクチャーをViTに取り込んだ結果

ImageNet1Kのファンチューニング精度が上がった。ベースラインはEVA-01のCLIP

  • SwiGLUは重みがランダム初期化だと平凡だが、xavier normalの初期化だとうまくいく(+1.1)
  • Sub-LNはPre-LNと比較してわずかにきく(+0.2)
  • 2D-RoPEは性能向上するが(+0.4)、普通のRoPEだと学習が不安定化

アーキテクチャーの変化。TrV(Transformer Vision)が提案の構造

事前学習の戦略

  • EVA-01では、事前学習のMIMのターゲットとして既存のCLIPを使用していた
  • EVA-02のMIMでは、1Bパラメーターで訓練されたEVA-01をベースとしたCLIPをMIMのターゲットとしている
  • EVA-01のCLIPベースでは、短時間の訓練では既存のCLIPに劣るが、訓練時間を長くすることで精度がスケールする。また事前学習のデータセットが大きくなったときにもスケールする
    • MIMはStudent-Teacherモデルとしても考えられる
    • 短時間の訓練で劣るのは、EVA-01で学習された表現が複雑になって、Student側が特徴を捉えづらくなったため
  • VQKD-Bという小さなモデルでは必要だった中間のファインチューニングも不要になった

様々なモデルサイズがある(たった6Mのもある)。MIMの事前訓練データはL以外はIN21Kで訓練。Merged-38Mは(CC12M、CC3M、COCOなどを統合し、CCについてはキャプションのないデータのみ使用。EVA-01と一緒)

Lは1Bパラメーターだが、実装でFP16やxFormersを使用しており、BEiTよりも訓練時間は~10%短い。

結果

下流タスクの精度

EVA-01ではパラメーター1BでImageNet 1Kのファインチューニング精度が89.7%だったのに対し、EVA02-Lでは1/3のパラメーターでファインチューニング精度90.0%になった。MIMとCLIPのよる蒸留の繰り返しの有効性が示される

CLIPの精度向上

EVA-02をベースにCLIPを作ると、EVA-01のCLIPよりも良くなった。

EVA-CLIPと比較して

  • ゼロショット精度は+1.9%
  • 画像のパラメーターは1/3
  • データ数は半分

上が小さなモデルでの比較。OpenAIのCLIPよりも総じて良い。下が大きなモデルでの比較。ImageNet系が特に強い。一部強さがまちまちなのがある(おそらく訓練データセットによるもの)

検出系

EVA-02が特徴抽出気として強いため、物体検出やセグメンテーションでも優位な性能を出した。

結論

  • MIMとCLIPの交互学習が、ブートストラップ方式でMIMとCLIPの両方の性能を改善できることを実証
  • Visionと、Vision & Languageの両方を事前訓練として有望でスケーラブルなアプローチ

所感

  • 今度は2号機カラー
  • 相変わらずモデル公開してくれているのがいい
  • Fight together with Asukaと書いてあるが、この論文でのAsukaってなんだろう(名前こじつけてモジュール作るのかと思ってた)

Pocket
Delicious にシェア



Shikoan's ML Blogの中の人が運営しているサークル「じゅ~しぃ~すくりぷと」の本のご案内

技術書コーナー

北海道の駅巡りコーナー


One Comment

Add a Comment

メールアドレスが公開されることはありません。 が付いている欄は必須項目です