CLIPに対していろいろ条件を変えてLoRAを訓練してみた(PyTorch Lightning)
793{icon} {views} CLIPに対してLoRAを適用して、いろいろ条件を変えて画像分類モデルを訓練した。Few-shotやパラメーター数に対しては従来のファインチューニングと同じだが、rとαとバランスを考慮 […]...
論文まとめ:GALIP: Generative Adversarial CLIPs for Text-to-Image Synthesis
608{icon} {views} タイトル:GALIP: Generative Adversarial CLIPs for Text-to-Image Synthesis 著者:Ming Tao, Bing-Kun B […]...
EVA-CLIPをOpenCLIPで使う
1.5k{icon} {views} EVA-CLIPがOpenCLIPから使えるようになっていたので試してみました。ViT-L/14相当のモデルでImageNetのゼロショット精度が80%越えでなかなかやばい結果となり […]...
論文まとめ:EVA-02: A Visual Representation for Neon Genesis
1.7k{icon} {views} タイトル:EVA-02: A Visual Representation for Neon Genesis 著者:Yuxin Fang, Quan Sun, Xinggang Wan […]...
論文まとめ:EVA: Exploring the Limits of Masked Visual Representation Learning at Scale
1.5k{icon} {views} タイトル:EVA: Exploring the Limits of Masked Visual Representation Learning at Scale 著者:Yuxin F […]...
Diffusersでモデルマージをする
2.7k{icon} {views} Diffuserでのモデルマージを検証します。Stable Diffusionには、CLIP、U-Net、VAEの3つのモデルからなり、それぞれをマージの効果が違うので、面白い結果に […]...
CLIPから見るAttentionの有用性
5.3k{icon} {views} Attentionはこれまでの研究から多く有用性は報告されていたのですが、ネットワークの内側で使われることが多く、わかりやすく差を体感できる例を自分は知りませんでした。今回はCLIP […]...
CoCaとBLIP2を使ってみた:ImageNet、キャプション生成
6.6k{icon} {views} CoCaとBLIP2の訓練済みモデルで遊んでみました。「ImageNet 1Kのゼロショット精度」と「キャプション生成」の2点について検証してみました。 きっかけ ほぼ同時期にBLI […]...
Text4Visを使ったオープンセットな動画認識をやってみた
630{icon} {views} オープンセットな行動認識のできるText4VisというモデルをHMDB51で試し撃ちしてみました。訓練済みモデルが公開されており、すぐ利用することができます。 はじめに Text4Vi […]...
論文まとめ:Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval
585{icon} {views} タイトル:Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval 著者:F […]...