論文まとめ:LLM2CLIP: Powerful Language Model Unlock Richer Visual Representation
73{icon} {views} 論文タイトル:LLM2CLIP: Powerful Language Model Unlock Richer Visual Representation 著者:Weiquan Huang […]...
CLIPに対していろいろ条件を変えてLoRAを訓練してみた(PyTorch Lightning)
1.1k{icon} {views} CLIPに対してLoRAを適用して、いろいろ条件を変えて画像分類モデルを訓練した。Few-shotやパラメーター数に対しては従来のファインチューニングと同じだが、rとαとバランスを考 […]...
論文まとめ:GALIP: Generative Adversarial CLIPs for Text-to-Image Synthesis
624{icon} {views} タイトル:GALIP: Generative Adversarial CLIPs for Text-to-Image Synthesis 著者:Ming Tao, Bing-Kun B […]...
EVA-CLIPをOpenCLIPで使う
1.7k{icon} {views} EVA-CLIPがOpenCLIPから使えるようになっていたので試してみました。ViT-L/14相当のモデルでImageNetのゼロショット精度が80%越えでなかなかやばい結果となり […]...
論文まとめ:EVA-02: A Visual Representation for Neon Genesis
2k{icon} {views} タイトル:EVA-02: A Visual Representation for Neon Genesis 著者:Yuxin Fang, Quan Sun, Xinggang Wang, […]...
論文まとめ:EVA: Exploring the Limits of Masked Visual Representation Learning at Scale
1.7k{icon} {views} タイトル:EVA: Exploring the Limits of Masked Visual Representation Learning at Scale 著者:Yuxin F […]...
Diffusersでモデルマージをする
2.8k{icon} {views} Diffuserでのモデルマージを検証します。Stable Diffusionには、CLIP、U-Net、VAEの3つのモデルからなり、それぞれをマージの効果が違うので、面白い結果に […]...
CLIPから見るAttentionの有用性
5.5k{icon} {views} Attentionはこれまでの研究から多く有用性は報告されていたのですが、ネットワークの内側で使われることが多く、わかりやすく差を体感できる例を自分は知りませんでした。今回はCLIP […]...
CoCaとBLIP2を使ってみた:ImageNet、キャプション生成
7k{icon} {views} CoCaとBLIP2の訓練済みモデルで遊んでみました。「ImageNet 1Kのゼロショット精度」と「キャプション生成」の2点について検証してみました。 きっかけ ほぼ同時期にBLIP2 […]...
Text4Visを使ったオープンセットな動画認識をやってみた
675{icon} {views} オープンセットな行動認識のできるText4VisというモデルをHMDB51で試し撃ちしてみました。訓練済みモデルが公開されており、すぐ利用することができます。 はじめに Text4Vi […]...