論文まとめ:ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding
58{icon} {views} ULIP-2は、3D形状からレンダリングした画像と自動生成された多様な言語記述を組み合わせることで、従来を上回る精度とスケーラビリティを実現した。 ゼロショット3D分類や3Dキャプション […]...
論文まとめ:LLM2CLIP: Powerful Language Model Unlock Richer Visual Representation
148{icon} {views} 論文タイトル:LLM2CLIP: Powerful Language Model Unlock Richer Visual Representation 著者:Weiquan Huan […]...
CLIPに対していろいろ条件を変えてLoRAを訓練してみた(PyTorch Lightning)
1.7k{icon} {views} CLIPに対してLoRAを適用して、いろいろ条件を変えて画像分類モデルを訓練した。Few-shotやパラメーター数に対しては従来のファインチューニングと同じだが、rとαとバランスを考 […]...
論文まとめ:GALIP: Generative Adversarial CLIPs for Text-to-Image Synthesis
676{icon} {views} タイトル:GALIP: Generative Adversarial CLIPs for Text-to-Image Synthesis 著者:Ming Tao, Bing-Kun B […]...
EVA-CLIPをOpenCLIPで使う
2k{icon} {views} EVA-CLIPがOpenCLIPから使えるようになっていたので試してみました。ViT-L/14相当のモデルでImageNetのゼロショット精度が80%越えでなかなかやばい結果となりまし […]...
論文まとめ:EVA-02: A Visual Representation for Neon Genesis
2.4k{icon} {views} タイトル:EVA-02: A Visual Representation for Neon Genesis 著者:Yuxin Fang, Quan Sun, Xinggang Wan […]...
論文まとめ:EVA: Exploring the Limits of Masked Visual Representation Learning at Scale
1.8k{icon} {views} タイトル:EVA: Exploring the Limits of Masked Visual Representation Learning at Scale 著者:Yuxin F […]...
Diffusersでモデルマージをする
3k{icon} {views} Diffuserでのモデルマージを検証します。Stable Diffusionには、CLIP、U-Net、VAEの3つのモデルからなり、それぞれをマージの効果が違うので、面白い結果になり […]...
CLIPから見るAttentionの有用性
5.9k{icon} {views} Attentionはこれまでの研究から多く有用性は報告されていたのですが、ネットワークの内側で使われることが多く、わかりやすく差を体感できる例を自分は知りませんでした。今回はCLIP […]...
CoCaとBLIP2を使ってみた:ImageNet、キャプション生成
7.5k{icon} {views} CoCaとBLIP2の訓練済みモデルで遊んでみました。「ImageNet 1Kのゼロショット精度」と「キャプション生成」の2点について検証してみました。 きっかけ ほぼ同時期にBLI […]...