CLIP | Shikoan's ML Blog

論文まとめ：ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding

2025-03-27

213{icon} {views} ULIP-2は、3D形状からレンダリングした画像と自動生成された多様な言語記述を組み合わせることで、従来を上回る精度とスケーラビリティを実現した。ゼロショット3D分類や3Dキャプショ […]...

2024-11-14

218{icon} {views} 論文タイトル：LLM2CLIP: Powerful Language Model Unlock Richer Visual Representation 著者：Weiquan Huan […]...

2024-03-02

2.3k{icon} {views} CLIPに対してLoRAを適用して、いろいろ条件を変えて画像分類モデルを訓練した。Few-shotやパラメーター数に対しては従来のファインチューニングと同じだが、rとαとバランスを考 […]...

2023-06-22

740{icon} {views} タイトル：GALIP: Generative Adversarial CLIPs for Text-to-Image Synthesis 著者：Ming Tao, Bing-Kun B […]...

2023-06-19

2.3k{icon} {views} EVA-CLIPがOpenCLIPから使えるようになっていたので試してみました。ViT-L/14相当のモデルでImageNetのゼロショット精度が80％越えでなかなかやばい結果となり […]...

2023-06-08

2.7k{icon} {views} タイトル：EVA-02: A Visual Representation for Neon Genesis 著者：Yuxin Fang, Quan Sun, Xinggang Wan […]...

2023-06-01

1.9k{icon} {views} タイトル：EVA: Exploring the Limits of Masked Visual Representation Learning at Scale 著者：Yuxin F […]...

2023-04-08

3.2k{icon} {views} Diffuserでのモデルマージを検証します。Stable Diffusionには、CLIP、U-Net、VAEの3つのモデルからなり、それぞれをマージの効果が違うので、面白い結果に […]...

2023-03-21

6.3k{icon} {views} Attentionはこれまでの研究から多く有用性は報告されていたのですが、ネットワークの内側で使われることが多く、わかりやすく差を体感できる例を自分は知りませんでした。今回はCLIP […]...

2023-02-08

7.9k{icon} {views} CoCaとBLIP2の訓練済みモデルで遊んでみました。「ImageNet 1Kのゼロショット精度」と「キャプション生成」の2点について検証してみました。きっかけほぼ同時期にBLI […]...