論文まとめ:LLM2CLIP: Powerful Language Model Unlock Richer Visual Representation
73{icon} {views} 論文タイトル:LLM2CLIP: Powerful Language Model Unlock Richer Visual Representation 著者:Weiquan Huang […]...
論文まとめ:Genie: Generative Interactive Environments
259{icon} {views} タイトル:Genie: Generative Interactive Environments 論文URL:https://arxiv.org/abs/2402.15391 著者:De […]...
論文まとめ:GRiT: A Generative Region-to-text Transformer for Object Understanding
1.1k{icon} {views} タイトル:GRiT: A Generative Region-to-text Transformer for Object Understanding 著者:Jialian Wu, […]...
EVA-CLIPをOpenCLIPで使う
1.7k{icon} {views} EVA-CLIPがOpenCLIPから使えるようになっていたので試してみました。ViT-L/14相当のモデルでImageNetのゼロショット精度が80%越えでなかなかやばい結果となり […]...
論文まとめ:EVA-02: A Visual Representation for Neon Genesis
2k{icon} {views} タイトル:EVA-02: A Visual Representation for Neon Genesis 著者:Yuxin Fang, Quan Sun, Xinggang Wang, […]...
論文まとめ:EVA: Exploring the Limits of Masked Visual Representation Learning at Scale
1.7k{icon} {views} タイトル:EVA: Exploring the Limits of Masked Visual Representation Learning at Scale 著者:Yuxin F […]...
論文まとめ:Flamingo: a Visual Language Model for Few-Shot Learning
1.8k{icon} {views} タイトル:Flamingo: a Visual Language Model for Few-Shot Learning 著者:Jean-Baptiste Alayrac, Jeff […]...
CoCaとBLIP2を使ってみた:ImageNet、キャプション生成
7k{icon} {views} CoCaとBLIP2の訓練済みモデルで遊んでみました。「ImageNet 1Kのゼロショット精度」と「キャプション生成」の2点について検証してみました。 きっかけ ほぼ同時期にBLIP2 […]...
論文まとめ:BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
9.3k{icon} {views} タイトル:BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large […]...
論文まとめ:Patching open-vocabulary models by interpolating weights
756{icon} {views} タイトル:Patching open-vocabulary models by interpolating weights 著者:Gabriel Ilharco, Mitchell W […]...