Wan: Open and Advanced Large-Scale Video Generative Models
44{icon} {views} 論文タイトル:Wan: Open and Advanced Large-Scale Video Generative Models URL:https://arxiv.org/abs/2 […]...
論文まとめ:ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding
58{icon} {views} ULIP-2は、3D形状からレンダリングした画像と自動生成された多様な言語記述を組み合わせることで、従来を上回る精度とスケーラビリティを実現した。 ゼロショット3D分類や3Dキャプション […]...
論文まとめ:Cosmos World Foundation Model Platform for Physical AI
323{icon} {views} タイトル:Cosmos World Foundation Model Platform for Physical AI 著者:NVIDIAの方々 論文URL:https://arxiv […]...
論文まとめ:LLM2CLIP: Powerful Language Model Unlock Richer Visual Representation
148{icon} {views} 論文タイトル:LLM2CLIP: Powerful Language Model Unlock Richer Visual Representation 著者:Weiquan Huan […]...
論文まとめ:Genie: Generative Interactive Environments
354{icon} {views} タイトル:Genie: Generative Interactive Environments 論文URL:https://arxiv.org/abs/2402.15391 著者:De […]...
論文まとめ:GRiT: A Generative Region-to-text Transformer for Object Understanding
1.2k{icon} {views} タイトル:GRiT: A Generative Region-to-text Transformer for Object Understanding 著者:Jialian Wu, […]...
EVA-CLIPをOpenCLIPで使う
2k{icon} {views} EVA-CLIPがOpenCLIPから使えるようになっていたので試してみました。ViT-L/14相当のモデルでImageNetのゼロショット精度が80%越えでなかなかやばい結果となりまし […]...
論文まとめ:EVA-02: A Visual Representation for Neon Genesis
2.4k{icon} {views} タイトル:EVA-02: A Visual Representation for Neon Genesis 著者:Yuxin Fang, Quan Sun, Xinggang Wan […]...
論文まとめ:EVA: Exploring the Limits of Masked Visual Representation Learning at Scale
1.8k{icon} {views} タイトル:EVA: Exploring the Limits of Masked Visual Representation Learning at Scale 著者:Yuxin F […]...
論文まとめ:Flamingo: a Visual Language Model for Few-Shot Learning
2k{icon} {views} タイトル:Flamingo: a Visual Language Model for Few-Shot Learning 著者:Jean-Baptiste Alayrac, Jeff D […]...