基盤モデル | Shikoan's ML Blog

論文まとめ：DINOv3

2025-09-12

1.1k{icon} {views} タイトル：DINO v3 著者：Metaの方々 URL：https://arxiv.org/abs/2508.10104 GitHub: https://github.com/fac […]...

2025-05-23

170{icon} {views} モデルサイズを拡大する従来のアプローチに対し、入力画像の解像度を複数スケールで処理する「S2」手法を提案します。既存の小さなビジョンモデルでもパラメータ数を増やすことなく、多くのタスク […]...

2025-04-18

382{icon} {views} 論文タイトル：Wan: Open and Advanced Large-Scale Video Generative Models URL：https://arxiv.org/abs/ […]...

2025-03-27

327{icon} {views} ULIP-2は、3D形状からレンダリングした画像と自動生成された多様な言語記述を組み合わせることで、従来を上回る精度とスケーラビリティを実現した。ゼロショット3D分類や3Dキャプショ […]...

2025-01-17

693{icon} {views} タイトル：Cosmos World Foundation Model Platform for Physical AI 著者：NVIDIAの方々論文URL：https://arxiv […]...

2024-11-14

306{icon} {views} 論文タイトル：LLM2CLIP: Powerful Language Model Unlock Richer Visual Representation 著者：Weiquan Huan […]...

2024-03-07

584{icon} {views} タイトル：Genie: Generative Interactive Environments 論文URL：https://arxiv.org/abs/2402.15391 著者：De […]...

2023-07-27

1.5k{icon} {views} タイトル：GRiT: A Generative Region-to-text Transformer for Object Understanding 著者：Jialian Wu, […]...

2023-06-19

2.7k{icon} {views} EVA-CLIPがOpenCLIPから使えるようになっていたので試してみました。ViT-L/14相当のモデルでImageNetのゼロショット精度が80％越えでなかなかやばい結果となり […]...

2023-06-08

3.2k{icon} {views} タイトル：EVA-02: A Visual Representation for Neon Genesis 著者：Yuxin Fang, Quan Sun, Xinggang Wan […]...