DeepLearning | Shikoan's ML Blog

論文まとめ：NVIDIA Nemotron Nano V2 VL

2025-12-04

264{icon} {views} NVIDIAの「Nemotron Nano V2 VL」は、12Bの軽量かつ高効率な視覚言語モデルです。MambaとTransformerのハイブリッド構成と、動画の静的領域を間引くE […]...

2025-09-12

993{icon} {views} タイトル：DINO v3 著者：Metaの方々 URL：https://arxiv.org/abs/2508.10104 GitHub: https://github.com/face […]...

2025-08-29

231{icon} {views} タイトル：Has GPT-5 Achieved Spatial Intelligence? An Empirical Study 著者：Zhongang Cai, Yubo Wang, […]...

2025-07-04

201{icon} {views} タイトル：Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens URL：https://a […]...

2025-06-27

313{icon} {views} 論文名：Efficient Track anything URL：https://arxiv.org/abs/2411.18933 GitHub：https://github.com/ […]...

2025-06-06

227{icon} {views} タイトル：StarVector: Generating Scalable Vector Graphics Code from Images and Text カンファ：CVPR 202 […]...

2025-05-23

164{icon} {views} モデルサイズを拡大する従来のアプローチに対し、入力画像の解像度を複数スケールで処理する「S2」手法を提案します。既存の小さなビジョンモデルでもパラメータ数を増やすことなく、多くのタスク […]...

2025-05-09

203{icon} {views} ニューラルネットワークにおける要素ごとの積が多項式カーネルと同様に入力を高次元の非線形空間へ写像する理論的根拠を示し、スター演算を活用した効率的な「StarNet」を提案している。Im […]...

2025-04-18

355{icon} {views} 論文タイトル：Wan: Open and Advanced Large-Scale Video Generative Models URL：https://arxiv.org/abs/ […]...

2025-03-27

319{icon} {views} ULIP-2は、3D形状からレンダリングした画像と自動生成された多様な言語記述を組み合わせることで、従来を上回る精度とスケーラビリティを実現した。ゼロショット3D分類や3Dキャプショ […]...