エージェント設計パターンによるRAG品質の改善
26{icon} {views} ICCV2025採択論文2,113本を対象としたサーベイ生成実験により、エージェント設計パターンの違いが出力品質に決定的な差を生むことが明らかになりました。特に「オーケストレーターの排除 […]...
論文まとめ:NVIDIA Nemotron Nano V2 VL
121{icon} {views} NVIDIAの「Nemotron Nano V2 VL」は、12Bの軽量かつ高効率な視覚言語モデルです。MambaとTransformerのハイブリッド構成と、動画の静的領域を間引くE […]...
論文まとめ:DINOv3
609{icon} {views} タイトル:DINO v3 著者:Metaの方々 URL:https://arxiv.org/abs/2508.10104 GitHub: https://github.com/face […]...
論文まとめ:Has GPT-5 Achieved Spatial Intelligence? An Empirical Study
187{icon} {views} タイトル:Has GPT-5 Achieved Spatial Intelligence? An Empirical Study 著者:Zhongang Cai, Yubo Wang, […]...
論文まとめ:Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens
144{icon} {views} タイトル:Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens URL:https://a […]...
論文まとめ:Efficient Track anything
231{icon} {views} 論文名:Efficient Track anything URL:https://arxiv.org/abs/2411.18933 GitHub:https://github.com/ […]...
論文まとめ:StarVector: Generating Scalable Vector Graphics Code from Images and Text
161{icon} {views} タイトル:StarVector: Generating Scalable Vector Graphics Code from Images and Text カンファ:CVPR 202 […]...
論文まとめ:When Do We Not Need Larger Vision Models?
130{icon} {views} モデルサイズを拡大する従来のアプローチに対し、入力画像の解像度を複数スケールで処理する「S2」手法を提案します。既存の小さなビジョンモデルでもパラメータ数を増やすことなく、多くのタスク […]...
論文まとめ:Rewrite the Stars
165{icon} {views} ニューラルネットワークにおける要素ごとの積が多項式カーネルと同様に入力を高次元の非線形空間へ写像する理論的根拠を示し、スター演算を活用した効率的な「StarNet」を提案している。Im […]...
Wan: Open and Advanced Large-Scale Video Generative Models
223{icon} {views} 論文タイトル:Wan: Open and Advanced Large-Scale Video Generative Models URL:https://arxiv.org/abs/ […]...