論文まとめ:When Do We Not Need Larger Vision Models?
3{icon} {views} モデルサイズを拡大する従来のアプローチに対し、入力画像の解像度を複数スケールで処理する「S2」手法を提案します。既存の小さなビジョンモデルでもパラメータ数を増やすことなく、多くのタスクで大 […]...
論文まとめ:Rewrite the Stars
47{icon} {views} ニューラルネットワークにおける要素ごとの積が多項式カーネルと同様に入力を高次元の非線形空間へ写像する理論的根拠を示し、スター演算を活用した効率的な「StarNet」を提案している。Ima […]...
Wan: Open and Advanced Large-Scale Video Generative Models
60{icon} {views} 論文タイトル:Wan: Open and Advanced Large-Scale Video Generative Models URL:https://arxiv.org/abs/2 […]...
論文まとめ:ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding
70{icon} {views} ULIP-2は、3D形状からレンダリングした画像と自動生成された多様な言語記述を組み合わせることで、従来を上回る精度とスケーラビリティを実現した。 ゼロショット3D分類や3Dキャプション […]...
論文まとめ:Diffusion Self-Distillation for Zero-Shot Customized Image Generation
86{icon} {views} タイトル:Diffusion Self-Distillation for Zero-Shot Customized Image Generation 著者:スタンフォード大の方々 カンフ […]...
論文まとめ:Vision Grid Transformer for Document Layout Analysis+OSS紹介
99{icon} {views} Vision TransformerとGrid Transformerを組み合わせ、視覚・テキストの両面からマルチモーダル情報を効果的に活用する手法VGTを提案。多様な文書タイプと詳細な […]...
論文まとめ:Mélange: Cost Efficient Large Language Model Serving by Exploiting GPU Heterogeneity
42{icon} {views} タイトル:Mélange: Cost Efficient Large Language Model Serving by Exploiting GPU Heterogeneity 論文U […]...
論文まとめ:Competitive Programming with Large Reasoning Models
183{icon} {views} 大規模言語モデル(LLM)を強化学習によって訓練し、競争プログラミングにおける高度な推論とコーディング能力を高めたOpenAIによるLRMの研究。特にo3モデルは、人間によるドメイン特 […]...
論文まとめ:BEN: Using Confidence-Guided Matting for Dichotomous Image Segmentation
82{icon} {views} タイトル:BEN: Using Confidence-Guided Matting for Dichotomous Image Segmentation GitHub:https://g […]...
論文まとめ:Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling
96{icon} {views} タイトル:Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling 著 […]...