論文まとめ:ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding
28{icon} {views} ULIP-2は、3D形状からレンダリングした画像と自動生成された多様な言語記述を組み合わせることで、従来を上回る精度とスケーラビリティを実現した。 ゼロショット3D分類や3Dキャプション […]...
論文まとめ:Diffusion Self-Distillation for Zero-Shot Customized Image Generation
49{icon} {views} タイトル:Diffusion Self-Distillation for Zero-Shot Customized Image Generation 著者:スタンフォード大の方々 カンフ […]...
論文まとめ:Vision Grid Transformer for Document Layout Analysis+OSS紹介
70{icon} {views} Vision TransformerとGrid Transformerを組み合わせ、視覚・テキストの両面からマルチモーダル情報を効果的に活用する手法VGTを提案。多様な文書タイプと詳細な […]...
論文まとめ:Mélange: Cost Efficient Large Language Model Serving by Exploiting GPU Heterogeneity
32{icon} {views} タイトル:Mélange: Cost Efficient Large Language Model Serving by Exploiting GPU Heterogeneity 論文U […]...
論文まとめ:Competitive Programming with Large Reasoning Models
142{icon} {views} 大規模言語モデル(LLM)を強化学習によって訓練し、競争プログラミングにおける高度な推論とコーディング能力を高めたOpenAIによるLRMの研究。特にo3モデルは、人間によるドメイン特 […]...
論文まとめ:BEN: Using Confidence-Guided Matting for Dichotomous Image Segmentation
68{icon} {views} タイトル:BEN: Using Confidence-Guided Matting for Dichotomous Image Segmentation GitHub:https://g […]...
論文まとめ:Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling
85{icon} {views} タイトル:Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling 著 […]...
CVPRの論文の被引用数の深読み(GitHub, arXiv, Sematic Scholar APIの活用)
315{icon} {views} CVPR2022・2023の論文を対象に、GitHubリポジトリやarXivの公開有無と被引用数の関係を調べた結果、リポジトリを公開している論文ほど被引用数が高い傾向が確認された。さら […]...
CVPRの論文の被引用数を分析・予測してみた
203{icon} {views} CVPR2022・2023で採択された論文の被引用数を分析し、GitHubリポジトリやArxivでの公開が引用数に与える影響を調査しました。結果、これらの要因が引用数の増加に有意に寄与 […]...
YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information
505{icon} {views} タイトル:YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information 著者:Chie […]...