論文まとめ:Vision Grid Transformer for Document Layout Analysis+OSS紹介
188{icon} {views} Vision TransformerとGrid Transformerを組み合わせ、視覚・テキストの両面からマルチモーダル情報を効果的に活用する手法VGTを提案。多様な文書タイプと詳細 […]...
論文まとめ:Mélange: Cost Efficient Large Language Model Serving by Exploiting GPU Heterogeneity
74{icon} {views} タイトル:Mélange: Cost Efficient Large Language Model Serving by Exploiting GPU Heterogeneity 論文U […]...
論文まとめ:Competitive Programming with Large Reasoning Models
313{icon} {views} 大規模言語モデル(LLM)を強化学習によって訓練し、競争プログラミングにおける高度な推論とコーディング能力を高めたOpenAIによるLRMの研究。特にo3モデルは、人間によるドメイン特 […]...
論文まとめ:BEN: Using Confidence-Guided Matting for Dichotomous Image Segmentation
108{icon} {views} タイトル:BEN: Using Confidence-Guided Matting for Dichotomous Image Segmentation GitHub:https:// […]...
論文まとめ:Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling
127{icon} {views} タイトル:Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling […]...
CVPRの論文の被引用数の深読み(GitHub, arXiv, Sematic Scholar APIの活用)
465{icon} {views} CVPR2022・2023の論文を対象に、GitHubリポジトリやarXivの公開有無と被引用数の関係を調べた結果、リポジトリを公開している論文ほど被引用数が高い傾向が確認された。さら […]...
CVPRの論文の被引用数を分析・予測してみた
325{icon} {views} CVPR2022・2023で採択された論文の被引用数を分析し、GitHubリポジトリやArxivでの公開が引用数に与える影響を調査しました。結果、これらの要因が引用数の増加に有意に寄与 […]...
YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information
863{icon} {views} タイトル:YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information 著者:Chie […]...
論文まとめ:SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling
190{icon} {views} タイトル:SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling 著 […]...
論文まとめ:LLM2CLIP: Powerful Language Model Unlock Richer Visual Representation
209{icon} {views} 論文タイトル:LLM2CLIP: Powerful Language Model Unlock Richer Visual Representation 著者:Weiquan Huan […]...