論文まとめ:NVIDIA Nemotron Nano V2 VL
25{icon} {views} NVIDIAの「Nemotron Nano V2 VL」は、12Bの軽量かつ高効率な視覚言語モデルです。MambaとTransformerのハイブリッド構成と、動画の静的領域を間引くEV […]...
論文まとめ:Has GPT-5 Achieved Spatial Intelligence? An Empirical Study
153{icon} {views} タイトル:Has GPT-5 Achieved Spatial Intelligence? An Empirical Study 著者:Zhongang Cai, Yubo Wang, […]...
論文まとめ:Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens
124{icon} {views} タイトル:Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens URL:https://a […]...
論文まとめ:StarVector: Generating Scalable Vector Graphics Code from Images and Text
148{icon} {views} タイトル:StarVector: Generating Scalable Vector Graphics Code from Images and Text カンファ:CVPR 202 […]...
LLMの推論システムの定式化(2):価格理論の推論速度の統合
200{icon} {views} LLM推論にかかるGPUインスタンス料金やトークン生成速度、サービス提供単価などを数式で統合し、黒字化の条件を理論的に示した。実験結果では、GPU以外のボトルネックの影響は小さく、高い […]...
LLMの推論システムの定式化(1):GPU以外のボトルネック
388{icon} {views} LLM推論時にGPU以外が占める遅延要因(SQSのバッチ処理やログ書き込み等)を実験的に検証し、オーバーヘッドは入力トークン数に対してほぼ線形に近似できることを示した。トークナイザーの […]...
論文まとめ:Mélange: Cost Efficient Large Language Model Serving by Exploiting GPU Heterogeneity
82{icon} {views} タイトル:Mélange: Cost Efficient Large Language Model Serving by Exploiting GPU Heterogeneity 論文U […]...
論文まとめ:Competitive Programming with Large Reasoning Models
361{icon} {views} 大規模言語モデル(LLM)を強化学習によって訓練し、競争プログラミングにおける高度な推論とコーディング能力を高めたOpenAIによるLRMの研究。特にo3モデルは、人間によるドメイン特 […]...
論文まとめ:Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling
145{icon} {views} タイトル:Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling […]...
GPT-4oのファインチューニングで画像に対する「ボケて」を学習
372{icon} {views} 画像とテキストの組み合わせで「ボケて」を学習させるため、GPT-4oをファインチューニングしてみた。じわじわくる系の面白さは学習できたものの、OpenAIのコンプライアンスが厳しく、多 […]...