論文まとめ:StarVector: Generating Scalable Vector Graphics Code from Images and Text
24{icon} {views} タイトル:StarVector: Generating Scalable Vector Graphics Code from Images and Text カンファ:CVPR 2025 […]...
LLMの推論システムの定式化(2):価格理論の推論速度の統合
109{icon} {views} LLM推論にかかるGPUインスタンス料金やトークン生成速度、サービス提供単価などを数式で統合し、黒字化の条件を理論的に示した。実験結果では、GPU以外のボトルネックの影響は小さく、高い […]...
LLMの推論システムの定式化(1):GPU以外のボトルネック
258{icon} {views} LLM推論時にGPU以外が占める遅延要因(SQSのバッチ処理やログ書き込み等)を実験的に検証し、オーバーヘッドは入力トークン数に対してほぼ線形に近似できることを示した。トークナイザーの […]...
論文まとめ:Mélange: Cost Efficient Large Language Model Serving by Exploiting GPU Heterogeneity
56{icon} {views} タイトル:Mélange: Cost Efficient Large Language Model Serving by Exploiting GPU Heterogeneity 論文U […]...
論文まとめ:Competitive Programming with Large Reasoning Models
246{icon} {views} 大規模言語モデル(LLM)を強化学習によって訓練し、競争プログラミングにおける高度な推論とコーディング能力を高めたOpenAIによるLRMの研究。特にo3モデルは、人間によるドメイン特 […]...
論文まとめ:Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling
103{icon} {views} タイトル:Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling […]...
GPT-4oのファインチューニングで画像に対する「ボケて」を学習
273{icon} {views} 画像とテキストの組み合わせで「ボケて」を学習させるため、GPT-4oをファインチューニングしてみた。じわじわくる系の面白さは学習できたものの、OpenAIのコンプライアンスが厳しく、多 […]...
論文まとめ:Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
229{icon} {views} タイトル:Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and […]...
論文まとめ:SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling
159{icon} {views} タイトル:SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling 著 […]...
論文まとめ:LLM2CLIP: Powerful Language Model Unlock Richer Visual Representation
174{icon} {views} 論文タイトル:LLM2CLIP: Powerful Language Model Unlock Richer Visual Representation 著者:Weiquan Huan […]...