LLM | Shikoan's ML Blog

論文まとめ：Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens

2025-07-04

41{icon} {views} タイトル：Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens URL：https://ar […]...

2025-06-06

76{icon} {views} タイトル：StarVector: Generating Scalable Vector Graphics Code from Images and Text カンファ：CVPR 2025 […]...

2025-03-05

132{icon} {views} LLM推論にかかるGPUインスタンス料金やトークン生成速度、サービス提供単価などを数式で統合し、黒字化の条件を理論的に示した。実験結果では、GPU以外のボトルネックの影響は小さく、高い […]...

2025-02-22

296{icon} {views} LLM推論時にGPU以外が占める遅延要因（SQSのバッチ処理やログ書き込み等）を実験的に検証し、オーバーヘッドは入力トークン数に対してほぼ線形に近似できることを示した。トークナイザーの […]...

2025-02-21

66{icon} {views} タイトル：Mélange: Cost Efficient Large Language Model Serving by Exploiting GPU Heterogeneity 論文U […]...

2025-02-14

290{icon} {views} 大規模言語モデル(LLM)を強化学習によって訓練し、競争プログラミングにおける高度な推論とコーディング能力を高めたOpenAIによるLRMの研究。特にo3モデルは、人間によるドメイン特 […]...

2025-01-31

110{icon} {views} タイトル：Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling […]...

2025-01-05

295{icon} {views} 画像とテキストの組み合わせで「ボケて」を学習させるため、GPT-4oをファインチューニングしてみた。じわじわくる系の面白さは学習できたものの、OpenAIのコンプライアンスが厳しく、多 […]...

2024-12-13

274{icon} {views} タイトル：Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and […]...

2024-11-21

176{icon} {views} タイトル：SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling 著 […]...