LLMの推論システムの定式化(2):価格理論の推論速度の統合
128{icon} {views} LLM推論にかかるGPUインスタンス料金やトークン生成速度、サービス提供単価などを数式で統合し、黒字化の条件を理論的に示した。実験結果では、GPU以外のボトルネックの影響は小さく、高い […]...
PyTorch→ONNXのコンバートでモデルの入力サイズを可変にして推論する
14.6k{icon} {views} ONNXでモデルは入力サイズを可変にできます。PyTorch→ONNXの変換と、ONNXRuntimeでの推論方法、また可変にしたことによる速度の副作用を検証していきます。 きっか […]...