LLaMA.cpp+(cu)BLASのCPU/GPUのスループット検証(AWS編)
729{icon} {views} AWSのEC2環境でのLLaMA.cppのスループットをCPU,GPUインスタンスで比較してみました。結論としてはGPUのほうが良さそうということですが、インスタンスあたりのコストを考 […]...
LLaMA.cpp+(cu)BLASのCPU/GPUのスループット検証(ローカル編)
1.7k{icon} {views} LLaMA.cppのスループットをローカルで検証してみました。OpenLLaMA 7B/13Bをベースに、CPU/GPUのそれぞれの生成速度(token per second)と量子 […]...