LLaMA.cpp+(cu)BLASのCPU/GPUのスループット検証(ローカル編)
1.8k{icon} {views} LLaMA.cppのスループットをローカルで検証してみました。OpenLLaMA 7B/13Bをベースに、CPU/GPUのそれぞれの生成速度(token per second)と量子 […]...
TensorFlowの前処理を劇的に遅くするNumpy配列への変換に注意
8.3k{icon} {views} TensorFlowの前処理では、Numpy配列とTensorFlowの配列を同時に扱うことがあります。サンプル単位のTFの配列を、np.asarrayでバッチ化したら激重になってし […]...
Google ColabのTPUでResNetのベンチマークを取ってみた
5.9k{icon} {views} Google ColaboratoryでTPUが使えるようになりましたが、さっそくどのぐらい速いのかベンチマークを取ってみました。以前やったResNetのベンチマークを使います。 環 […]...
ResNetをKeras(TensorFlow, MXNet)、Chainer、PyTorchで比較してみる
17.2k{icon} {views} 前からディープラーニングのフレームワークの実行速度について気になっていたので、ResNetを題材として比較してみました。今回比較するのはKeras(TensorFlow、MXNet […]...