LLaMA.cpp+(cu)BLASのCPU/GPUのスループット検証(AWS編)
886{icon} {views} AWSのEC2環境でのLLaMA.cppのスループットをCPU,GPUインスタンスで比較してみました。結論としてはGPUのほうが良さそうということですが、インスタンスあたりのコストを考 […]...
LLaMA.cpp+(cu)BLASのCPU/GPUのスループット検証(ローカル編)
2k{icon} {views} LLaMA.cppのスループットをローカルで検証してみました。OpenLLaMA 7B/13Bをベースに、CPU/GPUのそれぞれの生成速度(token per second)と量子化の […]...
論文まとめ:Evaluating and Inducing Personality in Pre-trained Language Models
424{icon} {views} タイトル:Evaluating and Inducing Personality in Pre-trained Language Models 著者:Guangyuan Jiang, […]...
Mini-GPT4をDockerで動かしてバッチ処理する
802{icon} {views} Mini-GPT4というマルチモーダルLLMをDockerを使ってバッチ処理をしてみました。係数を部分的にDockerイメージに組み込んだり、使用するLLMを切り替えられるようにちょっ […]...
OpenAIのChatGPT APIの並列化を試す(LangChain)
2k{icon} {views} 大量のデータをChatGPTで推論したいときに、並列化したらどの程度速くなったのかを実験してみました。振れ幅はかなり大きいですが、かなり並列化の効果はありました。 はじめに ChatGP […]...
論文まとめ:TinyStories: How Small Can Language Models Be and Still Speak Coherent English?
621{icon} {views} タイトル:TinyStories: How Small Can Language Models Be and Still Speak Coherent English? 著者:Rone […]...
論文まとめ:Sentence Simplification via Large Language Models
545{icon} {views} 論文:Sentence Simplification via Large Language Models 著者:Yutao Feng, Jipeng Qiang, Yun Li, Yu […]...
LangChainでConversationMemoryBufferのトークン数対策をする
5.5k{icon} {views} LangChainでChatGPTを使っていると、特に長時間や長い文章・指示を入れて会話するときにトークン数が問題になります。プロンプトに入れる会話履歴を選別するプロセスが必要になる […]...
LangChainのChatAgentのデフォルトのプロンプトをのぞく
5.5k{icon} {views} LangChainのAgentをカスタムできると自由度が上がりますが、LangChainのAgentがいまいちブラックボックスだった感があったので、デフォルトのプロンプトを解剖してみ […]...