LLMの推論システムの定式化(1):GPU以外のボトルネック
167{icon} {views} LLM推論時にGPU以外が占める遅延要因(SQSのバッチ処理やログ書き込み等)を実験的に検証し、オーバーヘッドは入力トークン数に対してほぼ線形に近似できることを示した。トークナイザーの […]...
AppSyncによるGraphQLのAPIを試す
63{icon} {views} TerraformでAppSyncを構築し、HTTPSとWebSocketを組み合わせてリアルタイム通信ができるGraphQL APIを作成する手順をまとめてみました。Pythonからミ […]...