LLMの推論システムの定式化(1):GPU以外のボトルネック
277{icon} {views} LLM推論時にGPU以外が占める遅延要因(SQSのバッチ処理やログ書き込み等)を実験的に検証し、オーバーヘッドは入力トークン数に対してほぼ線形に近似できることを示した。トークナイザーの […]...
論文まとめ:Mélange: Cost Efficient Large Language Model Serving by Exploiting GPU Heterogeneity
57{icon} {views} タイトル:Mélange: Cost Efficient Large Language Model Serving by Exploiting GPU Heterogeneity 論文U […]...
Auto Scaling Groupの「Stoppedウォームプール」を試す
52{icon} {views} Auto Scaling GroupのStopped状態のウォームプールを利用することで、初回セットアップを終えたインスタンスを停止したまま待機させ、必要時に素早く起動できる。Activ […]...
ElastiCache RedisでEC2からPub/Subを試す(Redis OSS)
183{icon} {views} EC2からTerraformで構築したRedisにPub/Subを行い、ミリ秒レベルの遅延を検証した。ValkeyではなくOSS版Redisを用いつつ、コードサンプルを通じてシンプルか […]...
WAFログをCloudWatch Logsと連携して海外からの攻撃を自動検知して通知する
111{icon} {views} ALBにWAFを設定し、日本以外からのアクセスをブロックしてCloudWatch Logsへ送信、メトリックフィルターとSNSを使ったメール通知を実現。結果としてロシアからの大規模アク […]...
CloudFormationのメタデータでEC2ユーザーデータの制限を回避する
104{icon} {views} CloudFormationのMetadata機能を使い、EC2にYAML形式で構成を適用することでユーザーデータの16KB制限を回避できる。Terraformと組み合わせてPyTor […]...
AWS Configを使ってCloudFormationのドリフトを検知する
115{icon} {views} AWS Configを活用し、CloudFormationスタックのドリフトを自動的に「非準拠」として検知・管理する手順を解説した記事です。ルール設定自体よりも、RecorderやIA […]...
S3バッチオペレーションで大量ファイルを一括変換する
238{icon} {views} AWS S3バッチオペレーションを使い、Lambdaで数万の画像を一気にリサイズする実装手順を紹介。料金やIAMロールの設定、Terraformによるデプロイ手順など、実運用に役立つポ […]...
ECRプッシュでFargateを自動更新するCodePipelineによるCI/CD
459{icon} {views} CodePipelineとCodeDeployのECSアクションプロバイダーを使い、ECRにイメージがプッシュされるたびにFargateを自動デプロイする仕組みを構築。Terrafor […]...
論文まとめ:Competitive Programming with Large Reasoning Models
262{icon} {views} 大規模言語モデル(LLM)を強化学習によって訓練し、競争プログラミングにおける高度な推論とコーディング能力を高めたOpenAIによるLRMの研究。特にo3モデルは、人間によるドメイン特 […]...