Embedding APIの決定性について
34{icon} {views} OpenAI等のEmbedding APIに潜む非決定性が、クラスタリング結果に及ぼす影響を各社モデルで比較検証しました。結果として一部のAPIは微小なベクトルのブレがクラスタ境界を大き […]...
【12モデル比較】OpenAI・Gemini・ローカルLLMをファインチューニングしてGitHubライセンス判定
52{icon} {views} ModernBERTでの敗北から一転、OpenAI・Gemini・OSS LoRAを含む計12モデルのファインチューニング性能をGitHubライセンス判定タスクで徹底検証しました。API […]...
ModernBERTでGitHubのライセンスの自動判定をやりたかったが難しかった話
64{icon} {views} ModernBERTはOpenAIのファインチューニングに勝てるのか、GitHubライセンスの自動判定タスクで検証しました。 結果はOpenAIがF1値0.816で圧勝し、複雑な意味理解 […]...
LLMで「良い論文」を定義し、サーベイしてみる
106{icon} {views} 引用数依存からの脱却——LLMによる「独創性」評価で、トップカンファレンスから真に読むべき論文を発掘する。 全2119件の論文をTier分類し、「革新性重視」と「トレンド重視」の戦略に […]...
エージェント設計パターンによるRAG品質の改善
95{icon} {views} ICCV2025採択論文2,113本を対象としたサーベイ生成実験により、エージェント設計パターンの違いが出力品質に決定的な差を生むことが明らかになりました。特に「オーケストレーターの排除 […]...
WindowsでClaude CodeにAWS公式のMCPを追加する方法
78{icon} {views} Windows環境で、Claude CodeでユーザースコープでAWS公式のMCPを追加する方法をメモ。忘れがち+LinuxやmacOSの方法ばかり見るので。コマンドプロンプトから追加す […]...
AIエージェントのManusでBTO PCや投信を買ってみた
62{icon} {views} BTO PCの構成検討から投信選びまで、自律型エージェント「Manus」を使ってみたら面倒な調査タスクが劇的に効率化された。 一方で「エアフローの懸念」は正解でも「年利40%」のような嘘 […]...
コーディングエージェントの視座を上げさせるには
83{icon} {views} 今のコーディングエージェントは「優秀だが指示待ちの新卒」であり、つきっきりで指導するコストに人間側が疲弊している現状があります。そんなAIに「つぎはぎコード」を卒業させ、テックリードの視 […]...
日本語技術文書の翻訳に適切なコーディングエージェントはどれか
86{icon} {views} Claude Code、Codex、Antigravityの3大コーディングエージェントを用いて日本語技術文書(Rubyリファレンス)を英訳し、その品質をLLMとGrammarlyで徹底 […]...
LLMの推論システムの定式化(2):価格理論の推論速度の統合
228{icon} {views} LLM推論にかかるGPUインスタンス料金やトークン生成速度、サービス提供単価などを数式で統合し、黒字化の条件を理論的に示した。実験結果では、GPU以外のボトルネックの影響は小さく、高い […]...