【12モデル比較】OpenAI・Gemini・ローカルLLMをファインチューニングしてGitHubライセンス判定
8{icon} {views} ModernBERTでの敗北から一転、OpenAI・Gemini・OSS LoRAを含む計12モデルのファインチューニング性能をGitHubライセンス判定タスクで徹底検証しました。APIモ […]...
ModernBERTでGitHubのライセンスの自動判定をやりたかったが難しかった話
45{icon} {views} ModernBERTはOpenAIのファインチューニングに勝てるのか、GitHubライセンスの自動判定タスクで検証しました。 結果はOpenAIがF1値0.816で圧勝し、複雑な意味理解 […]...
LLMで「良い論文」を定義し、サーベイしてみる
53{icon} {views} 引用数依存からの脱却——LLMによる「独創性」評価で、トップカンファレンスから真に読むべき論文を発掘する。 全2119件の論文をTier分類し、「革新性重視」と「トレンド重視」の戦略によ […]...
エージェント設計パターンによるRAG品質の改善
90{icon} {views} ICCV2025採択論文2,113本を対象としたサーベイ生成実験により、エージェント設計パターンの違いが出力品質に決定的な差を生むことが明らかになりました。特に「オーケストレーターの排除 […]...
WindowsでClaude CodeにAWS公式のMCPを追加する方法
53{icon} {views} Windows環境で、Claude CodeでユーザースコープでAWS公式のMCPを追加する方法をメモ。忘れがち+LinuxやmacOSの方法ばかり見るので。コマンドプロンプトから追加す […]...
AIエージェントのManusでBTO PCや投信を買ってみた
58{icon} {views} BTO PCの構成検討から投信選びまで、自律型エージェント「Manus」を使ってみたら面倒な調査タスクが劇的に効率化された。 一方で「エアフローの懸念」は正解でも「年利40%」のような嘘 […]...
コーディングエージェントの視座を上げさせるには
81{icon} {views} 今のコーディングエージェントは「優秀だが指示待ちの新卒」であり、つきっきりで指導するコストに人間側が疲弊している現状があります。そんなAIに「つぎはぎコード」を卒業させ、テックリードの視 […]...
日本語技術文書の翻訳に適切なコーディングエージェントはどれか
80{icon} {views} Claude Code、Codex、Antigravityの3大コーディングエージェントを用いて日本語技術文書(Rubyリファレンス)を英訳し、その品質をLLMとGrammarlyで徹底 […]...
LLMの推論システムの定式化(2):価格理論の推論速度の統合
224{icon} {views} LLM推論にかかるGPUインスタンス料金やトークン生成速度、サービス提供単価などを数式で統合し、黒字化の条件を理論的に示した。実験結果では、GPU以外のボトルネックの影響は小さく、高い […]...
GPT4.5でSVG生成を試す
581{icon} {views} OpenAIがGPT-4.5をリリースし、画像入出力やSVG生成などのマルチモーダル機能が大幅に強化された。その一方でモデルの大規模化に伴い高額な利用料金がネックになっている。 解禁さ […]...