実際に本場で稼働しているAIエージェントの初の大規模研究。 宣伝ではエージェントがすべてを変えていると言われています。しかしデータは異なる状況を示しています。 研究者たちは306人の実務者を対象に調査を行い、26の分野で20件の詳細なケーススタディを実施しました。彼らの発見は、生産エージェントの構築方法に関する一般的な前提に挑戦しています。 現実は、生産エージェントは意図的にシンプルで厳しく制約されているということです。 1) パターンと信頼性 - 68%は最大で10ステップしか実行せず、その後に人間の介入が必要となる。 - 47%が5段階未満のステップを完了しています。 - 70%は微調整なしの既製品モデルのプロンプトに依存しています。 - 74%は主に人間の評価に依存しています。 チームは意図的に自律性を信頼と引き換えにしています。 なぜ制約があるのでしょうか?信頼性は依然として最大の未解決課題です。実務者は大規模にエージェントの正確性を検証できません。ドメイン固有の本番タスクには公開ベンチマークが適用されることはほとんどありません。インタビューを受けたチームの75%は、正式なベンチマークを行わず、A/Bテストや直接的なユーザーフィードバックに頼って評価しています。 2) モデル選択 モデル選択パターンは研究者たちを驚かせました。20件中17件のケーススタディは、Claude Sonnet 4、Claude Opus 4.1、GPT o3といったクローズドソースのフロンティアモデルを使用しています。オープンソースの採用は稀であり、特定の制約によって駆動されます。例えば、推論コストが高額になる大量ワークロードや、外部プロバイダーとのデータ共有を妨げる規制要件などです。ほとんどのチームにとって、エージェントが強化する人間の専門家と比べれば、実行コストは無視できるほどです。 3) エージェントフレームワーク フレームワークの採用には顕著な乖離が見られます。調査回答者の61%がLangChainやLangGraphのようなサードパーティ製フレームワークを使用しています。しかし、本番環境で展開した面接を受けたチームの85%は、ゼロからカスタム実装を構築しています。その理由は、コアエージェントループが直接APIコールで実装しやすいからです。チームは依存関係の膨大化や抽象化層よりも、最小限の目的に特化した足場を好みます。 4) エージェント制御フロー 本番環境のアーキテクチャは、オープンエンドな自律性よりもあらかじめ定義された静的ワークフローを重視します。ケーススタディの80%は構造化された制御フローを使用しています。エージェントは自由に探索する環境ではなく、よくスケールされたアクション空間内で行動します。無制限探索を許可したケースは1件だけで、そのシステムは厳密なCI/CD検証を伴うサンドボックス環境でのみ動作していました。...