首個大規模研究AI代理實際運行於生產環境。 宣傳說代理正在改變一切。但數據卻講述了不同的故事。 研究人員調查了306名從業者,並在26個領域進行了20個深入的案例研究。他們的發現挑戰了關於生產代理構建方式的常見假設。 現實是:生產代理故意保持簡單且受到嚴格限制。 1) 模式與可靠性 - 68% 的代理在需要人類干預之前最多執行10個步驟。 - 47% 完成少於5個步驟。 - 70% 依賴現成模型的提示,沒有任何微調。 - 74% 主要依賴人類評估。 團隊故意在自主性和可靠性之間進行權衡。 為什麼會有這些限制?可靠性仍然是最大的未解決挑戰。從業者無法在大規模上驗證代理的正確性。公共基準很少適用於特定領域的生產任務。75% 的受訪團隊在沒有正式基準的情況下進行評估,而是依賴A/B測試和直接用戶反饋。 2) 模型選擇 模型選擇模式讓研究人員感到驚訝。20個案例研究中有17個使用了封閉源代碼的前沿模型,如Claude Sonnet 4、Claude Opus 4.1和GPT o3。開源採用很少,並受到特定限制的驅動:高容量工作負載使得推理成本變得過高,或是監管要求阻止與外部提供者共享數據。對於大多數團隊來說,運行成本與增強的人工專家相比是微不足道的。 3) 代理框架 框架的採用顯示出明顯的分歧。61%的調查受訪者使用第三方框架,如LangChain/LangGraph。但85%的受訪團隊在生產部署中從零開始構建自定義實現。原因是:核心代理循環通過直接API調用實現起來相對簡單。團隊更喜歡最小化的、專門構建的支架,而不是依賴膨脹和抽象層。 4) 代理控制流程 生產架構更傾向於預定義的靜態工作流程,而非開放式自主性。80%的案例研究使用結構化控制流程。代理在明確範圍的行動空間內運作,而不是自由探索環境。只有一個案例允許不受限制的探索,該系統僅在經過嚴格CI/CD驗證的沙盒環境中運行。...