熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
每個人都在反向看待這個問題。
標題寫著「代理比預期的簡單」。真正的發現是簡單性就是策略。
68% 在人類干預之前限制在 10 步驟並不是一種限制,而是一種設計選擇。團隊發現可靠性會累積,而自主性會降低它。你添加的每一步都會乘以你的失敗模式。
框架的分裂更具啟發性。61% 的調查受訪者使用 LangChain。但 85% 的實際生產部署團隊是從零開始構建的。回答調查的人在實驗,而發送產品的人則在避免依賴。
封閉源代碼的模式告訴你我們在採用曲線的哪個階段。20 個案例研究中有 17 個運行 Claude 或 GPT,因為推理成本仍然微不足道,相較於這些代理增強的人類。只有當你達到使 API 價格過高的量時,開源才會獲勝。
這項研究的價值在於:它測量的是有效的東西,而不是演示效果好的東西。「令人印象深刻的原型」和「生產系統」之間的差距充滿了人類參與的檢查點、預定的工作流程,以及即使在高信心輸出下也有 5% 的抽樣。
這就是新技術實際上是如何被採用的。不是通過取代人類判斷,而是通過有意的約束來贏得信任。複雜性會在後面出現,當可靠性得到證明之後。
熱門
排行
收藏

