热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
每个人都在反向看待这个问题。
标题写着“代理比预期更简单”。真正的发现是,简单性就是策略。
68% 的限制在于在人工干预之前最多 10 步,这并不是一个限制。这是一个设计选择。团队们发现,可靠性是累积的,而自主性会削弱它。你添加的每一步都会增加失败模式。
框架的分裂更具启发性。61% 的调查受访者使用 LangChain。但 85% 的实际生产部署团队是从头开始构建的。回答调查的人在进行实验。进行交付的人则在避免依赖。
闭源模式告诉你我们在采用曲线上的位置。20 个案例研究中有 17 个运行 Claude 或 GPT,因为推理成本与这些代理增强的人类相比仍然微不足道。只有在达到使 API 定价过高的数量时,开源才会获胜。
这项研究的价值在于:它衡量的是有效的东西,而不是演示效果好的东西。“令人印象深刻的原型”和“生产系统”之间的差距充满了人机协作的检查点、预定义的工作流程,以及即使在高置信度输出上也有 5% 的抽样。
这就是新技术如何被实际采用的。不是通过取代人类判断,而是通过通过有意识的约束来赢得信任。复杂性是在可靠性得到证明后才会出现的。
热门
排行
收藏

