热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

elvis
使用 AI 代理进行构建 @dair_ai • 上一篇: Meta AI、Galactica、LLM、Elastic、PaperswithCode、博士 • 我分享了如何使用 LLM 和 AI 代理⬇️进行构建的见解
谷歌刚刚发布了一份关于多智能体系统有效上下文工程的精彩指南。
AI开发者们请注意!(记得收藏)
以下是我的关键要点:
上下文窗口并不是瓶颈。上下文工程才是。
对于更复杂和长远的问题,上下文管理不能被视为一个简单的“字符串操作”问题。
目前处理智能体系统上下文的默认方法仍然是将所有内容塞入提示中。更多的历史,更多的令牌,更多的混乱。大多数团队将上下文视为字符串连接问题。
但是原始上下文转储会造成三个关键失败:
> 重复信息导致的成本爆炸
> “迷失在中间”效应导致的性能下降
> 当智能体在系统中错误归因行为时,幻觉率增加
上下文管理成为与存储和计算并行的架构问题。这意味着显式转换取代了临时的字符串连接。智能体默认接收所需的最小上下文,并通过工具显式请求额外信息。
看起来谷歌的智能体开发工具包确实在深入思考上下文管理。它引入了一种分层架构,将上下文视为“对有状态系统的编译视图”,而不是简单的提示填充活动。
这看起来是什么样的?
1) 结构:分层模型
该框架在四个不同层次上将存储与展示分开:
1) 工作上下文处理每次调用的短暂视图。
2) 会话维护持久事件日志,捕获每条消息、工具调用和控制信号。
3) 内存提供可搜索的、超越单一会话的长期知识。
4) 工件通过版本引用而非内嵌嵌入来管理大型二进制数据。
上下文编译实际上是如何工作的?它通过有序的LLM流与显式处理器来实现。内容处理器执行三项操作:选择过滤器过滤无关事件,转换将事件扁平化为适当角色的内容对象,注入将格式化的历史写入LLM请求。
内容处理器本质上是会话与工作上下文之间的桥梁。
该架构通过将上下文分为稳定前缀(指令、身份、摘要)和可变后缀(最新回合、工具输出)来实现前缀缓存。此外,static_instruction原语保证系统提示的不可变性,保持跨调用的缓存有效性。
2) 现在重要的代理管理
一旦你弄清楚了结构,核心挑战就变成了相关性。
你需要弄清楚现在活跃窗口中应该包含什么。
ADK通过人类定义的架构与智能体决策之间的协作来回答这个问题。工程师定义数据的存放位置及其摘要方式。智能体动态决定何时“获取”特定的内存块或工件。
对于大型负载,ADK应用了句柄模式。一个5MB的CSV或巨大的JSON响应存放在工件存储中,而不是提示中。智能体默认只看到轻量级引用。当需要原始数据时,它们调用LoadArtifactsTool进行临时扩展。一旦任务完成,工件就会卸载。这将永久上下文税转变为精确的按需访问。
对于长期知识,MemoryService提供两种检索模式:
1) 反应性回忆:智能体识别知识空白并显式搜索语料库。
2) 主动回忆:预处理器在用户输入上运行相似性搜索,在模型调用之前注入相关片段。智能体准确回忆当前步骤所需的片段,而不是携带他们曾经进行过的每次对话。
这一切让我想起了Claude Skills的分层方法,这确实提高了Claude Code中上下文的有效使用。
3) 多智能体上下文
单智能体系统遭受上下文膨胀。当构建多智能体时,这个问题进一步放大,容易导致“上下文爆炸”,因为你引入了更多的子智能体。
为了使多智能体协调有效,ADK提供了两种模式。将智能体视为工具,专门的智能体作为可调用的接收专注提示,而没有祖先历史。智能体转移,允许完全控制的交接,子智能体继承会话视图。include_contents参数控制上下文流,默认为完整的工作上下文或仅提供新提示。
在智能体交接期间,什么防止了幻觉?解决方案是对话翻译。先前的助手消息转换为带有归属标签的叙述上下文。来自其他智能体的工具调用被明确标记。每个智能体在不错误归因于更广泛系统历史的情况下承担助手角色。
最后,你不需要使用谷歌ADK来应用这些见解。我认为这些见解可以广泛应用于构建多智能体系统。
(图片由nano banana pro提供)

1.2K
// 环境扩展的案例 //
环境扩展可能与模型扩展一样重要,尤其对于自主 AI。
当前的 AI 研究表明,构建一个强大的自主 AI 模型不仅仅是关于更好的推理。它还涉及更好的环境。
目前训练有能力的 AI 代理的默认方法是收集静态轨迹或人类示范。这需要更多的数据、更多的例子和更多的注释工作。
但静态数据无法教会动态决策。以这种方式训练的模型在面对真实自主任务的长期目标导向特性时表现不佳。
这项新研究引入了 Nex-N1,一个系统性扩展交互训练环境的多样性和复杂性的框架,而不仅仅是扩展数据。
代理能力源于互动,而非模仿。与其收集更多的示范,他们构建了基础设施,能够从自然语言规范中自动生成多样的代理架构和工作流程。
该系统有三个组成部分。NexAU(代理宇宙)提供一个通用代理框架,从简单配置生成复杂的代理层次结构。NexA4A(代理为代理)自动从自然语言合成多样的代理架构。NexGAP 通过集成现实世界的 MCP 工具来弥合模拟与现实之间的差距,以实现基于真实轨迹的合成。
结果:
- 在 τ2-bench 上,基于 DeepSeek-V3.1 的 Nex-N1 得分 80.2,超越基础模型的 42.8。
- 在 SWE-bench Verified 上,Qwen3-32B-Nex-N1 达到 50.5%,而基础模型为 12.9%。
- 在工具使用的 BFCL v4 上,Nex-N1(65.3)超越 GPT-5(61.6)。
在 43 个编码场景的真实项目开发中的人类评估中,Nex-N1 在 64.5% 的情况下胜过或平局于 Claude Sonnet 4.5,并在 ~70% 的情况下胜过 GPT-5。
他们还在 Nex-N1 上构建了一个深度研究代理,在深度研究基准上取得了 47.0% 的成绩,具备生成可视化报告的能力,包括幻灯片和研究海报。
论文:

8.04K
热门
排行
收藏


