热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
每个人都忽视了这里真正的故事。
这不是一种“提示技术”。这篇论文的标题是《递归语言模型》,而不是“递归元认知”。而且作者们并不是随机的研究人员在为引用次数而努力。
奥马尔·哈塔布创建了DSPy,该项目在GitHub上获得了31,000多个星标,并改变了人们构建复合AI系统的方式。蒂姆·克拉斯卡与谷歌的杰夫·迪恩一起开创了学习索引结构,并在麻省理工学院的数据系统与AI实验室任职。亚历克斯·张是一名在这两个领域交叉工作的博士生。
这篇论文实际上解决了一个特定问题:LLM在长上下文中性能下降。图表显示,随着输入长度从2^14扩展到2^21个标记,GPT-5的性能崩溃,而RLM保持稳定的性能。它们处理的输入超出了上下文窗口100倍。
哈塔布自己在推特上的关键见解:“大多数人误解RLM是关于LLM自我调用的。更深层的见解是LLM与自己的提示作为对象进行交互。”
这扩展了哈塔布整个研究的弧线。DSPy将提示转变为程序模块。ColBERT使检索更智能。RLM将上下文本身转变为模型可以像内存中的数据一样操控的东西。
Prime Intellect,领先的去中心化AI实验室之一,已经在此基础上进行构建。他们写道,RLM将使他们“通过强化学习教会模型管理自己的上下文,从头到尾”用于运行数周或数月的代理。
真正的交易是什么?这解决了每个AI实验室面临的一个限制:上下文窗口是一个硬性上限。通过架构和训练扩展它们是昂贵的。RLM提供了一种在推理时的方法,可以与现有模型一起使用。
但要注意其中的陷阱:这需要能够可靠地编写和执行代码的模型。基准测试使用的是Python REPL中的GPT-5。代码生成能力较弱的模型将难以干净地实现递归分解。这种技术的扩展依赖于代码能力,而不仅仅是推理能力。
热门
排行
收藏
