热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Robert Youssef
这篇论文让我震惊 🤯
X 上的每个人都在吹嘘“LLM 作为裁判”,就好像它是某种神奇的真理神谕。
但这篇论文展示了一些疯狂的事情:
你看到的大多数 LLM 评估都是设计上的偏见,不是因为模型不好,而是因为裁判本身悄悄地歪曲了分数。
这里有个疯狂的部分:
如果裁判在捕捉错误答案方面稍微差一点(低特异性),它会夸大准确性。
如果它在识别正确答案方面稍微差一点(低敏感性),它会降低准确性。
同一个模型。同样的输出。
但你得到两个不同的裁判 = 两个不同的“准确性”。
作者展示了数学、误差曲线,以及裁判开始无意中对你撒谎的确切点。
所以他们构建了一个修复方案:
一个插件估算器,使用校准数据将裁判分数调整回真实分数。
加上一个置信区间,最终反映了来自评估集和校准集的所有不确定性。
让我震惊的是:
他们甚至展示了如何有效分配校准样本,以便你不会浪费预算,这是 LLM 评估中没有人谈论的事情。
如果你一直在使用原始的“LLM 裁判准确性”来比较模型……
你在时间线中看到的那些图表的一半可能都是错误的。
这篇论文是对整个评估生态系统的现实检查。

18.48K
这篇NVIDIA的论文让我大脑崩溃。
每个人都在谈论用更大的集群和更智能的优化器来扩展变压器……与此同时,NVIDIA和牛津大学刚刚展示了可以使用进化策略训练十亿参数模型,这种方法大多数人认为是古老的。
诀窍是一个叫做EGGROLL的新系统,它颠覆了进化策略的整个成本模型。
通常,进化策略在规模上会失败,因为你必须为每个种群成员生成全秩扰动矩阵。对于十亿参数模型,这意味着疯狂的内存移动和荒谬的计算。
这些家伙通过使用两个瘦矩阵A和B生成低秩扰动,并让ABᵀ作为更新来解决这个问题。
种群平均值的行为就像全秩更新,但不需要支付全秩的代价。
结果是什么?
他们以数十万的种群规模运行进化策略,而早期的工作无法触及这个数字,因为一切在内存压力下都崩溃了。现在,吞吐量基本上和批量推理一样快。
这在任何无梯度方法中都是前所未闻的。
数学也能验证。
低秩近似以1/r的速率收敛到真实的进化策略梯度,因此推动秩重现全进化策略行为,而没有计算爆炸。
但实验才是疯狂的地方。
→ 他们从头开始预训练递归语言模型,仅使用整数数据类型。没有梯度。没有反向传播。即使在超大规模下也完全稳定。
→ 他们在LLM推理基准上匹配GRPO级别的方法。
这意味着进化策略可以在真实任务上与现代的基于强化学习的推理方法竞争。
→ 进化策略突然变得适用于大规模、离散、混合和非可微系统,正是反向传播痛苦或不可能的地方。
这篇论文悄然重写了一个边界:
我们并不是因为算法不好而难以扩展进化策略,而是因为我们以最昂贵的方式进行。
NVIDIA和牛津大学消除了瓶颈。
现在,进化策略不再是一个古老的想法……它们是一种前沿规模的训练方法。

114.33K
这让我大吃一惊 🤯
我刚刚阅读了一篇关于 ARC 的 MIT 论文,它完全改变了我对基准测试的看法。
研究人员根本没有把 ARC 当作逻辑难题。他们把每个任务都视为一种视觉转换。
网格输入 → 网格输出。没有比这更复杂的了。
他们构建了一个小型视觉变换器,从头开始在 ARC 的小数据集上进行训练,并使用一个简单的画布技巧将每个示例放置成图像。
然后他们添加了尺度变化、平移和经典计算机视觉工作中会看到的基本视觉先验。
就这样。
没有思维链,没有提示,没有巧妙的符号技巧。
只是一个模型在观察像素,学习形状如何移动、翻转、增长、收缩或传递。
疯狂的部分?
这个小模型单独达到 54.5%,与 U-Net 结合时达到 60.4%。
这大约是普通人类表现的平均水平,而这个模型的大小仅相当于一个小型移动应用。
以这种方式看到 ARC 被解决,使整个基准测试感觉不同。
这些任务突然看起来像图像映射,而不是隐藏规则。反射任务实际上看起来像反射。
对称任务看起来像对称。重力任务看起来像“掉落”在画布上的物体。
老实说,我仍在消化这一切。
这可能是我多年中读到的最扎实的 ARC 结果,它来自于对基准测试的最字面理解。

7.14K
热门
排行
收藏
