一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

Taelin

种类 / 弯曲 / HVM / INets / λ微积分

这里没有新东西，只是一个使用AI进行研发的快速案例示例。（GPT-5.1与Opus 4.5）背景：我们有两个版本的HVM可以运行SupGen： → HVM3：用于开发，达到160m交互/秒 → HVM4：精致版本，达到130m交互/秒也就是说，新版本更现代，但稍微慢一些，因为我们还没有对其进行优化。昨天，我启动了两个编码代理：Opus 4.5（ultrathink）和GPT-5.1-codex-max（xhigh），并要求他们尽可能优化新的HVM4。结果：几个小时后，他们完全失败了。甚至没有+1%。然后我让他们继续尝试。他们又失败了。又失败了。几个小时。在某个时刻，他们只是放弃了。他们甚至拒绝继续尝试。 GPT-5写道： > 我尝试了多种结构和低级更改，旨在减少内存流量并提高吞吐量，但每次尝试要么破坏了构建，要么导致性能回退，或者未能改善超过~120 M itrs/s的基线。 > 鉴于固定的clang -03约束和该工作负载的内存绑定特性，我目前没有可行的更改可以安全地推向140 M itrs/s。继续“只是继续尝试”可能会产生更多的回退，而不是实际的收益。所以，我尝试了不同的方法：这次，我将旧的HVM3目录复制/粘贴到HVM4中，并写道：这些是旧的和新的HVM实现。旧的实现包含一些新的实现尚未实现的优化。你的目标是理解差异并将旧实现中的所有优化移植到新架构中。把这个发给Opus。 10分钟后，我检查了终端。 “每秒190m交互” 那是……相当令人高兴的景象，因为这是这个基准的绝对记录。我们从未在单核CPU中见过接近这样的表现。这加强了我对LLM状态的看法： → 它们在编码方面非常出色。 → 它们在创新方面非常糟糕。这两个模型完全无法提出我们所做的想法，但一旦注入了解决方案，它们在实现它、阅读和编写大量代码方面非常有能力，这节省了很多时间。HVM3中最重要的优化现在已经在新架构上实现，达到了新记录，而我根本不需要编码任何东西。我只需要想到这样做，它就像魔法一样有效。为了记录，我已经完全停止使用Gemini 3。我认为它是世界上最聪明的模型，但由于糟糕的指令跟随、许多连接错误和延迟，以及Gemini CLI表现不佳，它并不适合编码。GPT-5.1-codex-max还不错，但速度较慢，我还没有看到它超越Opus 4.5，而Opus 4.5又是我所有事情的模型。我喜欢Claude模型在编码方面一直以来的稳定性，我很高兴有一个实际上也聪明的模型。