热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
🚨 GROK 4 在复杂推理测试中超越了 GPT 5
在最新的 ARC AGI 2 基准测试中,Grok 4 的得分约为 16%,超过了 GPT 5 的 9.9%,但每个任务的成本较高,约为 2 到 4 美元,而 GPT 5 仅为 0.73 美元。
该测试衡量推理能力而非记忆能力,Grok 4 在 ARC AGI 1 中也以 68% 领先于 GPT 5 的 65.7%。目前,GPT 5 仍然提供更好的性价比。
较小的模型版本得分较低,目前正在进行互动 ARC AGI 3 谜题测试的早期试验。
这一胜利提升了 Grok 4 的地位,但人工智能竞赛远未结束。
来源:The Decoder, @minchoi
41.01K
热门
排行
收藏