热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
GPT-5刚刚发布。让我们评估它在实现复杂AGI类能力方面的表现:
- @grok 4(思维)在ARC-AGI-2(复杂推理)和ARC-AGI-1(要求较低)测试中均超越了@OpenAI GPT-5(高)。
- Grok 4的更高准确性伴随着每个任务显著更高的成本,范围从2美元到4美元不等。
- 较轻的GPT-5变体(迷你/纳米)在这些基准测试中提供了性能与成本之间的平衡权衡。
请注意,ARC-AGI-3测试目前正在进行中,以上测试的结果并不意味着模型的优越性。
h/t @arcprize

1.14K
热门
排行
收藏