GPT-5刚刚发布。让我们评估它在实现复杂AGI类能力方面的表现: - @grok 4(思维)在ARC-AGI-2(复杂推理)和ARC-AGI-1(要求较低)测试中均超越了@OpenAI GPT-5(高)。 - Grok 4的更高准确性伴随着每个任务显著更高的成本,范围从2美元到4美元不等。 - 较轻的GPT-5变体(迷你/纳米)在这些基准测试中提供了性能与成本之间的平衡权衡。 请注意,ARC-AGI-3测试目前正在进行中,以上测试的结果并不意味着模型的优越性。 h/t @arcprize
1.14K