GPT-5 剛剛發布。讓我們評估它在實現複雜 AGI 類能力方面的表現: - @grok 4(思考)在 ARC-AGI-2(複雜推理)和 ARC-AGI-1(要求較低)測試中均超越 @OpenAI GPT-5(高)。 - Grok 4 的卓越準確性伴隨著每個任務的成本顯著提高,範圍從 2 美元到 4 美元不等。 - 輕量級的 GPT-5 變體(迷你/納米)在這些基準上提供了性能和成本之間的平衡折衷。 請注意,ARC-AGI-3 測試目前正在進行中,以上測試的結果並不意味著模型的優越性。 h/t @arcprize
1.18K