熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
🚨 GROK 4 在複雜推理測試中超越 GPT 5
在最新的 ARC AGI 2 基準測試中,Grok 4 的得分約為 16%,超過了 GPT 5 的 9.9%,但每個任務的成本較高,為 2 到 4 美元,而 GPT 5 為 0.73 美元。
該測試測量推理能力而非記憶,Grok 4 在 ARC AGI 1 中也以 68% 領先於 GPT 5 的 65.7%。目前 GPT 5 仍然提供更好的價值。
較小的模型版本得分較低,目前正在進行互動式 ARC AGI 3 謎題測試的早期試驗。
這次勝利提升了 Grok 4 的地位,但 AI 競賽遠未結束。
來源:The Decoder, @minchoi
42.54K
熱門
排行
收藏