Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 GROK 4 VƯỢT TRỘI GPT 5 TRONG BÀI KIỂM TRA LÝ LUẬN PHỨC TẠP
Trong bài kiểm tra ARC AGI 2 mới nhất, Grok 4 đạt khoảng 16%, vượt qua 9.9% của GPT 5 nhưng với chi phí cao hơn từ $2 đến $4 cho mỗi nhiệm vụ so với $0.73 của GPT 5.
Bài kiểm tra đo lường khả năng lý luận hơn là ghi nhớ, và Grok 4 cũng dẫn đầu ARC AGI 1 với 68% so với 65.7% của GPT 5. GPT 5 vẫn cung cấp giá trị tốt hơn cho đến thời điểm này.
Các phiên bản mô hình nhỏ hơn đạt điểm thấp hơn nhiều, và các thử nghiệm ban đầu đang được tiến hành cho bài kiểm tra câu đố tương tác ARC AGI 3.
Chiến thắng này nâng cao vị thế của Grok 4 nhưng cuộc đua AI vẫn còn xa mới kết thúc.
Nguồn: The Decoder, @minchoi

15 giờ trước
Mát
44,27K
Hàng đầu
Thứ hạng
Yêu thích