Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Thật nực cười khi OpenAI tuyên bố 74.9% trên SWE-Bench chỉ để chứng minh rằng họ đứng trên 74.5% của Opus 4.1...
Bằng cách chạy nó trên 477 vấn đề thay vì đầy đủ 500.
Thẻ hệ thống của họ cũng chỉ nói 74%.

Nguồn:
Và vâng, tôi biết họ luôn báo cáo về mẫu số 477, nhưng đó KHÔNG phải là "SWE-Bench verified", đó là một chỉ số hoàn toàn khác, đó là "tập con của OpenAI về SWE Bench Verified" và con số đó không thể so sánh.
87,93K
Hàng đầu
Thứ hạng
Yêu thích