Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Thật nực cười khi OpenAI tuyên bố 74.9% trên SWE-Bench chỉ để chứng minh rằng họ đứng trên 74.5% của Opus 4.1... Bằng cách chạy nó trên 477 vấn đề thay vì đầy đủ 500. Thẻ hệ thống của họ cũng chỉ nói 74%.

Nguồn:

Và vâng, tôi biết họ luôn báo cáo về mẫu số 477, nhưng đó KHÔNG phải là "SWE-Bench verified", đó là một chỉ số hoàn toàn khác, đó là "tập con của OpenAI về SWE Bench Verified" và con số đó không thể so sánh.

87,93K

Hàng đầu

Thứ hạng

Yêu thích