Thật nực cười khi OpenAI tuyên bố 74.9% trên SWE-Bench chỉ để chứng minh rằng họ đứng trên 74.5% của Opus 4.1... Bằng cách chạy nó trên 477 vấn đề thay vì đầy đủ 500. Thẻ hệ thống của họ cũng chỉ nói 74%.
Nguồn:
Và vâng, tôi biết họ luôn báo cáo về mẫu số 477, nhưng đó KHÔNG phải là "SWE-Bench verified", đó là một chỉ số hoàn toàn khác, đó là "tập con của OpenAI về SWE Bench Verified" và con số đó không thể so sánh.
87,93K