OpenAIがOpus 4.1の74.5%を上回っていることを証明するためだけに、SWE-Benchで74.9%を主張したのはばかげています... 完全な 500 問題ではなく 477 の問題で実行することで。 彼らのシステムカードにも74%しか書かれていません。
源:
そして、はい、彼らが常に 477 の分母について報告してきたことは知っていますが、それは「SWE-Bench 検証済み」ではなく、まったく異なる指標であり、「SWE Bench 検証済みの OpenAI のサブセット」であり、その数値は比較できません
23.18K