分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ | OKX ウォレット

トレンドトピック

OpenAIがOpus 4.1の74.5%を上回っていることを証明するためだけに、SWE-Benchで74.9%を主張したのはばかげています... 完全な 500 問題ではなく 477 の問題で実行することで。彼らのシステムカードにも74%しか書かれていません。

源：

そして、はい、彼らが常に 477 の分母について報告してきたことは知っていますが、それは「SWE-Bench 検証済み」ではなく、まったく異なる指標であり、「SWE Bench 検証済みの OpenAI のサブセット」であり、その数値は比較できません

23.18K

トップ

ランキング

お気に入り

Trending onchain

Trending on X

Recent top fundings

Most notable