トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
OpenAIがOpus 4.1の74.5%を上回っていることを証明するためだけに、SWE-Benchで74.9%を主張したのはばかげています...
完全な 500 問題ではなく 477 の問題で実行することで。
彼らのシステムカードにも74%しか書かれていません。

源:
そして、はい、彼らが常に 477 の分母について報告してきたことは知っていますが、それは「SWE-Bench 検証済み」ではなく、まったく異なる指標であり、「SWE Bench 検証済みの OpenAI のサブセット」であり、その数値は比較できません
23.18K
トップ
ランキング
お気に入り