GPT-5 結果! + 長篇寫作更新:我添加了新的說明來幫助法官注意和懲罰過度使用不連貫的隱喻,並重新運行排行榜。隨著許多前沿模型匯聚在這個斜坡上,這正在成為一個問題。 一些等級變動;現在 Opus 4.1 是 #1