GPT-5 结果! + 长篇写作更新:我添加了新的说明来帮助法官注意和惩罚过度使用不连贯的隐喻,并重新运行排行榜。随着许多前沿模型汇聚在这个斜坡上,这正在成为一个问题。 一些等级变化;现在 Opus 4.1 是 #1
9.85K