🚨 AutoBench 1.0 – 第4轮现已上线 📷 - 33个前沿模型排名(包括GPT-5.1、Gemini 3 Pro、Grok 4.1、Kimi K2 Thinking等) - 21个排名模型 - 生成300多个新问题 - 超过220,000个个人排名 这是我们进行过的最抗操控的评估。 而且……获胜者并不是大多数人预期的那样。 1/13