現在聽到一些鳥兒的竊竊私語,內部評估的 gpt5 比 grok 4 Heavy 有點高。 然而,評估只告訴模型的一面,好奇地想知道我們是否得到了任何重大的代理或其他改進。
277.1K