虽然Moonshot AI的Kimi k2是人工分析智能指数中领先的开放权重非推理模型,但它输出的token数量是其他非推理模型的约3倍,模糊了推理与非推理之间的界限。 Kimi k2是迄今为止最大的主要开放权重模型——总参数为1万亿,活跃参数为320亿(这需要巨大的1TB内存以原生FP8格式存储权重)。在人工分析智能指数中,我们将k2排在57位,这是一个令人印象深刻的分数,超过了GPT-4.1和DeepSeek V3等模型,但落后于领先的推理模型。 到目前为止,在我们的评估中,推理模型和非推理模型之间有明显的区别——不仅由模型是否使用<reasoning>标签来定义,主要由token使用量来决定。在人工分析智能指数中,回答所有评估所使用的token的中位数数量,对于推理模型来说是非推理模型的约10倍。 @Kimi_Moonshot的Kimi k2使用的token数量是中位数非推理模型的约3倍。在其最大预算扩展思维模式下,其token使用量仅比Claude 4 Sonnet和Opus低30%,并且在推理关闭时,其token使用量几乎是Claude 4 Sonnet和Opus的三倍。 因此,我们建议将Kimi k2与Claude 4 Sonnet和Opus在其最大预算扩展思维模式下进行比较,而不是与Claude 4模型的非推理分数进行比较。 Kimi k2可在@Kimi_Moonshot的第一方API以及@FireworksAI_HQ、@togethercompute、@novita_labs和@parasail_io上使用。 请参见下文和人工分析以获取进一步分析👇
60.42K