热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
虽然Moonshot AI的Kimi k2是人工分析智能指数中领先的开放权重非推理模型,但它输出的token数量是其他非推理模型的约3倍,模糊了推理与非推理之间的界限。
Kimi k2是迄今为止最大的主要开放权重模型——总参数为1万亿,活跃参数为320亿(这需要巨大的1TB内存以原生FP8格式存储权重)。在人工分析智能指数中,我们将k2排在57位,这是一个令人印象深刻的分数,超过了GPT-4.1和DeepSeek V3等模型,但落后于领先的推理模型。
到目前为止,在我们的评估中,推理模型和非推理模型之间有明显的区别——不仅由模型是否使用<reasoning>标签来定义,主要由token使用量来决定。在人工分析智能指数中,回答所有评估所使用的token的中位数数量,对于推理模型来说是非推理模型的约10倍。
@Kimi_Moonshot的Kimi k2使用的token数量是中位数非推理模型的约3倍。在其最大预算扩展思维模式下,其token使用量仅比Claude 4 Sonnet和Opus低30%,并且在推理关闭时,其token使用量几乎是Claude 4 Sonnet和Opus的三倍。
因此,我们建议将Kimi k2与Claude 4 Sonnet和Opus在其最大预算扩展思维模式下进行比较,而不是与Claude 4模型的非推理分数进行比较。
Kimi k2可在@Kimi_Moonshot的第一方API以及@FireworksAI_HQ、@togethercompute、@novita_labs和@parasail_io上使用。
请参见下文和人工分析以获取进一步分析👇



60.42K
热门
排行
收藏