关于刚刚发布的 Intellect-3 的小型 PMPP-Eval 更新 @PrimeIntellect 根据我个人的测试,显然它的表现优于 Air 变体(使用相同的基础模型),数字确认了这一点,与 Air 相比有 +%34 的差异,并且与 3 倍大小的 GLM-4.5 相当。