小型 PMPP-Eval 更新,針對剛發布的 Intellect-3 由 @PrimeIntellect 根據我個人的測試,顯示它的表現超過了 Air 變體(使用相同的基礎模型),數據證實了這一點,與 Air 相比有 +%34 的差異,並且與 3 倍大小的 GLM-4.5 相當。