PMPP-Eval 更新! 在 K2-Thinking 發布後,我對它以及其他幾個被要求的模型進行了評估,例如 R1 和 Qwen3 235B,這些都是針對 pmpp-eval 編碼子集的。根據結果,K2-Thinking 現在是可用的最佳開放模型,超越了 sonnet 4.5 在 CUDA 任務上的表現。