¡Actualización de PMPP-Eval! Tras el lanzamiento de K2-Thinking, lo he evaluado junto con otros modelos que se solicitaron, como R1 y Qwen3 235B, sobre el subconjunto de codificación de pmpp-eval. K2-Thinking es ahora el mejor modelo abierto disponible, según los resultados que superan a sonnet 4.5 para tareas de cuda.