¡Actualización de PMPP-Eval! Opon lanzamiento de K2-Thinking, lo he evaluado y un par de otros modelos que se solicitaron, como R1 y Qwen3 235B sobre el subconjunto de codificación pmpp-eval. K2-Thinking es ahora el mejor modelo abierto disponible, según los resultados que superan al soneto 4.5 para tareas cuda.