Pembaruan PMPP-Eval! Opon rilis K2-Thinking, saya telah mengevaluasinya dan beberapa model lain yang diminta seperti R1 dan Qwen3 235B melalui subset pengkodean pmpp-eval. K2-Thinking sekarang menjadi model terbuka terbaik yang tersedia, menurut hasil yang melampaui soneta 4.5 untuk tugas cuda.