PMPP-Eval Update! Bij de release van K2-Thinking heb ik het geëvalueerd, evenals een paar andere modellen die waren aangevraagd, zoals R1 en Qwen3 235B over de pmpp-eval coding subset. K2-Thinking is nu het beste open model dat beschikbaar is, volgens de resultaten die sonnet 4.5 voor cuda-taken overtreffen.