Atualização do PMPP-Eval! Opon lançamento do K2-Thinking, eu o avaliei e alguns outros modelos que foram solicitados, como R1 e Qwen3 235B sobre o subconjunto de codificação pmpp-eval. O K2-Thinking é agora o melhor modelo aberto disponível, de acordo com resultados que superam o soneto 4.5 para tarefas cuda.