Aggiornamento PMPP-Eval! Dopo il rilascio di K2-Thinking, l'ho valutato insieme ad altri modelli richiesti come R1 e Qwen3 235B sul subset di codifica pmpp-eval. K2-Thinking è ora il miglior modello open disponibile, secondo i risultati che superano sonnet 4.5 per i compiti cuda.