Оновлення PMPP-Eval! Opon реліз K2-Thinking, я оцінив його та кілька інших моделей, які були запитані, таких як R1 та Qwen3 235B через підмножину кодування pmpp-eval. K2-Thinking зараз є найкращою відкритою моделлю, згідно з результатами, що перевершує Sonnet 4.5 для завдань cuda.