PMPP-Eval aktualizace! Po vydání K2-Thinking jsem jej vyhodnotil a několik dalších modelů, které byly požadovány, jako jsou R1 a Qwen3 235B přes podmnožinu kódování pmpp-eval. K2-Thinking je nyní nejlepším dostupným otevřeným modelem, podle výsledků překonává sonnet 4.5 pro cuda úlohy.