Nytt innlegg om RL-skalering: Nøye analyse av OpenAIs offentlige benchmarks avslører RL-skalaer som er langt verre enn slutning: for å matche hver 10x oppskalering av inferensberegning, trenger du 100 ganger RL-treningsberegningen. Den eneste grunnen til at det har vært kostnadseffektivt er å starte fra en liten base. 🧵