Uusi viesti RL-skaalauksesta: OpenAI:n julkisten vertailuarvojen huolellinen analyysi paljastaa, että RL-skaalat ovat paljon huonompia kuin päättely: jokaiseen 10-kertaiseen päättelylaskennan skaalaukseen tarvitaan 100-kertainen RL-koulutuslaskenta. Ainoa syy, miksi se on ollut kustannustehokas, on aloittaa pieneltä pohjalta. 🧵