Nieuwe post over RL-schaalvergroting: Zorgvuldige analyse van de openbare benchmarks van OpenAI onthult dat RL veel slechter schaalt dan inferentie: om elke 10x schaalvergroting van inferentie-compute te evenaren, heb je 100x de RL-trainingscompute nodig. De enige reden dat het kosteneffectief is, is omdat het begint vanaf een kleine basis. 🧵