O nouă postare despre scalarea RL: Analiza atentă a benchmark-urilor publice OpenAI arată că RL scalează mult mai rău decât inferența: pentru a potrivi fiecare scalare de 10 ori a calculului de inferență, aveți nevoie de 100 de ori mai mult decât calculul de antrenament RL. Singurul motiv pentru care a fost rentabil este să pornească de la o bază mică. 🧵