Postare nouă pe blog. Recent, oamenii au început să vorbească despre cât de mult mai mult calcul este necesar pentru a obține un singur eșantion în RL decât în pre-antrenament. Dar asta e doar jumătate din problemă. În RL, acea mostră scumpă îți oferă de obicei mult mai puțini biți. Și acest lucru are implicații asupra cât de bine se va scala RLVR, plus ne ajută să înțelegem de ce auto-jocul și învățarea curriculumului sunt atât de utile pentru RL, de ce modelele RL sunt bizar de zimțate și cum putem gândi diferit ce fac oamenii. Link mai jos.