Neuer Blogbeitrag. Kürzlich haben die Leute darüber gesprochen, wie viel mehr Rechenleistung benötigt wird, um eine einzige Probe im RL zu erhalten als in der Vortrainingsphase. Aber das ist nur die halbe Miete. Im RL liefert diese teure Probe auch normalerweise viel weniger Bits. Und das hat Auswirkungen darauf, wie gut RLVR skalieren wird, plus es hilft uns zu verstehen, warum Selbstspiel und Curriculum-Lernen so hilfreich für RL sind, warum RL-Modelle seltsamerweise gezackt sind und wie wir darüber nachdenken können, was Menschen anders machen. Link unten.