Nuovo post sul scaling RL: Un'analisi attenta dei benchmark pubblici di OpenAI rivela che il RL scala molto peggio dell'inferenza: per eguagliare ogni aumento di scala di 10 volte del calcolo di inferenza, hai bisogno di 100 volte il calcolo di addestramento RL. L'unico motivo per cui è stato conveniente è partire da una base molto piccola. 🧵