Nytt inlägg om RL-skalning: En noggrann analys av OpenAI:s offentliga benchmarks visar att RL skalar som är mycket värre än inferens: för att matcha varje 10x uppskalning av inferensberäkning behöver du 100 gånger RL-träningsberäkningen. Den enda anledningen till att det har varit kostnadseffektivt är att börja från en liten bas. 🧵