Novo post sobre escalabilidade de RL: Uma análise cuidadosa dos benchmarks públicos da OpenAI revela que RL escala muito pior do que a inferência: para igualar cada aumento de 10x na computação de inferência, você precisa de 100x a computação de treinamento de RL. A única razão pela qual tem sido economicamente viável é começar a partir de uma base muito pequena. 🧵