RL ölçeklendirmeyle ilgili yeni gönderi: OpenAI'nin genel kıyaslamalarının dikkatli bir analizi, RL ölçeklerinin çıkarımdan çok daha kötü olduğunu ortaya koyuyor: Çıkarım hesaplamasının her 10 kat ölçeğini eşleştirmek için RL eğitim hesaplamasının 100 katına ihtiyacınız var. Uygun maliyetli olmasının tek nedeni küçük bir tabandan başlamaktır. 🧵