Postingan baru tentang penskalaan RL: Analisis yang cermat terhadap tolok ukur publik OpenAI mengungkapkan skala RL yang jauh lebih buruk daripada inferensi: untuk mencocokkan setiap peningkatan 10x komputasi inferensi, Anda memerlukan 100x komputasi pelatihan RL. Satu-satunya alasan mengapa itu hemat biaya adalah memulai dari basis kecil. 🧵