Нова публікація про масштабування РЛ: Ретельний аналіз публічних тестів OpenAI показує, що шкали RL набагато гірші, ніж висновок: щоб відповідати кожному 10-кратному масштабуванню обчислень висновків, вам потрібно 100x обчислити навчання RL. Єдина причина, чому він був економічно вигідним, – це починати з крихітної бази. 🧵