Новая публикация о масштабировании RL: Тщательный анализ публичных бенчмарков OpenAI показывает, что RL масштабируется гораздо хуже, чем инференс: чтобы соответствовать каждому увеличению вычислительных мощностей инференса в 10 раз, вам нужно 100 раз больше вычислительных мощностей для обучения RL. Единственная причина, по которой это было экономически целесообразно, заключается в том, что начинали с крошечной базы. 🧵