Масштабирование обучения агентов через синтез опыта 📝: Масштабирование учебных сред для RL путем их моделирования с помощью reasoning LLMs! Модели среды + буфер воспроизведения + новые задачи = дешевый RL для любых сред! - Значительные улучшения по сравнению с неготовыми к RL средами и несколькими семействами моделей! - Лучше работает в условиях sim-2-real RL → Теплый старт для высокозатратных сред 🧵1/7