Dimensionando o aprendizado do agente por meio da síntese de experiência 📝: Dimensionando ambientes de treinamento para RL, simulando-os com LLMs de raciocínio! Modelos de ambiente + Replay-buffer + Novas tarefas = RL barato para qualquer ambiente! - Fortes melhorias em relação a ambientes não prontos para RL e várias famílias de modelos! - Funciona melhor em configurações de RL sim-2-real → Warm-start para ambientes de alto custo 🧵1/7