Escalonamento do Aprendizado de Agentes via Síntese de Experiência 📝: Escalonando ambientes de treinamento para RL ao simulá-los com LLMs de raciocínio! Modelos de ambiente + Buffer de replay + Novas tarefas = RL barato para qualquer ambiente! - Fortes melhorias em ambientes não prontos para RL e múltiplas famílias de modelos! - Funciona melhor em configurações de RL sim-2-real → Início aquecido para ambientes de alto custo 🧵1/7