Schaalvergroting van Agent Learning via Ervaringssynthese 📝: Schaal trainingsomgevingen voor RL door ze te simuleren met redenerende LLM's! Omgevingsmodellen + Replay-buffer + Nieuwe taken = goedkope RL voor elke omgeving! - Sterke verbeteringen ten opzichte van niet-RL-klaar omgevingen en meerdere modelfamilies! - Werkt beter in sim-2-real RL-instellingen → Warm-start voor dure omgevingen 🧵1/7