Skalierung des Agentenlernens durch Erfahrungssynthese 📝: Skalierung von Trainingsumgebungen für RL, indem sie mit denkenden LLMs simuliert werden! Umgebungsmodelle + Replay-Puffer + Neue Aufgaben = günstiges RL für beliebige Umgebungen! - Starke Verbesserungen gegenüber nicht RL-bereiten Umgebungen und mehreren Modellfamilien! - Funktioniert besser in sim-2-real RL-Einstellungen → Warm-Start für hochpreisige Umgebungen 🧵1/7