Skala agentinlärning via erfarenhetssyntes 📝: Skala träningsmiljöer för RL genom att simulera dem med resonerande LLM:er! Miljömodeller + Replay-buffer + Nya uppgifter = billig RL för alla miljöer! - Starka förbättringar jämfört med icke-RL-klara miljöer och flera modellfamiljer! - Fungerar bättre i sim-2-real RL-inställningar → Varmstart för högkostnadsmiljöer 🧵Plats 1/7