Skalowanie uczenia agenta poprzez syntezę doświadczeń 📝: Skalowanie środowisk treningowych dla RL poprzez ich symulację z wykorzystaniem reasoning LLMs! Modele środowisk + Bufor powtórek + Nowe zadania = tanie RL dla dowolnych środowisk! - Silne poprawy w porównaniu do środowisk nieprzygotowanych do RL oraz wielu rodzin modeli! - Działa lepiej w ustawieniach sim-2-real RL → Ciepły start dla środowisk o wysokich kosztach 🧵1/7