Scalarea învățării agentului prin sinteza experienței 📝: Scalarea mediilor de antrenament pentru RL prin simularea lor cu LLM-uri de raționament! Modele de mediu + Replay-buffer + Sarcini noi = RL ieftin pentru orice mediu! - Îmbunătățiri puternice față de mediile care nu sunt pregătite pentru RL și mai multe familii de modele! - Funcționează mai bine în setările RL sim-2-real → pornire la cald pentru medii cu costuri ridicate 🧵1/7