Agentin oppimisen skaalaaminen kokemussynteesin avulla 📝: Koulutusympäristöjen skaalaaminen RL:ää varten simuloimalla niitä päättelyyn perustuvilla LLM:illä! Ympäristömallit + Replay-puskuri + Uudet tehtävät = halpa RL kaikkiin ympäristöihin! - Vahvoja parannuksia verrattuna ei-RL-valmiisiin ympäristöihin ja useisiin malliperheisiin! - Toimii paremmin sim-2-real RL -asetuksissa → Lämmin käynnistys kalliisiin ympäristöihin 🧵1/7