Mở rộng Học Tập Đại Lý thông qua Tổng hợp Kinh Nghiệm 📝: Mở rộng môi trường đào tạo cho RL bằng cách mô phỏng chúng với các LLM lý luận! Mô hình môi trường + Bộ nhớ phát lại + Nhiệm vụ mới = RL rẻ cho bất kỳ môi trường nào! - Cải thiện mạnh mẽ so với các môi trường không sẵn sàng cho RL và nhiều gia đình mô hình khác nhau! - Hoạt động tốt hơn trong các thiết lập RL sim-2-real → Khởi động ấm cho các môi trường có chi phí cao 🧵1/7