Một mô hình thưởng mới có tên là SARM —> Mô hình thưởng nhận thức theo giai đoạn cho việc thao tác robot dài hạn hiện đã có trong LeRobot! 🤗 Việc thao tác dài hạn, giàu tiếp xúc (hãy nghĩ đến việc gấp một chiếc áo phông) là rất phức tạp. Các buổi trình diễn tự nhiên bao gồm những sự do dự, điều chỉnh và chất lượng biến đổi. Học hành vi cổ điển (BC) coi mỗi khung hình là như nhau, SARM áp dụng một cách tiếp cận thông minh hơn. 🔎 Nó hoạt động như thế nào? SARM sử dụng một mô hình thưởng dựa trên video để dự đoán: • giai đoạn nhiệm vụ hiện tại • tiến trình chi tiết trong giai đoạn đó (0 → 1) Điều này cho phép Học hành vi phù hợp với thưởng (RA-BC) bằng cách điều chỉnh trọng số dữ liệu dựa trên sự cải thiện tiến trình, cho phép mô hình phân biệt các quỹ đạo có tiến bộ với những quỹ đạo bị đình trệ. Hình ảnh bên trái: triển khai thành công, tiến trình học được tăng dần 0 → 1 Hình ảnh bên phải: triển khai không thành công
👉 Có sẵn ngay bây giờ trong LeRobot: Giấy Trang web dự án ✨ Cảm ơn các tác giả gốc vì công việc tuyệt vời này: Qianzhong Chen @QianzhongChen, Justin Yu, Mac Schwager, Pieter Abbeel, Yide Shentu, Philipp Wu
833