Un nuovo modello di ricompensa chiamato SARM —> Modello di Ricompensa Consapevole dello Stadio per la manipolazione robotica a lungo termine è ora in LeRobot! 🤗 La manipolazione a lungo termine, ricca di contatti (pensa a piegare una maglietta) è disordinata. Le dimostrazioni includono naturalmente esitazioni, correzioni e qualità variabile. Il classico Behavior Cloning (BC) tratta ogni fotogramma allo stesso modo, SARM adotta un approccio più intelligente. 🔎 Come funziona? SARM utilizza un modello di ricompensa basato su video per prevedere: • la fase attuale del compito • il progresso dettagliato all'interno di quella fase (0 → 1) Questo consente il Reward-Aligned Behavior Cloning (RA-BC) ricalibrando i dati in base al miglioramento del progresso, permettendo al modello di distinguere le traiettorie che fanno progressi da quelle che si bloccano. Immagine a sinistra: rollout riuscito, progresso appreso che aumenta dolcemente da 0 a 1 Immagine a destra: rollout non riuscito
👉 Disponibile ora in LeRobot: Paper Sito web del progetto ✨ Crediti agli autori originali per questo fantastico lavoro: Qianzhong Chen @QianzhongChen, Justin Yu, Mac Schwager, Pieter Abbeel, Yide Shentu, Philipp Wu
955