En ny belønningsmodell kalt SARM — > Stage-Aware Reward Modeling for langsiktig robotmanipulering finnes nå i LeRobot! 🤗 Langsiktig, kontaktrik manipulasjon (tenk å brette en T-skjorte) er rotete. Demonstrasjonene inkluderer naturlig nok nøling, korreksjoner og varierende kvalitet. Classic Behavior Cloning (BC) behandler hver ramme likt, SARM tar en smartere tilnærming. 🔎 Hvordan fungerer det? SARM bruker en videobasert belønningsmodell for å forutsi: • den nåværende oppgavefasen • finkornet fremgang innenfor det stadiet (0 → 1) Dette muliggjør Reward-Aligned Behavior Cloning (RA-BC) ved å veie data på nytt basert på fremdriftsforbedring, slik at modellen kan skille baner som gir fremgang fra de som stopper opp. Venstre bilde: vellykket utrulling, lært fremgang jevnt økt 0 → 1 Høyre bilde: mislykket utrulling
👉 Tilgjengelig nå på LeRobot: Paper Project-nettsiden ✨ Kreditering til de opprinnelige forfatterne for dette fantastiske verket: Qianzhong Chen @QianzhongChen, Justin Yu, Mac Schwager, Pieter Abbeel, Yide Shentu, Philipp Wu
878