Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
En ny belønningsmodell kalt SARM — > Stage-Aware Reward Modeling for langsiktig robotmanipulering finnes nå i LeRobot! 🤗
Langsiktig, kontaktrik manipulasjon (tenk å brette en T-skjorte) er rotete. Demonstrasjonene inkluderer naturlig nok nøling, korreksjoner og varierende kvalitet. Classic Behavior Cloning (BC) behandler hver ramme likt, SARM tar en smartere tilnærming.
🔎 Hvordan fungerer det?
SARM bruker en videobasert belønningsmodell for å forutsi:
• den nåværende oppgavefasen
• finkornet fremgang innenfor det stadiet (0 → 1)
Dette muliggjør Reward-Aligned Behavior Cloning (RA-BC) ved å veie data på nytt basert på fremdriftsforbedring, slik at modellen kan skille baner som gir fremgang fra de som stopper opp.
Venstre bilde: vellykket utrulling, lært fremgang jevnt økt 0 → 1
Høyre bilde: mislykket utrulling


👉 Tilgjengelig nå på LeRobot: Paper Project-nettsiden
✨ Kreditering til de opprinnelige forfatterne for dette fantastiske verket: Qianzhong Chen @QianzhongChen, Justin Yu, Mac Schwager, Pieter Abbeel, Yide Shentu, Philipp Wu
878
Topp
Rangering
Favoritter
