Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Un nuovo modello di ricompensa chiamato SARM —> Modello di Ricompensa Consapevole dello Stadio per la manipolazione robotica a lungo termine è ora in LeRobot! 🤗
La manipolazione a lungo termine, ricca di contatti (pensa a piegare una maglietta) è disordinata. Le dimostrazioni includono naturalmente esitazioni, correzioni e qualità variabile. Il classico Behavior Cloning (BC) tratta ogni fotogramma allo stesso modo, SARM adotta un approccio più intelligente.
🔎 Come funziona?
SARM utilizza un modello di ricompensa basato su video per prevedere:
• la fase attuale del compito
• il progresso dettagliato all'interno di quella fase (0 → 1)
Questo consente il Reward-Aligned Behavior Cloning (RA-BC) ricalibrando i dati in base al miglioramento del progresso, permettendo al modello di distinguere le traiettorie che fanno progressi da quelle che si bloccano.
Immagine a sinistra: rollout riuscito, progresso appreso che aumenta dolcemente da 0 a 1
Immagine a destra: rollout non riuscito


👉 Disponibile ora in LeRobot: Paper Sito web del progetto
✨ Crediti agli autori originali per questo fantastico lavoro: Qianzhong Chen @QianzhongChen, Justin Yu, Mac Schwager, Pieter Abbeel, Yide Shentu, Philipp Wu
955
Principali
Ranking
Preferiti
