Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ein neues Belohnungsmodell namens SARM —> Stage-Aware Reward Modeling für langfristige Roboter-Manipulation ist jetzt in LeRobot! 🤗
Langfristige, kontaktreiche Manipulation (denken Sie an das Falten eines T-Shirts) ist chaotisch. Demonstrationen beinhalten natürlich Zögerlichkeiten, Korrekturen und variable Qualität. Klassisches Behavior Cloning (BC) behandelt jeden Frame gleich, SARM verfolgt einen intelligenteren Ansatz.
🔎 Wie funktioniert es?
SARM verwendet ein videobasiertes Belohnungsmodell, um vorherzusagen:
• die aktuelle Aufgabenphase
• feingranulare Fortschritte innerhalb dieser Phase (0 → 1)
Dies ermöglicht Reward-Aligned Behavior Cloning (RA-BC), indem Daten basierend auf Fortschrittsverbesserungen neu gewichtet werden, sodass das Modell Trajektorien unterscheiden kann, die Fortschritte machen, von denen, die stagnieren.
Linkes Bild: erfolgreicher Rollout, gelernter Fortschritt steigt gleichmäßig von 0 → 1
Rechtes Bild: erfolgloser Rollout


👉 Jetzt verfügbar in LeRobot: Papier Projektwebsite
✨ Dank an die ursprünglichen Autoren für diese großartige Arbeit: Qianzhong Chen @QianzhongChen, Justin Yu, Mac Schwager, Pieter Abbeel, Yide Shentu, Philipp Wu
832
Top
Ranking
Favoriten
