Ein neues Belohnungsmodell namens SARM —> Stage-Aware Reward Modeling für langfristige Roboter-Manipulation ist jetzt in LeRobot! 🤗 Langfristige, kontaktreiche Manipulation (denken Sie an das Falten eines T-Shirts) ist chaotisch. Demonstrationen beinhalten natürlich Zögerlichkeiten, Korrekturen und variable Qualität. Klassisches Behavior Cloning (BC) behandelt jeden Frame gleich, SARM verfolgt einen intelligenteren Ansatz. 🔎 Wie funktioniert es? SARM verwendet ein videobasiertes Belohnungsmodell, um vorherzusagen: • die aktuelle Aufgabenphase • feingranulare Fortschritte innerhalb dieser Phase (0 → 1) Dies ermöglicht Reward-Aligned Behavior Cloning (RA-BC), indem Daten basierend auf Fortschrittsverbesserungen neu gewichtet werden, sodass das Modell Trajektorien unterscheiden kann, die Fortschritte machen, von denen, die stagnieren. Linkes Bild: erfolgreicher Rollout, gelernter Fortschritt steigt gleichmäßig von 0 → 1 Rechtes Bild: erfolgloser Rollout
👉 Jetzt verfügbar in LeRobot: Papier Projektwebsite ✨ Dank an die ursprünglichen Autoren für diese großartige Arbeit: Qianzhong Chen @QianzhongChen, Justin Yu, Mac Schwager, Pieter Abbeel, Yide Shentu, Philipp Wu
832