Een nieuw beloningsmodel genaamd SARM —> Stage-Aware Reward Modeling voor robotmanipulatie op lange termijn is nu in LeRobot! 🤗 Manipulatie op lange termijn, rijk aan contact (denk aan het vouwen van een T-shirt) is rommelig. Demonstraties bevatten van nature aarzeling, correcties en variabele kwaliteit. Klassieke Gedragskloning (BC) behandelt elk frame gelijk, SARM neemt een slimmere benadering. 🔎 Hoe werkt het? SARM gebruikt een videobased beloningsmodel om te voorspellen: • de huidige taakfase • gedetailleerde voortgang binnen die fase (0 → 1) Dit maakt Beloning-Geleide Gedragskloning (RA-BC) mogelijk door gegevens opnieuw te wegen op basis van voortgangsverbetering, waardoor het model trajecten kan onderscheiden die vooruitgang boeken van diegene die stagneren. Linker afbeelding: succesvolle uitvoering, geleerde voortgang soepel toenemend 0 → 1 Rechter afbeelding: onsuccesvolle uitvoering
👉 Nu beschikbaar in LeRobot: Paper Projectwebsite ✨ Credits aan de oorspronkelijke auteurs voor dit geweldige werk: Qianzhong Chen @QianzhongChen, Justin Yu, Mac Schwager, Pieter Abbeel, Yide Shentu, Philipp Wu
937