Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Een nieuw beloningsmodel genaamd SARM —> Stage-Aware Reward Modeling voor robotmanipulatie op lange termijn is nu in LeRobot! 🤗
Manipulatie op lange termijn, rijk aan contact (denk aan het vouwen van een T-shirt) is rommelig. Demonstraties bevatten van nature aarzeling, correcties en variabele kwaliteit. Klassieke Gedragskloning (BC) behandelt elk frame gelijk, SARM neemt een slimmere benadering.
🔎 Hoe werkt het?
SARM gebruikt een videobased beloningsmodel om te voorspellen:
• de huidige taakfase
• gedetailleerde voortgang binnen die fase (0 → 1)
Dit maakt Beloning-Geleide Gedragskloning (RA-BC) mogelijk door gegevens opnieuw te wegen op basis van voortgangsverbetering, waardoor het model trajecten kan onderscheiden die vooruitgang boeken van diegene die stagneren.
Linker afbeelding: succesvolle uitvoering, geleerde voortgang soepel toenemend 0 → 1
Rechter afbeelding: onsuccesvolle uitvoering


👉 Nu beschikbaar in LeRobot: Paper Projectwebsite
✨ Credits aan de oorspronkelijke auteurs voor dit geweldige werk: Qianzhong Chen @QianzhongChen, Justin Yu, Mac Schwager, Pieter Abbeel, Yide Shentu, Philipp Wu
937
Boven
Positie
Favorieten
