Un nuevo modelo de recompensa llamado SARM —> Modelado de Recompensas Consciente de Etapas para la manipulación de robots a largo plazo, ya está en LeRobot! 🤗 La manipulación a largo plazo y rica en lentillas de contacto (piensa en doblar una camiseta) es un desastre. Las demostraciones incluyen, naturalmente, vacilaciones, correcciones y calidad variable. La Clonación Clásica de Comportamiento (BC) trata cada fotograma por igual, SARM adopta un enfoque más inteligente. 🔎 ¿Cómo funciona? SARM utiliza un modelo de recompensa basado en vídeo para predecir: • la etapa actual de la tarea • progreso detallado dentro de esa etapa (0 → 1) Esto permite la Clonación de Comportamiento Alineado con Recompensa (RA-BC) al reevaluar los datos en función de la mejora del progreso, lo que permite al modelo distinguir trayectorias que avanzan de aquellas que se estancan. Imagen izquierda: despliegue exitoso, progreso aprendido aumentando de forma fluida 0 → 1 Imagen derecha: lanzamiento fallido
👉 Disponible ahora en la web de LeRobot: Proyecto en papel ✨ Créditos a los autores originales por esta increíble obra: Qianzhong Chen @QianzhongChen, Justin Yu, Mac Schwager, Pieter Abbeel, Yide Shentu, Philipp Wu
734