Нова модель винагороди під назвою SARM — > Stage-Aware Reward Modeling для маніпуляції роботами з довготривалим горизонтом вже з'явилася в LeRobot! 🤗 Маніпуляція з довгостроковими перспективами (наприклад, складати футболку) — це брудно. Демонстрації природно включають вагання, виправлення та змінну якість. Класичне клонування поведінки (BC) розглядає кожен кадр однаково, SARM застосовує розумніший підхід. 🔎 Як це працює? SARM використовує відео-модель винагороди для прогнозування: • поточний етап завдання • тонкий прогрес у межах цього етапу (0 → 1) Це дозволяє здійснювати клонування поведінки, узгоджену з винагородою (RA-BC), перезважуючи дані на основі покращення прогресу, що дозволяє моделі відрізняти траєкторії, які досягають прогресу, від тих, що затягують. Ліве зображення: успішне розгортання, плавний прогрес зростає 0 → 1 Правильне зображення: невдалий запуск
👉 Доступно вже на сайті LeRobot: Paper Project ✨ Належне оригінальним авторам за цю чудову роботу: Цяньчжун Чен @QianzhongChen, Джастін Ю, Мак Швагер, Пітер Аббіл, Йіде Шенту, Філіп Ву
836