Хотів отримати кращу інтуїцію щодо того, як RL працює на LLM. Тому я написав простий скрипт, щоб навчити Наночат додавати 5-значні числа. Я був здивований, як швидко вона навчилася. Поки я не подивився на покоління моделі і не зрозумів, що вона тільки що навчилася завжди викликати вбудований інтерпретатор 😂 Python. Код, який я написав, дуже виправний, мінімальний і неефективний - я професійний подкастер, добре? Але це може бути корисно, якщо ви просто хочете побачити основи роботи REINFORCE або GRPO. Посилання на суть нижче. По суті, це не так складно: генеруйте кілька траєкторій на один рядок. Оновіть свою модель, щоб підвищити ймовірність того, що вона пройде всі проби токенів на успішних траєкторіях.