Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Хотів отримати кращу інтуїцію щодо того, як RL працює на LLM.
Тому я написав простий скрипт, щоб навчити Наночат додавати 5-значні числа.
Я був здивований, як швидко вона навчилася.
Поки я не подивився на покоління моделі і не зрозумів, що вона тільки що навчилася завжди викликати вбудований інтерпретатор 😂 Python.
Код, який я написав, дуже виправний, мінімальний і неефективний - я професійний подкастер, добре?
Але це може бути корисно, якщо ви просто хочете побачити основи роботи REINFORCE або GRPO. Посилання на суть нижче.
По суті, це не так складно: генеруйте кілька траєкторій на один рядок. Оновіть свою модель, щоб підвищити ймовірність того, що вона пройде всі проби токенів на успішних траєкторіях.

Найкращі
Рейтинг
Вибране