Найповніший огляд RL, який я коли-небудь бачив. Кевін Мерфі з Google DeepMind, який має понад 128 тисяч цитувань, написав це. Чим це відрізняється від інших ресурсів RL: → Він поєднує класичний RL із сучасною епохою LLM: Є цілий розділ, присвячений «LLM і RL»: - Моделювання RLHF, RLAIF та винагороди - PPO, GRPO, DPO, RLOO, REINFORCE++ - Моделі навчання мислення - Багатохідний RL для агентів - Масштабування обчислень під час тестування → Основи абсолютно зрозумілі Кожен основний алгоритм, як-от методи на основі значення, градієнти політики та актор-критик, пояснюється з математичною строгістю. → Моделі RL та світові моделі отримують належне покриття Охоплює Dreamer, MuZero, MCTS та інші, і саме туди рухається ця галузь. → Розділ багатоагентного RL Теорія ігор, рівновага Неша та MARL для агентів LLM. Я поділився статтею arXiv у відповідях!