Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Найповніший огляд RL, який я коли-небудь бачив.
Кевін Мерфі з Google DeepMind, який має понад 128 тисяч цитувань, написав це.
Чим це відрізняється від інших ресурсів RL:
→ Він поєднує класичний RL із сучасною епохою LLM:
Є цілий розділ, присвячений «LLM і RL»:
- Моделювання RLHF, RLAIF та винагороди
- PPO, GRPO, DPO, RLOO, REINFORCE++
- Моделі навчання мислення
- Багатохідний RL для агентів
- Масштабування обчислень під час тестування
→ Основи абсолютно зрозумілі
Кожен основний алгоритм, як-от методи на основі значення, градієнти політики та актор-критик, пояснюється з математичною строгістю.
→ Моделі RL та світові моделі отримують належне покриття
Охоплює Dreamer, MuZero, MCTS та інші, і саме туди рухається ця галузь.
→ Розділ багатоагентного RL
Теорія ігор, рівновага Неша та MARL для агентів LLM.
Я поділився статтею arXiv у відповідях!

Найкращі
Рейтинг
Вибране
