La visión general más completa de la vida real que he visto nunca. Kevin Murphy de Google DeepMind, que tiene más de 128.000 citas, escribió esto. Qué hace que esto sea diferente de otros recursos de la vida real: → Une el RL clásico con la era moderna de los LLM: Hay un capítulo entero dedicado a "LLMs y RL" que abarca: - Modelado RLHF, RLAIF y de recompensas - PPO, GRPO, DPO, RLOO, REINFORCE++ - Modelos de razonamiento de entrenamiento - RL de múltiples vueltas para agentes - Escalado de cómputo en tiempo de prueba → Los fundamentos son cristalinos Cada algoritmo importante, como los métodos basados en valores, gradientes de políticas y actor-crítico, se explica con rigor matemático. → Los modelos RL y los modelos mundiales reciben una cobertura adecuada Cubre Dreamer, MuZero, MCTS y más allá, que es exactamente hacia donde se dirige el campo. → Sección RL multiagente Teoría de juegos, equilibrio de Nash y MARL para agentes LLM. ¡He compartido el artículo de arXiv en las respuestas!