La visión más completa sobre RL que he visto jamás. Kevin Murphy de Google DeepMind, que tiene más de 128k citas, escribió esto. Lo que hace que esto sea diferente de otros recursos de RL: → Conecta la RL clásica con la era moderna de los LLM: Hay un capítulo entero dedicado a "LLMs y RL" que cubre: - RLHF, RLAIF y modelado de recompensas - PPO, GRPO, DPO, RLOO, REINFORCE++ - Entrenamiento de modelos de razonamiento - RL de múltiples turnos para agentes - Escalado de computación en tiempo de prueba → Los fundamentos son cristalinos Cada algoritmo importante, como los métodos basados en valor, gradientes de política y actor-crítico, se explican con rigor matemático. → La RL basada en modelos y los modelos del mundo reciben la cobertura adecuada Cubre Dreamer, MuZero, MCTS y más allá, que es exactamente hacia donde se dirige el campo. → Sección de RL multiagente Teoría de juegos, equilibrio de Nash y MARL para agentes LLM. ¡He compartido el artículo de arXiv en las respuestas!