El slop de PPO puede terminar en segundos (probablemente), lo que tiene grandes implicaciones para el aprendizaje continuo. Incluso hoy, es sobrehumano. Es decir, la cosa muy estúpida puede funcionar Quizás la política divina es realmente solo "el marco de PPOslop con suficientes trucos de CUDA para hacerlo terminar en segundos"