El PPO slop puede terminar en segundos (probablemente), lo que tiene grandes implicaciones para el aprendizaje continuo. Incluso hoy en día, es algo sobrehumano. Es decir, lo más estúpido puede funcionar Quizá la política de dios sea simplemente "Trabajo de rame PPO con suficientes hacks CUDA para que termine en segundos"