Le slop PPO peut se terminer en quelques secondes (probablement), ce qui a de grandes implications pour l'apprentissage continu. Même aujourd'hui, c'est surhumain. Cela signifie que la chose très stupide peut fonctionner Peut-être que la politique divine est vraiment juste "le cadre PPOslop avec suffisamment de hacks CUDA pour le faire finir en quelques secondes"