Il PPO slop può concludersi in pochi secondi (probabilmente), il che ha grandi implicazioni per l'apprendimento continuo. Anche oggi, è super umano. Significa che la cosa molto stupida può funzionare Forse la politica divina è davvero solo "PPOslop framework con abbastanza hack CUDA per farlo finire in pochi secondi"