PPO slop 可以在几秒钟内完成(可能),这对持续学习有很大影响。即使在今天,它也超越了人类。意思是,这个非常愚蠢的东西可以工作 也许神政策真的只是 "PPOslop 框架加上足够的 CUDA 黑客技术,使其在几秒钟内完成"