PPO-Slop kann in Sekunden (wahrscheinlich) abgeschlossen werden, was große Auswirkungen auf das kontinuierliche Lernen hat. Sogar heute ist es übermenschlich. Das bedeutet, dass das sehr dumme Ding funktionieren kann Vielleicht ist die göttliche Strategie wirklich nur "PPO-Slop-Rahmenwerk mit genügend CUDA-Hacks, um es in Sekunden abzuschließen"