Eine lustige Sache an Reinforcement Learning ist, dass es schwer ist, Fehler zu finden, weil der zugrunde liegende Lernansatz so leistungsstark ist, dass er irgendwie trotzdem funktioniert, selbst wenn wichtige Elemente defekt sind.