Ein grundlegendes Problem des RL-Trainings für die Korrektheit bei der Codegenerierung scheint zu sein, dass Modelle lernen, Code zu schreiben, der mit jedem Randfall umgehen kann. Große Ingenieure wissen, dass seltsame kleine Fehler eine große Sache sind. Sie deuten auf ein grundlegendes Verständnisproblem hin. Aktuelle Modelle denken nicht so.