un problema fundamental del aprendizaje por refuerzo (RL) para la corrección en la generación de código parece ser que los modelos aprenden a escribir código que puede manejar cualquier caso límite. los grandes ingenieros saben que esos pequeños errores extraños son un gran problema. indican una falta fundamental de comprensión. los modelos actuales no piensan de esta manera.