在代码生成的正确性方面,强化学习的一个基本问题似乎是模型学习编写能够处理任何边缘情况的代码。 优秀的工程师知道,奇怪的小错误是个大问题。它们表明了对基本概念的缺乏理解。当前的模型并不这样思考。