我经常思考的一件事是,AI的商业应用加速是如何带来了许多来自学术界的标准(如评估/基准),这些标准对普通人或企业并没有用处。 衡量模型和代理的实际使用将变得越来越重要。对于编码代理,更有用的数据将是成功合并的PR、每个任务的成本等。