偏差-方差权衡有一个缺失的细节! 并不是很多机器学习工程师知道这一点。 考虑在某个虚拟数据集上拟合一个多项式回归模型,比如,y=sin(x) + 噪声。 如图像中的第一幅图所示,随着我们增加多项式的次数(m): - 训练损失将降到零。 - 测试(或验证)损失会先下降然后再上升。 但请注意,当我们继续增加次数(m)时会发生什么: ↳ 测试损失再次下降(如第二幅图所示) 这被称为“双下降现象”,在深度学习模型中常常观察到。 这很反直觉,因为它表明增加模型复杂性可以改善泛化性能。 据我所知,这仍然是一个未解之谜。神经网络为何表现出这种行为尚不完全清楚。 不过,有一些关于正则化的理论,例如这个: 模型可能会应用某种隐式正则化。因此,它可以准确地专注于适合的参数数量以实现泛化。 事实上,你可以自己尝试一下: - 创建一个大小为n的小虚拟数据集。 - 训练一个次数为m的多项式回归,从1开始到大于n的值。 - 绘制每个m的测试损失和训练损失。 👉 轮到你了:你之前听说过双下降现象吗?
这是Ilya Sutskever在Lex Fridman的播客中谈论它的确切时间戳:
10.21K