
在机器学习中,L2正则化为什么能够缓过拟合?
共 1 个回答
高赞
时间
活跃
0
18年有一篇论文从傅里叶变换的角度解释了这个问题。
可以通过公式直接推导出来。
神经网络就是一个函数,对其进行傅里叶变换求得频谱,频谱中低频分量就是变化平滑的部分,高频分量就是变化敏感的部分。
模型对于微小扰动的反馈差异大实际就是一个过拟合的表现。
也就是高频分量不能多。
根据雅各比矩阵,神经网络这个函数的高频分量存在上界,上界和谱范数正相关。
谱范数逆变换回时域,可求得和参数范数正相关。
L2正则就是将参数的L2范数加入loss里求最优化,故而限制了神经网络学到高频分量,更倾向于一个低频的平滑的函数,从而缓解过拟合。
附论文:On the Spectral Bias of Deep Neural Networks
本回答转载自知乎,已获作者授权,作者:aluea
链接:https://www.zhihu.com/question/389848505/answer/1179908586
新手导航
- 社区规范
- 提出问题
- 进行投票
- 个人资料
- 优化问题
- 回答问题
0
在机器学习中,L2正则化为什么能够缓解缓解过拟合?能够从减小模型复杂度的角度来谈一下吗?