在机器学习中,L2正则化为什么能够缓过拟合?
机器学习
100
0

在机器学习中,L2正则化为什么能够缓解缓解过拟合?能够从减小模型复杂度的角度来谈一下吗?

收藏
加入L2能够是权重往0趋近,减少单个权重过大导致过拟合,也能减小模型的复杂度,原因是加入L2正则化之后求导会使权重之前乘(1-x)的数(x很小很小),每一次计算都会导致权重乘以一个小于1的数。
askgo001640
2020-05-27 15:12:05
加入L2能够是权重往0趋近,减少单个权重过大导致过拟合,也能减小模型的复杂度,原因是加入L2正则化之后求导会使权重之前乘(1-x)的数(x很小很小),每一次计算都会导致权重乘以一个小于1的数。
askgo001640
2020-05-27 15:12:05
加入L2能够是权重往0趋近,减少单个权重过大导致过拟合,也能减小模型的复杂度,原因是加入L2正则化之后求导会使权重之前乘(1-x)的数(x很小很小),每一次计算都会导致权重乘以一个小于1的数。
askgo001640
2020-05-27 15:12:05
查看全部评论
评论
共 1 个回答
高赞 时间 活跃

18年有一篇论文从傅里叶变换的角度解释了这个问题。
可以通过公式直接推导出来。
神经网络就是一个函数,对其进行傅里叶变换求得频谱,频谱中低频分量就是变化平滑的部分,高频分量就是变化敏感的部分。
模型对于微小扰动的反馈差异大实际就是一个过拟合的表现。
也就是高频分量不能多。
根据雅各比矩阵,神经网络这个函数的高频分量存在上界,上界和谱范数正相关。
谱范数逆变换回时域,可求得和参数范数正相关。
L2正则就是将参数的L2范数加入loss里求最优化,故而限制了神经网络学到高频分量,更倾向于一个低频的平滑的函数,从而缓解过拟合。
附论文:On the Spectral Bias of Deep Neural Networks



本回答转载自知乎,已获作者授权,作者:aluea
链接:https://www.zhihu.com/question/389848505/answer/1179908586

收藏
评论
新手导航
  • 社区规范
  • 提出问题
  • 进行投票
  • 个人资料
  • 优化问题
  • 回答问题

关于我们

常见问题

内容许可

联系我们

@2020 AskGo
京ICP备20001863号