Caffe中的weight_decay元参数是什么?
caffe
deep-learning
gradient-descent
machine-learning
5
0

看一下发布在BVLC / caffe git上的示例'solver.prototxt' ,有一个训练元参数

weight_decay: 0.04

此元参数是什么意思?我应该赋予它什么价值?

参考资料:
Stack Overflow
收藏
评论
共 2 个回答
高赞 时间 活跃

体重下降是惩罚大体重的正则化术语。当权重衰减系数大时,对大权重的惩罚也大,当权重衰减系数小时,权重可以自由增长。

请看这个答案(不是专门针对咖啡的),以得到更好的解释: 神经网络“重量衰减”“学习率”之间的差异

收藏
评论

weight_decay元参数控制神经网络的正则项。

在训练期间,将正则化项添加到网络的损耗中以计算反向传播梯度。 weight_decay值确定此正则项在梯度计算中的主导地位。

根据经验,您拥有的培训示例越多,该术语应越弱。您拥有的参数越多(即,网络越深,过滤器越大,InnerProduct图层越大等),则该术语应该越高。

Caffe还允许您通过设置来在L2正则化(默认)和L1正则化之间进行选择

regularization_type: "L1"

但是,由于在大多数情况下权重很小(即-1<w<1 ),因此权重的L2范数明显小于其L1范数。因此,如果您选择使用regularization_type: "L1" ,则可能需要将weight_decay调整为明显较小的值。

虽然训练期间学习率可能会(并且通常会发生变化),但调整权重始终是固定的。

收藏
评论
新手导航
  • 社区规范
  • 提出问题
  • 进行投票
  • 个人资料
  • 优化问题
  • 回答问题

关于我们

常见问题

内容许可

联系我们

@2020 AskGo
京ICP备20001863号