体重下降是惩罚大体重的正则化术语。当权重衰减系数大时,对大权重的惩罚也大,当权重衰减系数小时,权重可以自由增长。
请看这个答案(不是专门针对咖啡的),以得到更好的解释: 神经网络“重量衰减”与“学习率”之间的差异 。
0
体重下降是惩罚大体重的正则化术语。当权重衰减系数大时,对大权重的惩罚也大,当权重衰减系数小时,权重可以自由增长。
请看这个答案(不是专门针对咖啡的),以得到更好的解释: 神经网络“重量衰减”与“学习率”之间的差异 。
0
weight_decay
元参数控制神经网络的正则项。
在训练期间,将正则化项添加到网络的损耗中以计算反向传播梯度。 weight_decay
值确定此正则项在梯度计算中的主导地位。
根据经验,您拥有的培训示例越多,该术语应越弱。您拥有的参数越多(即,网络越深,过滤器越大,InnerProduct图层越大等),则该术语应该越高。
Caffe还允许您通过设置来在L2
正则化(默认)和L1
正则化之间进行选择
regularization_type: "L1"
但是,由于在大多数情况下权重很小(即-1<w<1
),因此权重的L2
范数明显小于其L1
范数。因此,如果您选择使用regularization_type: "L1"
,则可能需要将weight_decay
调整为明显较小的值。
虽然训练期间学习率可能会(并且通常会发生变化),但调整权重始终是固定的。
0
看一下发布在BVLC / caffe git上的示例
'solver.prototxt'
,有一个训练元参数此元参数是什么意思?我应该赋予它什么价值?