如何为GradientDescentOptimizer设置自适应学习率?
python
tensorflow
6
0

我正在使用TensorFlow训练神经网络。这就是我初始化GradientDescentOptimizer

init = tf.initialize_all_variables()
sess = tf.Session()
sess.run(init)

mse        = tf.reduce_mean(tf.square(out - out_))
train_step = tf.train.GradientDescentOptimizer(0.3).minimize(mse)

这里的问题是,我不知道如何为学习率或衰减值设置更新规则。

在这里如何使用自适应学习率?

参考资料:
Stack Overflow
收藏
评论
共 4 个回答
高赞 时间 活跃

Tensorflow提供了一个将指数衰减自动应用于学习率张量的操作: tf.train.exponential_decay 。有关其使用示例,请参见MNIST卷积模型示例中的此行 。然后使用上面的@mrry的建议将此变量作为您选择的优化程序的learning_rate参数提供。

要看的关键摘录是:

# Optimizer: set up a variable that's incremented once per batch and
# controls the learning rate decay.
batch = tf.Variable(0)

learning_rate = tf.train.exponential_decay(
  0.01,                # Base learning rate.
  batch * BATCH_SIZE,  # Current index into the dataset.
  train_size,          # Decay step.
  0.95,                # Decay rate.
  staircase=True)
# Use simple momentum for the optimization.
optimizer = tf.train.MomentumOptimizer(learning_rate,
                                     0.9).minimize(loss,
                                                   global_step=batch)

请注意global_step=batch参数以使其最小化。这告诉优化器在每次训练时为您有用地增加“ batch”参数。

收藏
评论

来自Tensorflow官方文档

global_step = tf.Variable(0, trainable=False)
starter_learning_rate = 0.1
learning_rate = tf.train.exponential_decay(starter_learning_rate, global_step,
                                       100000, 0.96, staircase=True)

# Passing global_step to minimize() will increment it at each step.
learning_step = (
tf.train.GradientDescentOptimizer(learning_rate)
.minimize(...my loss..., global_step=global_step))
收藏
评论

梯度下降算法使用您可以在初始化期间提供的恒定学习率。您可以通过Mrry展示的方式通过各种学习率。

但是,除了它,您还可以使用更高级的优化器 ,这些优化器具有更快的收敛速度并可以适应这种情况。

根据我的理解,这是一个简短的解释:

  • 动量 可帮助 SGD沿相关方向导航并软化不相关的振荡。它只是将上一步的方向的一部分添加到当前步骤中。这样可以以正确的方向放大速度,并软化错误方向的振动。该分数通常在(0,1)范围内。使用自适应动量也很有意义。在开始学习时,很大的动力只会阻碍您的进步,因此使用0.01之类的东西感觉很麻木,一旦所有的高梯度消失了,您就可以使用更大的动量。动量存在一个问题:当我们非常接近目标时,在大多数情况下,我们的动量很高,并且不知道它会放慢速度。这可能会导致它丢失或在最小值附近振荡
  • Nesterov加速梯度可以通过尽早降低速度来解决此问题。在动量中,我们首先计算梯度,然后在该方向上进行跳跃,并被我们之前拥有的任何动量放大。 NAG的功能相同,但顺序相反:首先,我们根据存储的信息进行较大的跳跃,然后计算梯度并进行较小的校正。这种看似无关紧要的变化大大提高了实用速度。
  • AdaGrad或自适应梯度允许学习率根据参数进行调整。它对不频繁的参数执行较大的更新,对频繁的参数执行较小的更新。因此,它非常适合稀疏数据(NLP或图像识别)。另一个优点是,它基本上不需要调整学习速度。每个参数都有自己的学习速率,由于算法的特殊性,学习速率单调降低。这引起了最大的问题:在某些时候,学习率太小,系统停止学习。
  • AdaDelta解决了AdaGrad中单调降低学习率的问题。在AdaGrad中,学习率大约是用除以平方根之和得出的。在每个阶段,您都要在总和上加上另一个平方根,这会使分母不断减小。在AdaDelta中,它使用滑动窗口而不是将所有过去的平方根求和,而是使总和减少。 RMSprop与AdaDelta非常相似
  • 亚当或自适应动量是类似于AdaDelta的算法。但是,除了存储每个参数的学习率外,它还分别存储每个参数的动量变化

    一些可视化在此处输入图片说明 在此处输入图片说明

收藏
评论

首先, tf.train.GradientDescentOptimizer设计为对所有步骤中的所有变量使用恒定的学习率。 TensorFlow还提供了开箱即用的自适应优化器,包括tf.train.AdagradOptimizertf.train.AdamOptimizer ,它们可以用作替代产品。

但是,如果您希望通过tf.train.GradientDescentOptimizer梯度下降来控制学习速率,则可以利用以下事实: tf.train.GradientDescentOptimizer构造函数learning_rate参数可以是Tensor对象。这使您可以在每个步骤中为学习率计算一个不同的值,例如:

learning_rate = tf.placeholder(tf.float32, shape=[])
# ...
train_step = tf.train.GradientDescentOptimizer(
    learning_rate=learning_rate).minimize(mse)

sess = tf.Session()

# Feed different values for learning rate to each training step.
sess.run(train_step, feed_dict={learning_rate: 0.1})
sess.run(train_step, feed_dict={learning_rate: 0.1})
sess.run(train_step, feed_dict={learning_rate: 0.01})
sess.run(train_step, feed_dict={learning_rate: 0.01})

另外,您可以创建一个标量tf.Variable来保存学习率,并在每次要更改学习率时对其进行分配。

收藏
评论
新手导航
  • 社区规范
  • 提出问题
  • 进行投票
  • 个人资料
  • 优化问题
  • 回答问题

关于我们

常见问题

内容许可

联系我们

@2020 AskGo
京ICP备20001863号