顺便说一句,这是上面的略作清理的版本,它清理了一些形状问题以及tf和np之间不必要的弹跳。 40k步后达到3e-08,4000后达到1.5e-5:
import tensorflow as tf
import numpy as np
def weight_variable(shape):
initial = tf.truncated_normal(shape, stddev=0.1)
return tf.Variable(initial)
def bias_variable(shape):
initial = tf.constant(0.1, shape=shape)
return tf.Variable(initial)
xTrain = np.linspace(0.2, 0.8, 101).reshape([1, -1])
yTrain = (1/xTrain)
x = tf.placeholder(tf.float32, [1,None])
hiddenDim = 10
b = bias_variable([hiddenDim,1])
W = weight_variable([hiddenDim, 1])
b2 = bias_variable([1])
W2 = weight_variable([1, hiddenDim])
hidden = tf.nn.sigmoid(tf.matmul(W, x) + b)
y = tf.matmul(W2, hidden) + b2
# Minimize the squared errors.
loss = tf.reduce_mean(tf.square(y - yTrain))
step = tf.Variable(0, trainable=False)
rate = tf.train.exponential_decay(0.15, step, 1, 0.9999)
optimizer = tf.train.AdamOptimizer(rate)
train = optimizer.minimize(loss, global_step=step)
init = tf.initialize_all_variables()
# Launch the graph
sess = tf.Session()
sess.run(init)
for step in xrange(0, 40001):
train.run({x: xTrain}, sess)
if step % 500 == 0:
print loss.eval({x: xTrain}, sess)
综上所述,LMA在拟合2D曲线方面比更通用的DNN风格优化器做得更好,这并不奇怪。亚当(Adam)和其他人针对的是非常高的尺寸问题,而对于大型网络 , LMA开始变得缓慢 (请参阅12-15)。
0
作为一个玩具示例,我尝试从100个无噪声数据点拟合函数
f(x) = 1/x
。 Matlab默认实现非常成功,均方差约为10 ^ -10,并且插值完美。我实现了一个神经网络,其中包含10个S形神经元的一个隐藏层。我是神经网络的初学者,所以请当心防止愚蠢的代码。
均方差以〜2 * 10 ^ -3结尾,因此比matlab差约7个数量级。可视化
我们可以看到拟合度在系统上是不完善的:
而matlab肉眼看起来完美无缺,差异均小于10 ^ -5:
我试图用TensorFlow复制Matlab网络图:
顺便说一句,该图似乎暗示了tanh而不是S形激活函数。我不能确定它在文档中的任何地方。但是,当我尝试在TensorFlow中使用tanh神经元时,拟合很快会失败,并使用
nan
作为变量。我不知道为什么。Matlab使用Levenberg–Marquardt训练算法。贝叶斯正则化在均方为10 ^ -12时更加成功(我们可能在浮点运算的蒸气领域)。
为什么TensorFlow的实现如此糟糕,我该怎么做才能使其变得更好?