神经网络总是预测相同的类
deep-learning
gradient-descent
neural-network
numpy
7
0

我正在尝试实现将图像分类为两个离散类别之一的神经网络。但是问题是,它目前始终为任何输入预测0,但我不确定为什么。

这是我的特征提取方法:

def extract(file):
    # Resize and subtract mean pixel
    img = cv2.resize(cv2.imread(file), (224, 224)).astype(np.float32)
    img[:, :, 0] -= 103.939
    img[:, :, 1] -= 116.779
    img[:, :, 2] -= 123.68
    # Normalize features
    img = (img.flatten() - np.mean(img)) / np.std(img)

    return np.array([img])

这是我的梯度下降程序:

def fit(x, y, t1, t2):
    """Training routine"""
    ils = x.shape[1] if len(x.shape) > 1 else 1
    labels = len(set(y))

    if t1 is None or t2 is None:
        t1 = randweights(ils, 10)
        t2 = randweights(10, labels)

    params = np.concatenate([t1.reshape(-1), t2.reshape(-1)])
    res = grad(params, ils, 10, labels, x, y)
    params -= 0.1 * res

    return unpack(params, ils, 10, labels)

这是我的前进和后退(渐变)传播:

def forward(x, theta1, theta2):
    """Forward propagation"""

    m = x.shape[0]

    # Forward prop
    a1 = np.vstack((np.ones([1, m]), x.T))
    z2 = np.dot(theta1, a1)

    a2 = np.vstack((np.ones([1, m]), sigmoid(z2)))
    a3 = sigmoid(np.dot(theta2, a2))

    return (a1, a2, a3, z2, m)

def grad(params, ils, hls, labels, x, Y, lmbda=0.01):
    """Compute gradient for hypothesis Theta"""

    theta1, theta2 = unpack(params, ils, hls, labels)

    a1, a2, a3, z2, m = forward(x, theta1, theta2)
    d3 = a3 - Y.T
    print('Current error: {}'.format(np.mean(np.abs(d3))))

    d2 = np.dot(theta2.T, d3) * (np.vstack([np.ones([1, m]), sigmoid_prime(z2)]))
    d3 = d3.T
    d2 = d2[1:, :].T

    t1_grad = np.dot(d2.T, a1.T)
    t2_grad = np.dot(d3.T, a2.T)

    theta1[0] = np.zeros([1, theta1.shape[1]])
    theta2[0] = np.zeros([1, theta2.shape[1]])

    t1_grad = t1_grad + (lmbda / m) * theta1
    t2_grad = t2_grad + (lmbda / m) * theta2

    return np.concatenate([t1_grad.reshape(-1), t2_grad.reshape(-1)])

这是我的预测函数:

def predict(theta1, theta2, x):
    """Predict output using learned weights"""
    m = x.shape[0]

    h1 = sigmoid(np.hstack((np.ones([m, 1]), x)).dot(theta1.T))
    h2 = sigmoid(np.hstack((np.ones([m, 1]), h1)).dot(theta2.T))

    return h2.argmax(axis=1)

我可以看到,每次迭代的错误率都在逐渐降低,通常收敛在1.26e-05左右。

到目前为止,我已经尝试过:

  1. PCA
  2. 不同的数据集(来自sklearn的虹膜和来自Coursera ML课程的手写数字,两者均达到约95%的准确性)。但是,这两个都是批量处理的,因此我可以假定我的一般实现是正确的,但是提取特征或训练分类器的方式存在问题。
  3. 尝试了sklearn的SGDClassifier,它的性能并没有好很多,给我带来了〜50%的准确性。那么功能有什么问题吗?

编辑 :h2的平均输出如下所示:

[0.5004899   0.45264441]
[0.50048522  0.47439413]
[0.50049019  0.46557124]
[0.50049261  0.45297816]

因此,所有验证示例的S形输出非常相似。

参考资料:
Stack Overflow
收藏
评论
共 3 个回答
高赞 时间 活跃

经过一个半星期的研究,我认为我明白了问题所在。代码本身没有错。妨碍我的实现成功分类的唯一两个问题是花时间学习和正确选择学习率/正则化参数。

现在,我的学习例程已经运行了一段时间,尽管仍有大量的改进空间,但它已经将准确性提高了75%。

收藏
评论

我也一样我的数据集不平衡(第0类和第1类之间的样本分布分别约为66%-33%),并且第一次迭代后,对于所有样本,网络始终输出0.0

我的问题仅仅是学习率太高 。将其切换为1e-05解决此问题。

更一般而言,我建议做的是在参数更新之前进行打印:

  • 您的净产量(一批)
  • 相应的标签(对于同一批次)
  • 损失的价值(在同一批次中),一个样品一个样品地或总计。

然后在参数更新后检查相同的三个项目。在下一批中应该看到的是净输出量的逐渐变化。当我的学习率太高时,对于第二批迭代,该批次中的所有样本的净输出将达到全部1.0 s或全部0.0 s。

收藏
评论

我的网络始终会预测相同的班级。问题是什么?

我有几次。尽管我目前懒得浏览您的代码,但我认为我可以给出一些一般性提示,这些提示也可能会帮助其他具有相同症状但可能存在不同潜在问题的人。

调试神经网络

拟合一项数据集

对于网络应该能够预测的每个类别,请尝试以下操作:

  1. 创建仅包含类i的一个数据点的数据集。
  2. 使网络适合此数据集。
  3. 网络会学会预测“ I类”吗?

如果这不起作用,则可能有四个错误源:

  1. 越野车训练算法 :尝试使用较小的模型,打印出许多介于两者之间的值,然后查看它们是否符合您的期望。
    1. 除以0:在分母中加上一个小数字
    2. 0 /负数的对数:除以0
  2. 数据 :您的数据类型可能有误。例如,您的数据可能是float32类型,但实际上是整数。
  3. 模型 :也有可能您刚刚创建了一个模型,该模型可能无法预测您想要的模型。当您尝试使用更简单的模型时,这应该显示出来。
  4. 初始化/优化 :根据模型,初始化和优化算法可能会发挥关键作用。对于使用标准随机梯度下降法的初学者,我要说的是随机初始化权重(每个权重为不同的值)非常重要。 -另请参阅: 此问题/答案

学习曲线

有关详细信息,请参见sklearn

学习曲线显示训练误差/测试误差曲线相互接近

这个想法是从一个很小的训练数据集(大概只有一个项目)开始的。然后,模型应该能够完美拟合数据。如果可行,则制作一个稍大的数据集。您的训练错误有时会稍微上升 。这揭示了您的模型对数据建模的能力。

数据分析

检查其他班级出现的频率。如果一个类别主导其他类别(例如,一个类别占数据的99.9%),这是一个问题。寻找“异常检测”技术。

更多

  • 学习率 :如果您的网络没有改善,并且获得的随机性仅比随机机会好一点,请尝试降低学习率。对于计算机视觉,通常使用/可以达到0.001的学习率。如果将Adam用作优化器,这也很重要。
  • 预处理 :确保对培训和测试使用相同的预处理。您可能会在混淆矩阵中看到差异(请参阅此问题

常见错误

这是受reddit启发的:

  • 您忘记了进行预处理
  • 垂死的ReLU
  • 学习率太小/太大
  • 最后一层的激活功能错误:
    • 您的目标不是总和? ->不要使用softmax
    • 目标的单个元素为负->不要使用Softmax,ReLU,Sigmoid。 tanh可能是一个选择
  • 网络太深:您无法训练。首先尝试一个简单的神经网络。
  • 大量不平衡数据:您可能需要研究imbalanced-learn
收藏
评论
新手导航
  • 社区规范
  • 提出问题
  • 进行投票
  • 个人资料
  • 优化问题
  • 回答问题

关于我们

常见问题

内容许可

联系我们

@2020 AskGo
京ICP备20001863号