当图像大小不同时,如何格式化图像数据以进行训练/预测?
deep-learning
5
0

我正在尝试训练对图像进行分类的模型。我的问题是,它们的大小不同。我应该如何格式化我的图像/或模型架构?

参考资料:
Stack Overflow
收藏
评论
共 2 个回答
高赞 时间 活跃

尝试制作一个空间金字塔池化层。然后将其放在最后一个卷积层之后,以使FC层始终获得恒定的维向量作为输入。在训练期间,使用特定图像大小训练一个时期的整个数据集的图像。然后在下一个时代,切换到其他图像尺寸并继续训练。

收藏
评论

您没有说出您在谈论什么架构。既然您说过要对图像进行分类,那么我假设它是一个部分卷积,部分完全连接的网络,例如AlexNet,GoogLeNet等。通常,问题的答案取决于您使用的网络类型。

例如,如果您的网络仅包含卷积单元(也就是说,不包含完全连接的层),则它可能会与输入图像的大小无关。这样的网络可以处理输入图像,然后返回另一个图像(“一直卷积”);当然,您必须确保输出符合您的期望,因为您必须以某种方式确定损失。

但是,如果您使用的是完全连接的设备,那么麻烦就大了:在这里,网络必须要处理固定数量的学习权重,因此,不同的输入将需要不同数量的权重-这是不可能的。

如果这是您的问题,则可以执行以下操作:

  • 不用担心挤压图像。无论如何,网络可能会学会理解内容。缩放和透视对内容有任何意义吗?
  • 将图像中心裁切为特定尺寸。如果您担心丢失数据,请进行多次裁剪并使用这些裁剪来增强输入数据,以便将原始图像分割成N大小正确的不同图像。
  • 将纯色图像填充到平方大小,然后调整大小。
  • 结合起来做。

填充选项可能会为网络的预测引入一个额外的错误源,因为网络可能(读为:可能会)偏向包含此类填充边框的图像。如果您需要一些想法,请查看TensorFlow文档的“ 图像”部分,其中有诸如resize_image_with_crop_or_pad之类的resize_image_with_crop_or_pad用来承担更大的工作。

至于只是不关心挤压, 是著名的盗梦空间网络的预处理管道的一部分:

# This resizing operation may distort the images because the aspect
# ratio is not respected. We select a resize method in a round robin
# fashion based on the thread number.
# Note that ResizeMethod contains 4 enumerated resizing methods.

# We select only 1 case for fast_mode bilinear.
num_resize_cases = 1 if fast_mode else 4
distorted_image = apply_with_random_selector(
    distorted_image,
    lambda x, method: tf.image.resize_images(x, [height, width], method=method),
    num_cases=num_resize_cases)

他们完全意识到了这一点,并且无论如何都会这样做。

根据多远你想要或需要去,实际上是一纸在这里被称为空间金字塔池深卷积网络从视觉上识别 ,通过在一个非常特殊的方式处理它们的手柄任意大小的输入。

收藏
评论
新手导航
  • 社区规范
  • 提出问题
  • 进行投票
  • 个人资料
  • 优化问题
  • 回答问题

关于我们

常见问题

内容许可

联系我们

@2020 AskGo
京ICP备20001863号