OCR的Tensorflow模型
deep-learning
python
tensorflow
6
0

我是Tensorflow的新手,我正在尝试构建模型,该模型将能够对图像执行OCR。我必须阅读9个字符(固定在所有图像中),数字和字母。我的模型将与此类似

https://matthewearl.github.io/2016/05/06/cnn-anpr/

我的问题是,我应该首先针对每个角色训练我的模型,然后再组合角色以获得完整的标签表示。还是我应该直接在完整标签上训练?

我知道我需要传递给模型,图像+对应图像的标签,这些标签的格式是什么,它是文本文件,我对该部分有点困惑,因此任何有关传递给模型的标签格式的解释会有所帮助吗?谢谢,谢谢。

参考资料:
Stack Overflow
收藏
评论
共 2 个回答
高赞 时间 活跃

有两种方法可以解决此问题(以下列表并不详尽)。

1)第一个是直接从图像中对单词进行分类。如果您的9个字符的词汇量有限,则可以训练特定单词的分类器。然后,您可以将该分类器与图像进行卷积,并选择概率最高的单词。

2)第二种选择是训练一个字符分类器,找到图像中的所有字符,并找到最有希望找到的9个字符的行。

3)第三种选择是训练文本检测器,找到所有可能的文本框。然后使用基于序列的模型阅读所有文本框,并选择最符合您约束条件的解决方案。以下论文介绍了一个基于序列的简单模型: http : //ai.stanford.edu/~ang/papers/ICPR12-TextRecognitionConvNeuralNets.pdf 。其他基于序列的模型可以基于HMM,连接主义者的时间分类,基于注意力的模型等。

4)第四个选项是基于注意力的模型,它们端到端地工作以首先找到文本,然后一个一个地输出字符。

请注意,此列表并不详尽,可以使用许多不同的方法来解决此问题。其他选项甚至可以使用第三方解决方案(例如Abbyy或Tesseract)来帮助解决您的问题。

收藏
评论

我建议您注意培训端到端OCR模型。您可以尝试使用我们用来记录街道名称的Attention OCR https://github.com/tensorflow/models/tree/master/research/attention_ocr

我猜这应该适合您的情况。请参阅答案https://stackoverflow.com/a/44461910,以获取有关如何为其准备数据的说明。

收藏
评论
新手导航
  • 社区规范
  • 提出问题
  • 进行投票
  • 个人资料
  • 优化问题
  • 回答问题

关于我们

常见问题

内容许可

联系我们

@2020 AskGo
京ICP备20001863号