有两种方法可以解决此问题(以下列表并不详尽)。
1)第一个是直接从图像中对单词进行分类。如果您的9个字符的词汇量有限,则可以训练特定单词的分类器。然后,您可以将该分类器与图像进行卷积,并选择概率最高的单词。
2)第二种选择是训练一个字符分类器,找到图像中的所有字符,并找到最有希望找到的9个字符的行。
3)第三种选择是训练文本检测器,找到所有可能的文本框。然后使用基于序列的模型阅读所有文本框,并选择最符合您约束条件的解决方案。以下论文介绍了一个基于序列的简单模型: http : //ai.stanford.edu/~ang/papers/ICPR12-TextRecognitionConvNeuralNets.pdf 。其他基于序列的模型可以基于HMM,连接主义者的时间分类,基于注意力的模型等。
4)第四个选项是基于注意力的模型,它们端到端地工作以首先找到文本,然后一个一个地输出字符。
请注意,此列表并不详尽,可以使用许多不同的方法来解决此问题。其他选项甚至可以使用第三方解决方案(例如Abbyy或Tesseract)来帮助解决您的问题。
0
我是Tensorflow的新手,我正在尝试构建模型,该模型将能够对图像执行OCR。我必须阅读9个字符(固定在所有图像中),数字和字母。我的模型将与此类似
https://matthewearl.github.io/2016/05/06/cnn-anpr/
我的问题是,我应该首先针对每个角色训练我的模型,然后再组合角色以获得完整的标签表示。还是我应该直接在完整标签上训练?
我知道我需要传递给模型,图像+对应图像的标签,这些标签的格式是什么,它是文本文件,我对该部分有点困惑,因此任何有关传递给模型的标签格式的解释会有所帮助吗?谢谢,谢谢。