什么是 OCR,它是如何工作的?
光学字符识别(OCR),也称为文本识别技术,即将任何类型的包含书面文本的图像转换为机器可读的文本数据。OCR可以快速自动地使文档数字化,而无需手动输入数据。这就是为什么OCR通常用于业务流程优化和自动化的原因。OCR的输出进一步用于电子文档编辑和压缩数据存储,还构成了认知计算、机器翻译和文本到语音技术的基础。
根据解决的任务有不同类型的 OCR:
智能文字识别(IWR)用于识别不受约束的手写文字,而不是识别单个字符。智能字符识别(ICR)是一种更高级的OCR形式,它基于更新算法收集更多关于手写字符变化的数据。光学文字识别(OWR)逐字扫描文字。光学标记识别(OMR)用于识别人们在调查、测试等标记的信息。传统的光学字符识别系统功能包括三个阶段:图像预处理、字符识别、后处理。
1、检查文档类型和图像预处理
文本识别的主要挑战是每个文档模板都有自己的一组实体、值和实体在文档中的位置。要使OCR软件准确运行,它必须能够识别不同类型的文档并在此基础上运行正确的预定义管道。
选择正确的管道后,图像进入预处理步骤。
2、字符识别
通过使用特征检测和模式识别算法,可以检测到单个字符。然后,将一组字符组合成单词和句子。使用模式识别或特征检测算法识别字符。
大多数情况下,具有特征检测的OCR程序使用基于机器学习或神经网络的分类器来处理字符。
3、后处理
一旦识别出一个符号,它就会被转换成一个代码,计算机系统可以使用该代码进行进一步处理。任何OCR和OCR相关技术/算法的输出都有很多噪音和误报。
根据统计数据,在这个阶段,系统会纠正噪音以提高OCR输出的质量。