所谓OCR(OpticalCharacterRecognition光学字符识别)技术,是指利用电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。随着计算机技术的迅猛发展,信息电子化已经成为一个必然趋势。而文字是信息中最重要的一种载体,其电子化程度决定了信息化的程度。OCR技术改变了传统的纸质介质资料输入的概念。通过OCR技术,用户可以将通过摄像机、扫描仪等光学输入方式得到的报刊、书籍、文稿、表格等印刷品的图像信息转化为可以供计算机识别和处理的文本信息。因此,与传统的手工录入方式相比,OCR技术大大提高了人们进行资料存储、检索、加工的效率。目前市场上符合银行、证券、保险、税务、公安、海关、机场、工商、军队及其它行业应用的OCR产品已经相对成熟,它们已经通过市场检验并被广大用户大规模使用2、OCR技术的发展及应用OCR技术诞生于1929年,由德国的科学家Tausheck首先提出。利用光学技术对文字和字符进行扫描识别,并将其转化为计算机内码。
第一个OCR软件是在1957年开发的ERA(ElectricReadingAutomation)。它是基于窥视孔方法实现的,识别的速度是每秒120个英文字母。从OCR技术的发展历程来看,可分为三个阶段:第一代OCR产品出现于60年代初期,NCR公司、Farrington公司、IBM公司分别研制出了自己的OCR软件。它只能识别印刷体的数字、英文字母及部分符号,并且必须是指定的字体。
第二代OCR产品出现于60年代中期到70年代初期,可以识别手写体字符。日本东芝公司研制将其开发的OCR产品应用于IBM公司于手写体邮政编码识别的信函自动分拣系统,信函的分拣率达到92%~93%,并且广泛地应用在现实生活中,发挥着较好的作用。
第三代OCR产品主要解决的技术问题就是对于质量较差的文档及大字符集的识别,例如汉字的识别。日本东芝公司于1983年发布了其识别印刷体日文汉字的OCR系统,其识别速度为每秒70~100个汉字,最高识别率达到99.5%。经过不断改进,针对手写印刷体日文汉字的识别现在已经达到实际应用水平。我国在OCR技术方面的研究工作起步较晚,在70年代才开始对数字、英文字母及符号的识别进行研究;70年代末开始进行汉字识别的研究。我国政府从七五科技攻关计划开始到现在的863计划一直长期支持中文OCR的研发,是中文OCR技术进步的最重要推动力。
从80年代中期开始,国内开始了中文OCR的研究热潮,到90年代中期,国内汉王公司推出了汉王中文OCR系统,达到可初步实用化的水平。从中文OCR技术的发展来看,其研发与应用经历了如下几个阶段:
⑴印刷体单字体识别,支持国标一级汉字3755字、繁体5401字,简繁体和字体由用户指明,识别率在95%左右;
⑵印刷体多字体识别,支持国标一级汉字3755字,繁体5401字,简繁体由用户指明,宋仿楷黑四体混合识别,识别率在95%左右,对质量较差的印刷文稿的识别率会明显下降,印刷体表格的识别系统开始出现;
⑶多字体大字符集简繁混排、中英文混排识别,支持国标二级汉字6763字、繁体5401字、香港常用字等1万多字,识别字体扩充到常见的十多种字体,识别率在99%左右,对质量较差的印刷文稿的识别率有较强的适应性,脱机手写数字识别和印刷体表格识别系统进入实用化阶段;
⑷各种应用系统开始推出,如名片识别系统、汉王文本王、银行票据识别系统、增值税发票识别认证系统等。由于新世纪初中文OCR的识别率偏低,用户满意度低,几乎没有OCR的行业应用项目,随着国内信息化建设的进展,市场迫切需要解决多字体大字符集、中英文混排、简繁混排、表格识别的识别率和识别速度问题,版面的理解与还原问题,识别系统对各种应用需求的适应性问题以及用户使用的方便性问题。