客户案例
customercase-icon
客户案例
实在智能凭借流畅稳定的产品和落地有效的方案,已为电商、通信、金融、政府及公共服务等2000+企业提供数字化产品和服务
客户之声
实在生态
产品咨询热线400-139-9089市场合作contact@i-i.ai
百万开发者交流群
关于我们
产品咨询热线400-139-9089市场合作contact@i-i.ai
百万开发者交流群
行业百科
分享最新的RPA行业干货文章
行业百科>低质量文本图像的OCR 技术的研究
低质量文本图像的OCR 技术的研究
2023-03-10 17:09:49

对低质量文本图像的OCR 技术进行了深入的研究,目标就是从理论,算法和应用三个层次上研究低质量文本图像的高性能识别问题。研究工作主要包括以下几个方面:

首先分析论述了低质量文木灰度图像条件下,文字识别与人的认知、经典人工智能问题、以及二值图像识别技术之间的关系,对低质量文本图像 OCR 技术的研究方向提出了有别于传统的观点和看法

在上述理论框架的指导下,结合低质量文本自身的特点和规律,设计了一个低质量文本图像的识别流程,并在各主要步骤给出了实用高效的算法,主要有:

基于连通区域的层次结构切分算法:不同于传统的先行列切分,再字切分的算法过程本方法采用了由小到大、自底向上的切分策略。通过连通区域特征的变化规律找出适用于切分的最佳网值,再根据先验知识和启发式规则,对连通区域做适当的合并分割操作,最后得到最优的切分结果。实验表明,该方法对于低质量文本图像能够取得令人满意的切分效果。

基于地形特征的种子区域增长算法:基于确定点和关键点概念,利用像系地形特征自动的选择种于点,通过一种改进的种子区域增长方法,从和子区域开始,依据一定的优先级规则,逐渐向其近邻点扩展,对单宇灰度图像二值化,有效地获取了字符的结构信息本方法与已有的二值化方法相比较,能够更好的保留有效的宁符结构信息,提高了识别的正确率

基于不对称性的分类部分空间法:发现了相似字之间误识的不对称性,并对这种不对称现象的成因进行了细致的探讨和分析。基于这种不对称性,提出了一种分类部分空间方法来解决相似字的识别问题。相似字按其结构特点被分成若干基本类别,不同类别在相应的部分空间提取不同的特征进行比较以达到正确识别相似字的目的。

经百万字左右的文本测试表明,本文提出的方法对于不同质量文本的识别性能有不同程度的提高,尤其是对于质量比较低的文本(五十年代的文本数据),其识别正确率达

90”。左右,比已有方法提高了约九个百分点,误识率降低了约四个百分点,效果明显

分享:
上一篇文章
OCR识别技术
下一篇文章
Python请求响应与数据解析
相关新闻
OCR技术发展现状
2023-03-13 15:37:28
OCR研究思路
2023-03-13 15:41:48
Python在数据下载的思路
2023-03-10 16:40:31
查看更多行业新闻>>
免费领取更多行业解决方案
立即咨询
大家都在用的智能软件机器人
获取专业的解决方案、智能的产品帮您实现业务爆发式的增长
下载中心
渠道合作
资料领取
预约演示
扫码咨询
领取行业自动化解决方案
1V1服务,社群答疑
扫码咨询,免费领取解决方案
热线电话:400-139-9089