客户案例
customercase-icon
客户案例
实在智能凭借流畅稳定的产品和落地有效的方案,已为电商、通信、金融、政府及公共服务等1500+企业提供数字化产品和服务
客户之声
实在生态
产品咨询热线400-139-9089市场合作contact@i-i.ai
百万开发者交流群
关于我们
产品咨询热线400-139-9089市场合作contact@i-i.ai
百万开发者交流群
行业百科
分享最新的RPA行业干货文章
行业百科>OCR识别软件怎么做到识别发票的
OCR识别软件怎么做到识别发票的
2023-08-15 17:35:51

OCR识别软件识别发票的过程如下:

  1. 首先,打开OCR识别工具,在左侧选择“票证识别”中的“增值税票据”。
  2. 然后,点击添加文件,将发票图片上传到工具中。
  3. 在左侧选择识别格式,可选择TXT和DOC格式。
  4. 接着,点击此处选择文件导出目录。
  5. 最后,点击右上角的“开始识别”即可。
  6. 识别完成后,点击前往导出文件位置浏览文件就可以了。

发票OCR识别软件主要是通过以下步骤实现的:

  1. 图像预处理:对发票原图进行简单的形态学操作,获取最佳的二值图像。
  2. 表格提取:对二值图像进行线段识别,以实现表格提取。表格由水平线和垂直线组成,因此需分别在两个方向上对发票进行线段提取。提取线段的形态学操作就是通过自定义的结构元素,构造对指定形状敏感的形态学运算,再通过膨胀和腐蚀操作处理敏感像素。提取水平线时创建自定义内核形态为竖向矩形,此时的敏感对象是垂直线段,通过开运算腐蚀垂直方向像素,水平线即被保留;提取垂直线段时创建自定义内核形态为横向矩形。图像所有线段均提取后,对输出结果进行“与”操作以求得交点坐标,发票内容通过坐标对进行匹配。再对提取出的水平线图、垂直线图做加法合并,即可得到完整的表格框线图。
  3. 内容匹配:发票内容为多行多列文本,对发票先分割再识别,把含有用信息的表格单独切割,每个表格都是一张图像,对于含多行文本的表格,通过算法对其进行再分割,使得到的每张图像都只含一列文本。
  4. 字符识别:发票文档由中英文、数字和特殊符号共同组成,Tesseract-OCR引擎自带的字库识别准确率并不高,引入jTessBoxEditor来训练专门针对发票识别的字库。通过修正坐标,将内容与表格边框分隔开,使表头与内容精准匹配,从而实现任意区域下对特定表格进行内容提取,并高效精准识别。

以上就是OCR识别软件识别发票的过程,供您参考。

分享:
上一篇文章
自然语言处理常见的算法有哪些?
下一篇文章
流程挖掘
相关新闻
可视化的流程挖掘是什么
2023-08-16 14:01:26
无头系统是什么?跟RPA有关系吗?
2023-08-16 14:12:48
使用ocr识别软件识别的时候要注意什么?
2023-08-15 17:05:55
查看更多行业新闻>>
免费领取更多行业解决方案
立即咨询
大家都在用的智能软件机器人
获取专业的解决方案、智能的产品帮您实现业务爆发式的增长
免费试用
渠道合作
资料领取
预约演示
扫码咨询
领取行业自动化解决方案
1V1服务,社群答疑
扫码咨询,免费领取解决方案
热线电话:400-139-9089