发票扫描识别,发票扫描仪

一、行业背景

财务共享这个概念很早以前就被提出,只是在实际的推广过程中遇到了很多难题。比如我们今天谈到的发票录入问题。日常生活中,我们几乎每天都在和各种各样的发票打交道,出门打车要发票,吃饭完毕要发票,发票作为报销也好,消费记录也好,都是一种重要的凭据。

尤其是增值税发票,作为全国通用的票据来讲,其重要性不言而喻。一般情况常见的是每一张发票都需要录入到ERP系统当中,并且要做到三单匹配,最关键的是要认证和抵扣。

二、行业调查

那么我们今天想解决的问题就是让财务办公人员脱离手工录入的烦恼。利用扫描仪 OCR这两者的结合,来解决这一财务痛点。扫描仪负责纸质发票的扫描,OCR则完成发票内容信息的提取。这看似非常简单的步骤其实困难重重,让我们简单来概括一下。

第一点,就是发票的独特性。打印发票所用的纸质非常的特殊,不像A4纸张那样,发票的纸质一般在40克以下,也就是说纸质很脆,贴别容易撕烂。这给纸质发票能否通过市面上的扫描仪带了了巨大的挑战。

第二点,就是打印发票所使用的打印机,一般发票一共有三联,也就是需要同时在三张纸上打印内容,目前使用的是传统的针式打印机。采用的是色带,不像市场上的激光打印机,用的是硒鼓。

第三点,不得不说的就是发票上的字体。目前主要是有两家,航天信息和百旺金赋,这两家用的是不同的字体。这个后期OCR识别也带了巨大的挑战。

三、行业方案

带着这三点,我们来看看目前的解决方案中是如何处理的。

首先就是扫描仪的选型,扫描仪必须具有发票的高通过率,通俗的讲就是不可以卡纸,因为发票易碎,一旦卡纸,很有可能就会对发票造成伤害,得不偿失。其次是图像的高度还原,生成的图像不可以产生变形,一旦变形,对OCR的识别会带来致命的一击,也就是无法识别。最后是扫描仪的速度,一分钟能扫描发票的张数,这个因素很大程度上决定了这套系统能帮财务人员提高多少效率,节省多少时间。

然后我们来研究一下OCR,理想情况,OCR识别率要达到90%以上,才能真正的给行业带来效益。那么要达到这么高的识别率,最起码要做到哪些基本的图像处理呢?想必大家能想到的无非是以下这些,譬如图像纠偏,图像方向检测,图像分色,印章提取和去除,包括红色、绿色、蓝色表格线的滤除,还有由于针式打印机导致的字符链接问题。只有把这些基本的因素处理到位,才能确保OCR拥有高识别率,让财务人员手工修改量达到最少。

 

四、扫描识别要素

至于扫描仪参数需要达到一个什么样的配置,OCR引擎要强大到那种程度不再这里赘述。我们来看看目前能识别发票上的哪些要素。理想状态是统统输出,但是目前没有见到这样的识别结果。所以我们今天只讨论市面上成熟的识别要素,自上而下的总结,发票代码、发票号码、开票日期、税率、金额、税额、价税合计大写、价税合计小写、购货单位名称、购货单位纳税人识别号、销货单位名称、销货单位纳税人识别号。至于大家问到的明细识别和备注栏识别,在这里不做深究,因为一般是用来做三单匹配的。

五、总结

增值税发票扫描识别必定是目前传统行业中流行的解决方案,据说最新的增值税发票匹配了当下盛行的二维码,里面包含了发票代码,发票号码,开票日期,金额这四个字段。这对于发票的录入又带了新的生机,不管怎样,大家都是在为解决这样的财务痛点而努力着。相信在互联网大数据的今后,一定会有更好的解决方案。

 

你可能感兴趣的:(发票扫描识别,发票扫描仪)