用Python批量识别发票并录入到Excel表格。
对于财务专业等学生或者公司财务人员来说,将报账发票等汇总到excel简直就是一个折磨。
尤其是到年底的时候,公司的财务人员面对一大堆的发票简直就是苦不堪言。正好我们学会了Python,我们应该将Python的优势发挥起来。
这里有以四张发票为例(辰哥网上搜的),将发票图片放到pic文件夹下。
随便打开一张发票
提取目标:金额、名称、纳税人识别号、开票人。
最后将每一张发票的这四个内容保存到excel中:
需要用到的库如下:
安装的命令如下:
发票中含有中文内容,我们需要对图片中的中文进行识别,那么 cnocr 是一个不错的选择。
提示:安装好上面的库之外,还需要安装额外的exe文件,不然会出现下面这种错误
需要安装的exe文件:
这两个软件的安装过程就不再赘述了,大家可以自行搜索教程进行安装。
下面以其中一张图片为例,讲解如何提取目标内容:金额、名称、纳税人识别号、开票人。
读取图片:pic/pic1.jpg
需要截取到发票中金额的位置
这里的left、top、right、bottom的数值是通过多次修改定位而来。大家根据自己的发票内容去定位即可。
接着将图片中的数字提取出来
同样的,下面继续提取:名称
这里的名称是中文的,咱们不能再像提取金额(数字)操作。需要使用到cnocr去将图片中的中文取出
由于有中文,咱们这里同样和提取名称一样,使用cnocr将图片中的中文取出。
ok这样我们就将发票中的四个目标内容提取出来,接着将文件夹pic下的所有发票,进行识别将内容保存到excel。
在读取图片之前,先将上面的四个操作封装成函数,方便每一种发票对象进行调用。
读取文件夹下的所有图片。
开始进行识别,并将结果写入到excel中。
最后保存为:发票汇总-李运辰.xls,其结果如下:
在我的交流群里,和小伙伴聊到这个内容时,小伙伴建议可以加一个功能:发票验证真伪。
所有在上面的开始识别之前(自己公司的发票可能不需要查验这步),先调用一下第三方的接口,对发票进行识别,识别通过之后再将其提取发票中目标内容。
这里的client_id 为官网获取的AK, client_secret 为官网获取的SK,是上面申请好应用即可获取
咱以这张图片为例,进行查验
其中的发票类型对应如下:
结果如下:
感觉这个结果查询不是很好(不详细)。下面还可以去税务局查询
同样以这张图片为例,进行查验
填写好信息点击查验,结果如下:
再税务局查验更加清晰。读者可以根据自己的情况去选择自己的方式去查验。
本文基本就成功实现目标要求,从效果来看还是非常不错的!感兴趣的读者可以自己尝试!
一定要动手尝试!一定要动手尝试!一定要动手尝试!
读者福利:知道你对Python感兴趣,便准备了这套python学习资料
[[CSDN大礼包:《python兼职资源&全套学习资料》免费分享]](安全链接,放心点击)
对于0基础小白入门:
如果你是零基础小白,想快速入门Python是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以找到适合自己的学习方案
包括:Python激活码+安装包、Python web开发,Python爬虫,Python数据分析,人工智能、机器学习等习教程。带你从零基础系统性的学好Python!
Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。(全套教程文末领取哈)
温馨提示:篇幅有限,已打包文件夹,获取方式在:文末
观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
检查学习结果。
上述这份完整版的Python全套学习资料已经上传CSDN官方,朋友们如果需要可以微信扫描下方CSDN官方认证二维码 即可领取↓↓↓