文字识别(Optical Character Recognition,OCR)作为AI领域发展较成熟的一种技术方向,已经在各种产业场景得到落地应用。除了文档电子化、卡证识别等典型的应用场景,还存在大量长尾场景,如工业场景的PCB文字识别、电表识别等。
然而在传统的图像关键信息抽取技术方案中,主要思路是先经过OCR文字识别,然后根据业务需求,设计一整套规则来提取若干关键信息。这样的做法有一些明显的缺点:
针对以上问题,飞桨推出基于文心大模型的全新解决方案PP-ChatOCR——融合飞桨PP-OCRv4和文心大模型,解决了传统方案泛化能力差,规则复杂等问题,实现从图片到关键信息抽取的端到端体验。目前,PP-ChatOCR已正式上线飞桨AI套件PaddleX!源码全部开放!您可以在AI Studio云端或者PaddleX本地端尽情探索!一方面可以发挥您的想象力修改Prompt,另一方面您也可以在PaddleX中对PP-ChatOCR做训练微调。同时PaddleX还支持PP-ChatOCR的高性能部署,赶快尝试与真实业务场景结合,体验大模型时代下,PP-ChatOCR所带来的生产力变革吧!
为了让广大开发者和企业更详细了解以及便捷地应用PP-ChatOCR,百度高级研发工程师殷晓婷将于10月11日(周三)20:30为大家带来一期精品课程,深度解析PP-ChatOCR相关特性及代码逻辑,更有基于PP-ChatOCR完成信息抽取应用二次开发的场景范例讲解。未来,我们也将持续为广大开发者和企业带来飞桨AI套件PaddleX中精选模型技术详解与场景范例,敬请期待!
关注「飞桨PaddlePaddle」获取更多直播最新动态~
PP-ChatOCR将LLM(Large Language Model)与经典的PP-OCR模型结合,达到了通用场景下的图片关键信息抽取效果,支持身份证、银行卡、户口本、火车票等多种场景的关键信息提取**。而图像关键信息提取的关键点在于对OCR识别结果的规则化处理。)
PP-ChatOCR背后的工作原理仅仅是一套OCR模型和针对LLM的Prompt模板!
PP-ChatOCR技术框架
如上图所示,基于PP-ChatOCR的技术框架来完成一个范例的完整流程一般包含以下4个部分,具体来说:
注:如果您在一个明确的场景中使用PP-ChatOCR,上述第二步场景判别过程是可以省略的,第三步的few-shot learning直接提供该场景下的例子即可。
身份证个人信息识别
【PaddleX】PP-ChatOCR_AI应用-飞桨AI Studio星河社区
就这一套通用场景下的PP-ChatOCR技术方案,基于一个通用的PP-OCRv4模型、一套共用的Prompt模板,没有增加复杂的前后处理逻辑,目前在12种图像场景中,已经达到了平均80%以上的精度。在一些相对简单的场景(例如身份证)中,精度可达97%。
数链科技基于飞桨研发的PP-ChatOCR,通过微调文字识别模型、优化信息提取指令、组合成适当的prompt等优化策略,实现了多页PDF合同扫描件的关键信息抽取,关键字段高精度识别抽取准确率稳定超越98% 。当前,该技术已经赋能数链科技的核心客户,辅助风控提效80%,节省人力5人。
更多经典案例,持续沉淀中…
详情请戳:
相关地址直达:
PP-ChatOCR所使用的PP-OCRv4模型,目前已发布在PaddleOCR 2.7新版本中,欢迎大家使用!
除了可以更便捷地开发AI模型和应用外,PaddleX还为企业提供了获取商业收益的机会。共创伙伴基于PaddleX开发出产业应用后,可以拟定应用价格,开放给其他用户购买,伙伴可获得相应收入分成。其他用户无需重新训练模型,可以直接通过接口完成数据输入和获取处理结果,避免重复开发,提升效率。
目前已有多个伙伴开放并上线相关应用。例如:数链科技加入星河共创计划,基于PP-ChatOCR将自研的合同信息抽取模型上线飞桨AI Studio星河社区,赋能更多有相同业务场景的客户和伙伴,上线一周内实现万元收入。通过星河共创计划,数链科技实现了行业痛点解决、业务落地、客户拓展和商业收入。
如果您也有意愿共创基于PaddleX的产业应用,可以关注「飞桨PaddlePaddle」添加小助手,回复“共创”即可。
1、【PaddleX云端/本地端下载链接】 :飞桨AI Studio星河社区-人工智能学习与实训社区
2、【PaddleX官方频道】:飞桨AI Studio星河社区-人工智能学习与实训社区
3、【PaddleX共创方案】:https://ai.baidu.com/ai-doc/AISTUDIO/pll1ysj35
4、【PaddleX使用文档】:https://ai.baidu.com/ai-doc/AISTUDIO/Zlisojzjs