深度学习技术助力古籍数字化:AI 大批量识别准确率高达95%

借助人工智能技术,近年来OCR性能的不断提升为产业数字化催生出的更复杂的OCR应用场景提供了坚实支撑。同时,覆盖手机、电子产品以及云服务在内的更加多样化的服务载体,进一步加快了OCR的普及,持续向社会生产生活的更多领域渗透。

一、新基建带来新机遇,OCR技术发展的三大方向

OCR是光学字符识别(Optical Character Recognition)的缩写,指利用机器将图像中手写体或印刷体的文本转换为计算机可以直接处理的格式。作为计算机视觉领域的重要分支,OCR典型应用是通过图像文字识别实现信息录入。同时,由于文字和符号包含丰富的语义信息,基于OCR提取文字信息继而进行分析,能够帮助机器更好地理解图像。

尤其是去年4月,国家发改委明确将人工智能基础设施列入“新基建”范围,作为人工智能应用中最接“地气”,商业推广较为成熟的领域,OCR产业在“新基建”背景下无疑将迎来新的发展机遇,相关技术也将迎来新一轮的变革。

权威报告指出,OCR技术未来发展的三大方向主要包括一体化的端到端OCR模型、兼具高性能高效率的OCR、从感知到认知的智能OCR。

具体来说,构建一体化的端到端网络,同时对文字检测和识别进行训练,将成为OCR技术发展的重要趋势之一。另外,从感知到认知的智能OCR来说,OCR技术通常从计算机视觉领域出发,未来与自然语言处理技术、知识图谱等更广领域的交叉融合,通过语义及知识的深度挖掘提升OCR性能是重要趋势。

二、市场规模高达133.81亿美元,OCR大规模渗透

目前,OCR技术已在金融、保险、医疗、交通、教育等诸多行业有了深入成熟的应用。未来随着传统行业的数字化转型,OCR应用范围和场景将进一步扩展,市场规模将进一步增大。有权威机构预测,2025年全球OCR市场规模将达到133.81亿美元。

近年来,越来越多的终端设备及应用均嵌入了OCR技术,并逐渐形成了从基础设施、基础能力到终端应用的完整产业链生态,也衍生出了卡证、票据等一系列细分OCR能力,通过组合的方式服务于各个行业。

不难看出,OCR技术逐渐“下沉”为一项基本的能力,为上层不同的业务应用提供底层技术支撑。

三、多行业场景成熟落地,古籍OCR应用大有可为

在具体的落地应用层面,目前卡证识别、票据识别等标准场景文字识别已经相对成熟,手写文字识别在教育、物流等行业的应用也在不断扩大。复杂动态场景下的OCR技术和应用成为近两年的热门研究方向,比如在无人驾驶、机器人等场景利用OCR对视场中出现的文字进行识别等。

古籍识别是OCR文字识别中的一个应用场景,主要依托文字识别技术,将古文献、古书籍等古文字应用广泛的非常规文字内容转化成现代汉字表现形式。我国是一个文化大国,据不完全统计,拥有各类型古籍上百万册,覆盖文学、艺术、社会、科学等各个领域,对现代社会的发展有着深刻的指导和借鉴意义。

深度学习技术助力古籍数字化:AI 大批量识别准确率高达95%_第1张图片

古籍数字化尝试由来已久,但难度大、成本高。古籍文字字类多、字体多样,外加流传过程中出现的各类损坏,使得识别难度极高。由于缺乏充足的训练数据,常规OCR识别方法高度依赖人工,几乎需要专业人员逐字标注,导致古籍数字化无法形成规模效应,总体进程缓慢。

据了解,常规的古籍数字化完整流程分为几大环节:采集侧(纸质书变为电子扫描版)-数字化生产侧(电子扫描版变为文字版)-应用侧(文字版变为古籍研学系统,涵盖检索、字典、知识图谱等功能)。

根据调研得知,古文献、古书籍以及民国期刊等在进行数字化加工的过程中,需要将图像繁体字识别成可编辑和处理的现代汉字电子文件,此外,在古文献的研究及使用过程中,还有繁体字检索与文献定位的需求。通常情况下,古文献的研究与应用工作都是依靠人工整理完成操作,耗时长,成本大,且效率低下。

由深延科技自主研发的古籍OCR识别系统,主要集中于数字化生产侧、应用侧两个环节。在数字化生产侧,自研了一套全新的AI古籍识别系统,可以规模化、系统化对电子扫描版古籍进行识别。

深延科技古籍OCR识别系统基于深度学习技术,针对多种古籍文献类型,能够实现快速识别并转化文字,具有用时短、准确率高、一键导出等特色,可以极大地减少成本支出,提升古文献数据化效率。

目前,深延科技古籍OCR识别系统已服务多家企事业单位,涵盖图书馆、出版社、相关扫描仪企业等,在为客户解决复杂典籍数据处理以及民国报纸数字化问题上给出核心指导意见,并制定专属解决方案,同时还与部分古籍扫描仪企业达成合作,共同打造扫描识别整体解决方案。

你可能感兴趣的:(OCR识别,人工智能,深度学习,知识图谱,ocr)