智能文档图像处理技术是指利用计算机视觉和人工智能等技术对文档图像进行处理和分析,实现自动化识别、提取、分类和管理的技术。随着人工智能时代的到来和各行业信息化进程的加速,越来越多的个人和企业用户开始借助智能文档图像处理技术来提高工作效率,降低人力成本,并减少出错率。
本文将探讨智能文档图像处理技术的基本原理和特点,回顾了合合信息在 VALSE 2023
会议上关于智能文档图像处理技术的相关分享,并详细介绍了版面分析技术及其应用,最后,对智能文档图像处理技术的发展趋势进行展望,以深刻认识智能文档图像处理技术的重要性和应用价值,用于在实际应用中降低成本,提高生产力。
智能文档图像处理是指通过应用计算机视觉、自然语言处理等人工智能技术,对文档图像进行自动化处理、分析和识别的过程。可以帮助用户快速高效地对文档图像信息展开深入的分析和理解,实现对文档中的重要信息进行提取。同时,在处理大量文档的情况下,可以显著地减少人力成本和时间成本,提高文档处理的准确度和效果,防止出现错误或遗漏等问题。
具体来说,智能文档图像处理技术主要包括以下方面:
Optical Character Recognition
, OCR
) 和表格识别等文档图像智能分析与处理是一种将图像和文本结合起来的技术,可以将图像中的文字识别为计算机可读的文本,并将其用于数据分析、信息检索、自然语言处理以及其他信息处理任务中,因此文档图像智能分析与处理在现实场景具有重要意义:
智能文档图像处理技术可以帮助用户实现文档图像信息自动抽取、分类、填写等功能,这些功能可以广泛应用于多个不同领域,提高工作效率和准确性:
VALSE
(Vision And Learning SEminar
) 发起于 2011
年,每年举办一次,以“倡导学术平等,深度前沿交流;恪守科学精神,践行学术契约;热心学术服务,促进沟通合作”为理念和使命,旨在为全球计算机视觉、模式识别、机器学习、多媒体技术等相关领域的华人青年学者提供一个平等、自由的学术交流舞台。以促进国内青年学者的思想交流和学术合作,从而在相关领域做出重量级学术贡献,提升中国学者在国际学术舞台上的学术影响力。
近期,VALSE 2023
在无锡顺利落幕,相关报告和展示从内容上涵盖了计算机视觉、图像处理、模式识别与机器学习领域的大部分热点研究方向,研讨了上述研究领域的国内外前沿进展。智能文档图像处理是计算机视觉在产业中的重要应用,现阶段还面临着诸多挑战:
作为智能文档处理领域的代表,合合信息出席了 VALSE 2023
会议,在会议上主要分享了合合信息关于智能文档处理技术的研发与实践成果,在解决工业界中面临的各类问题中所做的一些相关研究成果,并重点介绍了在版面分析领域的工作进展。
合合信息是行业领先的人工智能及大数据科技企业,深耕智能文字识别、图像处理、自然语言处理和大数据挖掘等领域,其研发的智能图像处理引擎提供多种图像智能处理黑科技,例如图像切边增强、PS 篡改检测以及图像矫正等,相关黑科技的体验可以登录合合信息官网。
版面分析技术是一种向系统输入文档图像后,机器会对文字部分和版面元素进行分析和识别,把若干行文字关联起来,从而获得正确的顺序与段落关系技术,主要包括版面分析与还原。它可以在文本、图形和表格等复杂元素之间建立关联性,进而实现自动化文档处理和排版。具体而言,版面分析与还原的主要任务包括:
Optical Character Recognition
, OCR
) 技术将文本从图像中提取出来
版面分析与还原技术可以应用于自动化文本排版、电子书制作、期刊杂志制作等领域。它可以大幅缩短排版时间和成本,提高生产效率和质量,并且解决了传统排版中可能出现的人为错误和疏漏问题,在实际生产和生活环境中,具有重要用途:
OCR
处理,将纸质文档数字化,方便进一步实现文本分析和搜索版面分析可以分为物理版面分析和逻辑版面分析两个方面。物理版面分析主要是指对文档的视觉排版进行分析,即识别出文档中的各种视觉元素(如文本、图片、表格、分隔线等),并判断其在文档页内的位置、大小、颜色等属性,物理版面分析通常需要进行图像处理和计算机视觉等技术的支持,以提取文档中的视觉信息。逻辑版面分析则是指对文档的逻辑结构进行分析,即识别出文档中各种语义元素的类型和语义关系(如标题、正文、段落、列表、脚注、注释等),并将其转换成可机器读取的结构化数据,逻辑版面分析通常需要进行自然语言处理、机器学习等技术的支持,以便于理解文本的语义信息。
虽然版面分析技术已经得到了较大的发展,但仍然存在以下问题:
如果版面分析的精准度无法得到提升,那么在文件材料被拍照、扫描成电子文档的过程中就会出现漏字和错位的问题。这些质量问题可能会导致识别出的文本内容与原始文档存在一些差异或错误,特别是在需要对文档进行高精度的处理和分析的情况下(比如图片转换成 Word/Excel
等),这些问题将会严重影响文档的正确性和可用性。
为了解决复杂的版面分析问题,目前主流的方法多基于深度学习,能够自动从原始图像中抽取特征,并通过不同层次的网络结构实现版面结构的分析和识别,具有强大的表达能力和泛化能力。合合信息提出的版面分析算法采用了基于图像和文本的特征融合方式,能够自适应地处理不同种类、不同形态的文档,算法利用深度学习网络结构从原始文档中自动提取特征,并通过端到端的训练实现文本块的检测和分类。同时,网络结构简洁,相比其他算法,计算速度更快,能够满足实时应用场景。
版面元素检测是版面分析的重要任务之一,其目的是将文档中的各类版面元素如文字块、标题、页眉页脚等区域进行自动识别和标注,通常,基于深度学习的版面元素检测和识别算法需要以下步骤:
XML
或 JSON
格式进行表示和存储合合信息提出的版面元素检测模型如下图所示:
但是,获取的物理版面元素获取后并不能直接用于文档排版,这是因为同等视觉信息的文档可能是通过多种不同的编辑方式获得的,如下图所示,同样长度的间隙可以通过使用 Tab
键获得,也可以直接使用空格键获得。如果直接应用这些物理版面元素进行排版,可能会产生不符合要求的格式或布局,影响文档的可读性和美观度性,需要将获取到的物理版面元素根据需求进行进一步处理和解析,才能用于文档排版,这就需要文档排版引擎对版面元素进行排版。
文档排版引用于将文档内容和样式信息转换为具有良好排版效果的可编辑文档,合合信息提出的文档排版引擎架构如下所示。首先从文档中提取出四类嵌入向量:
Character embedding
):将字符表示为向量的技术,其基本思想是将每个字符映射到一个高维向量空间中的特定坐标点,以此来表示字符和不同字符之间的相似度和差异性,在字符嵌入过程中,需要首先构建一个字符表,包括所有需要表示的字符,然后使用算法来计算每个字符在向量空间中的坐标,以及它们之间的相对距离。Textline embedding
):将文本行表示为向量的技术,可以将文本行中的每个字符和单词表示为向量,并将其组合成一个高维向量,以此来描述文本行的特征和属性,基本思想是将文本行中的每个字符转换为向量,通常采用的方法是将每个字符通过预先训练好的字符嵌入进行编码,然后通过一些组合方法将这些向量合并成一个文本行向量Paragraph embedding
):将段落表示为向量的技术,基本思想是将段落中的每个句子通过嵌入技术转换为向量,然后将这些向量合并为一个高维向量,以此来描述整个段落的特征和属性,在段落嵌入过程中,可以使用不同算法和模型来计算每个句子在向量空间中的坐标,然后采用一些组合方式将这些向量合并为一个段落向量Relation embedding
):将关系表示为向量的技术,基本思想是将实体和关系通过嵌入技术转换为向量,然后将它们组合成一个高维向量,以此来描述实体之间的关系和属性,在关系嵌入过程中,首先需要构造关系图谱或知识库,包括实体和实体之间的关系,然后可以使用多种算法来计算每个实体和关系在向量空间中的坐标,通过组合实体向量和关系向量,可以得到整个关系的向量表示
得到以上四类嵌入向量后,利用 Transformer
模型执行文档排版渲染。Transformer
是一种基于自注意力机制( Self-Attention
)的神经网络模型,可以用于自然语言处理中的各种任务,如文本分类、机器翻译、情感分析等,其核心思想是利用自注意力机制实现对序列信息的编码和解码,从而提高模型的效率和精度。相比于传统的循环神经网络和卷积神经网络,Transformer
具有以下优势:
Transformer
中每个位置的输出只与输入序列中与之相关的位置有关,这使得 Transformer
可进行并行计算,并且在长序列输入时表现良好Transformer
中采用多头注意力机制,使得模型能够关注不同层次的语义信息,从而更加准确地抽象和表示Transformer
的基本结构为编码器-解码器架构,在编码器和解码器中,均采用了多层自注意力机制和前向神经网络,来提高模型的表现。
版面还原技术可以将扫描得到的文档图像转换为具有可编辑性和复制性的电子文档(如 PDF
、Word
和 Excel
等),还原原始文档页面布局和文本格式,应用于自动化文本排版、电子书制作、期刊杂志制作等领域。它可以大幅缩短排版时间和成本,提高生产效率和质量,并且解决了传统排版中可能出现的人为错误和疏漏问题。
合合信息提出的文档还原系统综合了文字检测识别、版面元素检测识别、图层分离、排版布局等一系列深度学习模型,并通过合理的方式糅合各个模块,并搭配文档渲染引擎,最终生成可供用户编辑修改的 Word/Excel
文档。合合信息文档还原模型的效果如下所示:
除了版面分析技术外,在 VALSE 2023
会议上,合合信息还分享了其他一些实用文档图像处理技术,包括图像矫正、摩尔纹去除和反光擦除等,这些技术可以互相结合,形成完整的文档图像处理流程,提供高效、准确的文档处理服务。
由于相机的姿态、文档放置状态、文档自身变形等不确定因素,在使用移动设备采集文档照片时会出现角度和弯曲变形,这些原始的照片对于文档图像内容的自动提取与分析造成了不利影响,因此需要进行一定的变形矫正处理。
合合信息图像矫正可以智能定位图像中文档主体的边缘,并进行背景切除(文档提取),对形变文档进行矫正,主要包括角度矫正和弯曲矫正两种复杂的矫正,体验地址:合合信息图像矫正。
可以看到利用合合信息图像矫正功能能够将图像恢复至正面垂直拍摄的效果,解决了文档图像变形矫正算法抗干扰性差、矫正效果不佳等问题。
使用数码相机拍摄数字屏幕时会在照片中会出现令人反感的屏幕纹,屏幕纹的存在不仅严重降低了图像的质量,并且也会影响到我们后续的分析和处理。同时,由于屏幕纹对重复结构的轻微变换具有极度敏感性,因此图像结构的多样性导致屏幕纹也具有复杂性和不规则性,屏幕纹的消除一直以来都是具有极具挑战性的任务。
合合信息图像去屏幕纹支持去除因拍屏幕产生的各种纹理(屏幕纹、摩尔纹),还原清晰真实图像,体验地址:合合信息图像去屏幕纹。
可以看到合合信息图像去屏幕纹功能能够高效的完成图像恢复任务,最大程度的恢复被屏幕纹污染的屏摄照片,能够去除所有样式的屏幕纹,并且能够保证图片细节信息完整,便于我们后续对图像进行进一步的分析。
手写板反光是在拍摄电子手写板时,由于表面反光或者暴露在强烈的光源下,导致写下的文字或图像无法清晰显示和识别的问题。反光问题会影响手写板的使用体验和准确度,如果不加以处理,反光甚至可能会使得书写或绘画结果无法被识别。为了解决这些问题,合合信息技术团队研发了反光擦除模块,可以识别和消除图像中的反光区域,得到无反光的清晰图像,反光擦除效果如下图所示:
随着大数据时代的到来,文档图像也随之大量生成和涌现,如何高效地处理和利用这些文档资料是一个亟待解决的问题。智能文档处理技术,尤其是版面分析技术,提供了一种有效的解决方案。
合合信息的版面分析技术通过解决版面分割、区域间逻辑关系处理等难题,能够将文档图像切分成不同类型内容的区域,例如文本、图形、公式、表格等,并进行区域间关系的分析,能够更加精准地确定文档中文字位置、字体、大小和排版方式,并从各类版式复杂的文档图像中精准地获取信息。帮助用户从复杂的版面结构中提取有用信息,从而实现文档的智能化处理。综合来看,智能文档处理技术,特别是版面分析技术的应用,为我们带来更高效、更准确、更便捷的文档处理体验。
图像智能处理黑科技,让图像处理信手拈来
多模态大模型时代下的文档图像智能分析与处理