通用能力及AI核心能力表现优异！合合信息智能文档处理系统（IDP）高评级通过中国信通院评估

数字经济快速发展的背后，全球数据总量呈现出爆发式增长趋势。智能文档处理（IDP）技术能够高效地从多格式文档中捕捉、提取和处理数据，帮助机构和企业大幅提升文档处理效率，节约时间和人力成本。

近期，合合信息智能文字识别产品通过中国信息通信研究院（以下简称“中国信通院”）“可信AI—智能文档处理系统”评估工作，并获得“5级”评定。据悉，“5级”为该模块最高评定等级。人工智能技术的应用场景正在不断拓展，其发展也面临着产品能力参差不齐、缺乏行业基准和标杆、安全可信要求落实不明确等问题。中国信通院于2018年起逐步构建和完善“可信AI”评测体系，助力人工智能技术的发展和产业的健康成长，“智能文档处理”是近两年来新增的评测项目之一。

中国信通院智能文档处理系统评测体系介绍（图源：中国信通院）

国际数据公司（IDC）最新发布的预测数据显示，中国数据量规模将从2022年的23.88ZB增长至2027年的76.6ZB，年均增长速度（CAGR）达到26.3%。其中，企业数据量占据70%，目前仅有24%的数据被用于分析或AI决策。由此可见，企业在经营中沉淀下来的数据，有大部分价值尚待释放。计算机信息化系统中的数据分为结构化数据和非结构化数据，人们日常生活、工作中所接触到的各类办公文档、文本、图片、报表都属于非结构化数据。由于格式复杂、标准多样，非结构化数据处理起来既困难又耗时，智能文档处理技术可以把关键信息从半结构化/非结构化数据中提取出来，进一步实现业务流程的端到端自动化。IDC认为，智能文档处理技术是提升部分行业、业务、流程的核心生产要素，随着与应用和流程自动化的深度整合，潜在的应用场景广泛，普及空间较大。

目前，智能文档处理技术已被广泛应用于文档数字化管理、自动化流程、图文提取等业务场景，并加速渗透金融、政务、医疗、海关等垂直领域。中国信通院持续关注智能文档处理技术及应用的发展情况，依据《自然语言处理技术和产品评估方法第8部分：智能文档处理系统》，全方位评估企业智能文档处理的技术先进度。评估结果显示，合合信息智能文档处理产品在通用能力及AI核心能力方面均表现优异：通用能力方面，合合信息产品在信息抽取、表格文字识别、版面分析等方面均获得5分评分。表格文字识别、版面分析是文档处理的难点，合合信息表格文字识别技术支持识别图片/PDF格式文档中的多类型表格内容。在财报相关表格识别测试中，合合信息有线表识别单元格结构准确率高于98%；无线表识别在保证表格区域内容的完整性的同时，检测准确率较传统方法显著提升。

合合信息“表格文字识别”处理效果展示

合合信息版面分析技术通过解决版面分割、区域间的逻辑关系处理等方面的难题，可将文档图像切分成不同类型内容（文本、图形、公式、表格等）的区域，并分析区域之间的关系，让机器更精准地确定文档中的文字位置、字体、大小和排版方式，从各类版式复杂的图片文档中精准获取信息。 AI核心能力方面，合合信息产品在NLP领域的文本分类、知识图谱领域的实体识别、关系抽取及OCR领域的字符识别、文本行识别均获得5分评分，并支持文本生成、事件抽取等高阶处理能力，其中准确率、召回率、F1值等指标评分总体较高。合合信息创立于2006年，是一家人工智能及大数据科技企业。合合信息智能文档处理产品是一款集图像处理、文档质量判断、文档识别、版面分析、文档结构化信息抽取、存储、检索、管理等技术于一体的智能文档解决方案产品，旨在帮助个人和企业实现文档信息化管理。技术发展之路上，安全是不可缺席的话题。本月，中国信通院携手合合信息启动了《文档图像篡改检测标准》制定工作，中国图象图形学学会、中国科学技术大学等知名学术机构参与联合编制。该检测标准将基于产业现状，围绕“细粒度”视觉差异伪造图像鉴别、生成式图像判别等行业焦点议题，凝聚行业共识，为中国“可信AI”在机器视觉、图像处理领域的体系建设提供有力支持。

通用能力及AI核心能力表现优异！合合信息智能文档处理系统（IDP）高评级通过中国信通院评估

你可能感兴趣的:(人工智能)