全文本SDK与数据捕捉SDK比较

介绍

        我之前介绍了ABBYY OCR及数据捕捉软件开发工具包,随后我收到了几份用户和公司的电子邮件,他们对两种技术的区别仍不太了解,也不清楚如何针对具体应用方案进行选择。因此,我决定介绍两种软件开发工具包(SDK),并解释如何针对具体任务进行选择。

 

       以下是FineReaderEngine及FlexiCapture Engine的各自功能及应用情景。

       ■  FineReaderEngine是一款传统OCR工具包,设计用于将图像文件及图像PDF文件转换为纯文本、Office格式、HTML、可搜索PDF或XML。原始文件页面布局的分析与储存有多种方案。

       ■  FlexiCaptureEngine与FineReader Engine基于相同的ABBYY核心OCR技术,但这款SDK的主要目的是文件分离、归类及数据提取。FlexiLayout技术将使用核心内部布局信息,然后找出业务流程所需的数据。

以下简要介绍它们在文件分析方面的区别:

全文本SDK与数据捕捉SDK比较_第1张图片

 

详细功能比较

使用情景

全文本SDK与数据捕捉SDK比较_第2张图片

核心识别

全文本SDK与数据捕捉SDK比较_第3张图片
全文本SDK与数据捕捉SDK比较_第4张图片

文件处理技术

全文本SDK与数据捕捉SDK比较_第5张图片

校验

全文本SDK与数据捕捉SDK比较_第6张图片

导出

全文本SDK与数据捕捉SDK比较_第7张图片

开发

全文本SDK与数据捕捉SDK比较_第8张图片


总结

全文本SDK与数据捕捉SDK比较_第9张图片


       为何您需要的是FlexiCapture技术,而不是常规OCR SDK?

        ABBYY FineReader Engine是一款全文本OCR SDK,可以帮助您识别文件页面中的所有信息。如果您需要对书籍、协议、说明书或其它“纯文本”文件的整个页面进行识别,那ABBYY FineReaderEngine非常有用。但是如果您需要处理结构化文件而且页面布局含有非常有价值的信息,那识别结果经常会包含徽标、图像及其它特殊区域上的文字。一份文件的不同元素之间存在线条及空白处。ABBYY FineReader Engine 中采用的ABBYYOCR技术能够分析PDF及图像页面布局。开发人员可以读取页面布局结构及某些区域的坐标:

  • 文本
  • 图像
  • 条形码
  • 表格

        可以通过以下途径读取信息:

        通过FineReaderEngine布局对象——文件处理过程中“在线”(“on-line”)读取或

        通过ABBYYXML ——“离线”(“offline”)读取并解析信息

        但是ABBYYFlexiCapture平台具有更加高级的功能实现该目标:

        在FineReader Engine中编写“硬编码”(hard coded)提取逻辑比较复杂,而且编写的代码不易维护

  • FlexiCapture Technology是一种产品化技术,需要培训及支持
  • 市场上有经认证的专业人士

        在纯代码中处理文本及布局相当抽象,而且在FineReader SDK中没有任何可选工具

        

        而FlexiCapture具有以下特点:

        · 可视化开发工具

        · 处理图形元素的逻辑

        · 使用对象间关系的逻辑

        · 自动假设检验分析 ——也允许可选元素

  

        利用Flexible在移动设备提取数据

        · 使用移动设备提取数据并非易事,因为:

        · 图像质量通常比不上扫描文件

        · 移动设备OCRSDK的布局分析能力不同于“大型” PC/Server SDK

        · 扫描仪具有固定几何结构。

        · 因此同一类文件上的信息具有差不多相同的坐标。


        如果使用照相机捕捉文件,文件与传感器之间的距离几乎都不相同。

        这将导致不同的复制比例,因此信息将位于不同的坐标 →简单的坐标查找方法不再适用。

         FlexiLayout并未采用绝对性坐标群集,因此也可以处理移动图像。

 

        我希望这篇文章能够帮助您更好地理解两者之间的区别,并能够帮助您决定哪一种SDK更适合您的具体情况。

 

        感谢您阅读此文!

 

 

你可能感兴趣的:(FineReader,Engine,FlexiCapture,Engine,SDK)