教你正确使用文字识别软件ABBYY的转换格式功能

PDF文档作为一种以图像模型作为基础的文件格式,可以在不同操作系统的计算机上使用,而且由于其图像模型的特点,在打印时能保持颜色、排版等准确性,是一种十分流行的文件格式。

但PDF文档有一个缺点,就是其编辑功能不如Word文档等办公软件好用。因此,很多人在编辑PDF文档时会选择将其转换为Word文档等。本文将会教大家怎么正确使用文字识别软件ABBYY FineReader PDF 15进行PDF文档的格式转换。

一、使用转换文档功能

ABBYY FineReader PDF 15提供了多种PDF文档转换格式的选项。如图1所示,我们可以将PDF文档转换为Word文档、Excel电子表格,或其他如PPT演示文稿、TXT等格式。

接下来,我们以转换为Word文档为例,单击“转换为Microsoft Word”。

教你正确使用文字识别软件ABBYY的转换格式功能_第1张图片

图1:转换文档功能

二、以转换为Word文档为例

在转换为Microsoft Word面板中,可通过使用其工具栏中的“添加文件”按钮,添加一个或多个PDF文档。

教你正确使用文字识别软件ABBYY的转换格式功能_第2张图片

图2:添加文件

完成PDF文档的添加后,我们就需要选择转换保留的格式。那么,不同保留格式导出的Word文档有什么不同?该如何正确选择这些格式呢?

如图3所示,可以看到,精确副本与可编辑副本相似,均保持了大部分原始格式,但精确副本相对准确度更高,但提供的编辑选项有限,比如一些图形化文本可能无法编辑等。而格式化文本与纯文本更着重保留文本信息,精简了图片等元素。

教你正确使用文字识别软件ABBYY的转换格式功能_第3张图片

图3:设置保留格式

小技巧:如果您不想花费时间逐一查看这些保留格式导出的文本样式,可使用“在OCR编辑中打开”的功能。

教你正确使用文字识别软件ABBYY的转换格式功能_第4张图片

图4:在OCR编辑器中打开

在OCR编辑器的顶部保存选项中,当我们选取不同的保留格式后,下方的预览窗口就会显示该保留格式相对应的保存样式。比如,当前选择的是“精确副本”,下方的预览窗口就会出现精确副本的导出样式预览。

接下来,我们通过导出的实例来进一步了解这些保留格式的区别。

 

教你正确使用文字识别软件ABBYY的转换格式功能_第5张图片

图5:OCR编辑器保存选项

1、精确副本与可编辑格式

在本例中,精确副本与可编辑格式的导出样式基本一致。这两种格式都能很好地“复制”原有PDF文档的排版、文本格式等,适合用于需要将整页整体输出使用的情况。

教你正确使用文字识别软件ABBYY的转换格式功能_第6张图片

图6:精确与可编辑格式

2、格式化文本

格式化文本,是在保留文本格式的前提下,将文本单列为一列,方便进行文本信息的提取使用。由于该格式保留了一部分文本格式,可直接用于PPT等演示文稿的制作,而无须进行文本的格式化。

教你正确使用文字识别软件ABBYY的转换格式功能_第7张图片

图7:格式化文本

3、纯文本

纯文本是四种保留格式中更为精简的格式,不仅精简了整体的格式,而且还精简了文本格式,适用于单纯的文本提取。

教你正确使用文字识别软件ABBYY的转换格式功能_第8张图片

图8:纯文本

四、小结

以上四种保留格式是针对转换为Microsoft Word文档的,对于不同的转换格式,ABBYY FineReader PDF 15会提供不同的保留格式选项。我们可以根据文档的使用目的,选取合适的保留格式。

你可能感兴趣的:(ABBYY,ocr,excel,xpdf)