怎么把PDF中的文字提取出来

  PDF文档大家也都见过,这种格式的文档编辑起来不像word文档那样方便。在使用里面的内容的时候也比较繁琐。若要提取里面的一些文字内容,一般都会想到复制,但是一次只能复制少量的文本内容,而且复制到word或者txt文档中后排版可能会乱。那有什么高效的方法呢。

  首先是我们用来打开查看pdf文件都会用到的Adobe Reader,利用这个也是可以提取里面的文字内容的。
  先打开pdf文件,然后选择“文件-另存为”,将文档以文本格式存储,也就是存储为txt文本文档。
  这种方法可以很快将pdf文档中的文本导入到txt文本中,但是可以看到在排版上还是有一些错误,转换后还需要对txt进行编辑。

  除了Adobe Reader我们也可以通过pdf格式转换工具或者在线pdf转txt的方式将pdf文件的格式转成txt的方式来实现文字的提取。操作方法相同,我们就以pdf转换工具为例。
  安装一个pdf转换工具,打开选择里面的对应选项——文件转txt。然后将pdf文件添加进来,用转换工具可以一次对多个pdf文件进行操作,而且可以转换指定的页面内容。
  设置好存储位置后,点开始转换文档将自动进行转换,pdf文件中的文本类型的内容会转换为txt文本文档。转换后的文档排版不会改变,在后期编辑使用时比较方便。

你可能感兴趣的:(怎么把PDF中的文字提取出来)