PDF转换为TXT

手上有一批pdf的文件大约6万份需要转成txt,尝试了很多方法。列出来供参考:

1. 利用付费软件转换

使用了迅捷PDF转换器,买了永久会员,该转换方法的好处是操作简单,缺点在于免费一次只能转5页,买了会员之后也一次只能转换200个文件,小批量文件比较适合。

2. 利用python进行转换

python转换主要利用了王树义老师提供的方法PDF批量转换,该方法基于python3中的pdfminer.six包进行提取,可以做到批量转换。但是由于我的PDF文件可能有点问题总是报错说文件格式不是PDF。也查了一些其他的转换包,好像对中文支持都不好,没有进一步尝试。

anaconda在装上pdfminer.six包之后按照王树义老师给出的代码导入包时出现ModuleNotFoundError,检查后发现以前装了pdfminer3k的包,其实两个包代码功能都差不多,但是个别模块名字有差异。如果一直出现ModuleNotFoundError,可以尝试卸载两个包后再重新按照。

3. 在linux系统中转换

实在走投无路之后,偶然在知乎上看到一个方法,并利用这种方法成功转换。

由于我使用的是windows10系统,因此首先安装了vmware以及ubuntu的虚拟机,之后在终端执行以下命令即可:

```

for f in `ls *.pdf`

do pdftotext "$f"

done 

```

以上为尝试的三种比较方便的转换方法,当然如果只是转单个文件直接右击PDF文件利用word2016以上版本打开,即可转换。

你可能感兴趣的:(PDF转换为TXT)