从pdf中抽取内容,并将其转word文件。
可以使用pdf2docx库解决。
2-1 安装
仅使用pip install pdf2docx下载速度比较慢,可以换成国内的源,下载命令如下所示
pip install pdf2docx -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com
2-2 转换
from pdf2docx import Converter
pdf_file = './WORK/App_Pro/Codes/xxx.pdf'
docx_file = './WORK/App_Pro/Codes/xxx.doc'
# convert pdf to docx
cv = Converter(pdf_file)
#start代表要转换pdf的起始位置,end代表结束
cv.convert(docx_file, start=0, end=None)
cv.close()