Python-01_PDF批量转换为word

Python-PDF与word批量转换

本节介绍基于Python的PDF批量转word


1.安装库

基于pdf2docx库,基于规则解析章节、段落、表格、图片、文本等布局及样式,可实现PDF文件内容与样式的转换;需要Python3.6及以上版本;可用于Windows或者macOS,需要安装MS word。

  • GitHub-pdf2docx:https://github.com/dothinking/pdf2docx
pip install docx2pdf -i https://pypi.tuna.tsinghua.edu.cn/simple

2.批量PDF转word

主要是批量读取文件夹下的PDF文件,然后通过pdf2docx中的Converter函数实现到word的转换,代码如下:

#批量pdf转word
from pdf2docx import Converter
import os

path = 'E:/DATA_pro/py/word_pdf/pdf2docx/'
# 定义空list,存放文件夹中的文件名
files = []
for file in os.listdir(path):
    if file.endswith(".pdf"):
        files.append(path+file)
for file in files:
    a = Converter(file)
    a.convert(file.split('.')[0]+'.docx') #创建生成的docx文件和文件名的文件名
    a.close()
    print(file+'转换成功')

3.总结

通过Python完成PDF文件的批量转换,对于日常工作来说帮助很大。

你可能感兴趣的:(Python,python,自然语言处理,microsoft)