如何用Python批量将Pdf文档转换成Word文档?

目录

一、前言

二、问题或需求

三、前提条件或注意事项

四、代码设计思路

五、具体执行代码

六、效果观察

七、声明及致谢

八、快捷方式


一、前言

一般情况,WPS系列office软件付费会员都有Pdf文档转Word文档的功能,这里针对不想付费的情况所设计的一套方案。

二、问题或需求

批量将PDF文档转成Word文档。

三、前提条件或注意事项

1.PDF文档的后缀务必是“.pdf”,否则转换不成功,原因是程序设定好了的。

2.大部分的PDF文档都可用这个程序来转换,如果是图片生成的Pdf文档,则转换不成功,原因是要将图片里的文字转换成文档涉及到人工智能的知识,它已超出这个程序的能力范围。但也不用慌,遇到此情况,可以用QQ的文件助手来帮忙,此处不赘述。

四、代码设计思路

1.运用到核心第三方库“pdf2docx”。

2.定义转换函数并运行。

五、具体执行代码

import os
from pdf2docx import Converter


def pdf_docx():
    # 获取当前工作目录
    file_path = 'C:/Users/1223/Desktop/OK'
    # 遍历所有文件
    for file in os.listdir(file_path):
        # 获取文件后缀
        suff_name = os.path.splitext(file)[1]
        # 过滤非pdf格式文件
        if suff_name != '.pdf':
            continue
        # 获取文件名称
        file_name = os.path.splitext(file)[0]
        # pdf文件名称
        pdf_name = file_path + '\\' + file
        # 要转换的docx文件名称
        docx_name = file_path + '\\' + file_name + '.docx'
        # 加载pdf文档
        cv = Converter(pdf_name)
        cv.convert(docx_name)
        cv.close()

if __name__ == '__main__':
    pdf_docx()

六、效果观察

 1.运行代码即可实现转换。2.缺陷:无法将图片上的文字转换成文档此处仍须改进。

七、声明及致谢

 笔者记不清是哪个大神的源代码了,总之,已被适当改装。

八、快捷方式

笔者将程序打包成任何人都可执行的exe程序文件,放在附件(左上角)里供大家下载使用。

 注意:该程序设置的桌面文件的路径是:C:\Users\Administrator\Desktop\,如有不同,可联系笔者对源代码进行修改、打包,后再交付使用。在确保这一前提条件下,操作如下:

    1.在桌面建立名为“OK”(大写)的文件夹。

     2.把所需转换的PDF文件放入文件夹,然后点击程序运行即可。

     备注:这里没有附件可上传,可联系笔者获取。

你可能感兴趣的:(pdf,word)