无论在日常工作还是学习中,大家都会遇到一个问题 " 将pdf中的内容(文本和图片)转化为word的格式 "
,也可以说从只读变成可编辑的格式。当然网上有很多工具可以实现,但大多都是收费的。那我今天的分享,就是通过 python
实现批量将pdf转换成word,做成一个桌面小工具。好处是一方面python有免费的开源库可供我们使用;另一方面可以根据我们需求灵活定制功能;最后工具可以重复使用,即使你的同事电脑没有
pyhton 开发环境,也可以使用。
(文末送读者福利)
1、pdf 转 word
实现这个功能,主要使用的是pdf2docx这个库,也是最推荐的。只要是标准PDF文档,里面的图片和表格都可以保留格式。要注意的是python版本必须是3.6或以上,本文我使用的是python3.8。安装命令如下:
pip install pdf2docx
2、绘制图形用户界面
Python有许多GUI工具包可供选择,本文使用 PySimpleGUI ,使用起来简单,对于我们这个需求足够用 。想要深入的伙伴可移步:PySimpleGUI 文档,有非常多的示例,本文不做过多拓展。使用之前也需要安装一下,注意大小写问题。
pip install PySimpleGUI
3、py 程序打包 exe
pyinstaller 是一个非常简单的打包 python 的 py 文件的库,一条命令即可实现打包。官方文档:pyinstaller
pip install pyinstaller
from pdf2docx import Converter
import PySimpleGUI as sg
def pdf2word(file_path):
file_name = file_path.split('.')[0]
doc_file = f'{file_name}.docx'
p2w = Converter(file_path)
p2w.convert(doc_file, start=0, end=None)
p2w.close()
return doc_file
def main():
# 选择主题
sg.theme('LightBlue5')
# 设置窗口
layout = [
[sg.Text('pdfToword', font=('微软雅黑', 12)),
sg.Text('', key='filename', size=(50, 1), font=('微软雅黑', 10), text_color='blue')],
[sg.Output(size=(80, 10), font=('微软雅黑', 10))],
[sg.FilesBrowse('选择文件', key='file', target='filename'), sg.Button('开始转换'), sg.Button('退出')]]
# 创建窗口
window = sg.Window("Python与数据分析_青青", layout, font=("微软雅黑", 15), default_element_size=(50, 1))
# 事件循环
while True:
# 窗口的读取,有两个返回值(1.事件;2.值)
event, values = window.read()
print(event, values)
if event == "开始转换":
# 单个文件
if values['file'] and values['file'].split('.')[1] == 'pdf':
filename = pdf2word(values['file'])
print('文件个数 :1')
print('\n' + '转换成功!' + '\n')
print('文件保存位置:', filename)
# 多个文件
elif values['file'] and values['file'].split(';')[0].split('.')[1] == 'pdf':
print('文件个数 :{}'.format(len(values['file'].split(';'))))
for f in values['file'].split(';'):
filename = pdf2word(f)
print('\n' + '转换成功!' + '\n')
print('文件保存位置:', filename)
else:
print('请选择pdf格式的文件哦!')
if event in (None, '退出'):
break
window.close()
main()
1、打开DOS窗口并切换到demo.py(这里我新建了文件夹,放到了D盘)文件所在的目录,注意路径中不要有中文:
-i 给应用程序添加图标
-F 指定打包后只生成一个exe格式的文件
-D –onedir 创建一个目录,包含exe文件,但会依赖很多文件(默认选项)
-c –console, –nowindowed 使用控制台,无界面(默认)
-w –windowed, –noconsole 使用窗口,无控制台
-p 添加搜索路径
在当前的目录下,将会生成两个文件夹:build和dist。dist里面就是所有可执行exe文件,发送快捷方式到桌面,点击 exe 就能运行了。
1、如果生成exe之后,你发现你的程序异常的慢,请检查你的导包代码,尽量不要出现以下写法,否则每次启动程序,都会导入大量函数占用大量时间。
from ··· import *
改成 import 包名
2、搭建干净的python虚拟环境
详情见我的历史文章:太强了!Python 开发桌面小工具,让代码替我们干重复的工作, 里面介绍了什么是虚拟环境,以及如何搭建。
到这里,分享就结束了。主要为大家提高工作效率,办公自动化提供一种思路。欢迎大家在评论区一起交流讨论~ 记得点赞呀
读者福利:知道你对Python感兴趣,便为你准备了这套python学习资料,
对于0基础小白入门:
如果你是零基础小白,想快速入门Python是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以找到适合自己的学习方案
包括:Python web开发,Python爬虫,Python数据分析,人工智能等学习教程。带你从零基础系统性的学好Python!
Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。(学习教程文末领取哈)
温馨提示:篇幅有限,已打包文件夹,获取方式在:文末
观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
检查学习结果。
上述这份完整版的Python全套学习资料已经上传CSDN官方,朋友们如果需要可以微信扫描下方CSDN官方认证二维码输入“领取资料” 即可领取
了解python的前景:https://blog.csdn.net/weixin_49895216/article/details/127186741
了解python能做什么:https://blog.csdn.net/weixin_49895216/article/details/127124870