从PPT到Word,用Python轻松实现办公自动化

作者 | 陈熹

来源  | 早起Python(ID:zaoqi-python)

大家好,又到了 Python 办公自动化系列。

在之前的自动化系列文章中,我们分别讲过如何使用 Python 将 Word 中表格信息批量提取至 Excel,也讲过如何将多个 Excel 表格汇总至 Word,今天继续讲解如何将文字从 PPT 中提取出来并写入 Word,主要将涉及如何使用 python-pptxpython-docx 交互操作 word 和 ppt 文件!

本文依旧来源于真实的办公自动化需求!


需求说明

从PPT到Word,用Python轻松实现办公自动化_第1张图片

有一份如图所示的 ppt,包含了 Python 的介绍。现在需要将 PPT 中的文字都提取出来并写入 Word 中,如下图:

从PPT到Word,用Python轻松实现办公自动化_第2张图片

涉及知识

代码实际上非常简单,基于 python-pptxpython-docx 两个模块即可,核心代码只有 6 行。但需要先熟悉 PPT 和 Word 两种文件的格式,可通过下面的图解对 Word 结构有个直观认识。

从PPT到Word,用Python轻松实现办公自动化_第3张图片

不考虑表格图片等情况,一个纯文字组成的 Word 文档由文档 document-段落 paragraph-文字块 run 三级结构组成。再看一下 ppt 结构组成,会较 Word 复杂许多。当然这也跟 PPT 的高度自定义拓展性有关。

从PPT到Word,用Python轻松实现办公自动化_第4张图片

简单来说,一个 PPT 文件为 presentation,基本的结构为展示文件 presentation-幻灯片页 slide-形状 shape 组成,形状就需要区分开,是包含文本的形状还是不包含文本的形状(纯图片等)。如果是包含文本的形状,则可以获取内部的文本框,一个文本框又可以看作是一个小的 word 文档,包含段落 paragraph-文字块 run

有了以上的知识铺垫就可以写代码了。


Python实现

首先导入需要的模块:

from pptx import Presentation
from docx import Document****

需要注意的是,安装的时候是 python-docxpython-pptx,但实际运用都是 pptx 和 docx。两个模块的相似点如下:

  • 安装名和导入名不同。

  • 安装名为 python-新版本后缀名,导入名为新版本后缀名。

现在导入 pptx 文件,创建 Word 文件:

wordfile = Document()
# 给定ppt文件所在的路径
filepath = r'xxxxxxxx'
pptx = Presentation(filepath)

接着遍历 ppt,将文字写入 word。

# 遍历ppt文件的所有幻灯片页
for slide in pptx.slides:
    # 遍历幻灯片页的所有形状
    for shape in slide.shapes:
    # 判断形状是否含有文本框,如果含有则顺序运行代码
        if shape.has_text_frame:
            # 获取文本框  
            text_frame = shape.text_frame
            # 遍历文本框中的所有段落
            for paragraph in text_frame.paragraphs:
                # 将文本框中的段落文字写入word中
                wordfile.add_paragraph(paragraph.text

遍历 ppt 到段落就写入 Word,而非遍历到底直到文字块才写入,因为段落更符合阅读习惯,一般遍历到文字块是需要对特定的字段词块进行操作才进行,最后记得保存 Word 文件。

save_path = r'xxxxxxxx'
wordfile.save(save_path)



小结

这是经过一定改编的真实案例,可见 Python 自动化办公确实能够帮助我们解放自己的双手,不过在写自动化脚本之前也要掌握原理,明确思路再进行!如果对本文的代码和数据感兴趣可以在后台回复自动化获取,最后还是希望大家能够理解 Python 办公自动化的一个核心就是批量操作-解放双手,让复杂的工作自动化!


更多精彩推荐
☞互联网不相信学渣
☞漫画:设计模式之 “外观模式”
☞微软回应“断供中国”谣言;斗鱼回应与虎牙合并;Android 11 Beta 3 发布| 极客头条
☞图解Transformer,读完这篇就够了
☞三次改变世界、却被无情出局的程序员
☞地方政府争夺试点,互联网巨头参与测试,央行数字货币指日可待
点分享点点赞点在看

你可能感兴趣的:(编程语言,html,csv,python,os)