Python将PPT中所有文本框里的文字提取出来

Python将PPT中所有文本框里的文字提取出来

我用了正则表达式,理论上用用可以解析xml格式的都可以,如Beautiful,pandas等。

直接上代码

import os
import re
silde_list=os.listdir()
silde_list.sort()
for i in silde_list:
    if i[-4:]=='.xml'and i[:5]=='slide':#在这里可以控制需要提取幻灯片的范围
        with open(i,'r') as f:
            txt=f.read()
            pattern = re.compile(r'.*?')
            txt="".join(pattern.findall(txt)).replace('',"").replace('',"")
        with open('result.txt','a') as f:
            f.write(txt+'\n')

STEP

1.解压缩PPT
在这里插入图片描述
2.打开文件夹,进入./ppt/slides,文件夹中的slide文件标号对应的是ppt中的标号
Python将PPT中所有文本框里的文字提取出来_第1张图片
3.创建"提取.txt"文件,将程序复制进去,改后缀为.py。
4.在当前目录运行,会生成“result.txt“,文字就在里面。

NOTE

默认在“result.txt”是按顺序一行一张幻灯片。

你可能感兴趣的:(python,PPT)