我用了正则表达式,理论上用用可以解析xml格式的都可以,如Beautiful,pandas等。
import os
import re
silde_list=os.listdir()
silde_list.sort()
for i in silde_list:
if i[-4:]=='.xml'and i[:5]=='slide':#在这里可以控制需要提取幻灯片的范围
with open(i,'r') as f:
txt=f.read()
pattern = re.compile(r'.*? ')
txt="".join(pattern.findall(txt)).replace('' ,"").replace('',"")
with open('result.txt','a') as f:
f.write(txt+'\n')
1.解压缩PPT
2.打开文件夹,进入./ppt/slides,文件夹中的slide文件标号对应的是ppt中的标号
3.创建"提取.txt"文件,将程序复制进去,改后缀为.py。
4.在当前目录运行,会生成“result.txt“,文字就在里面。
默认在“result.txt”是按顺序一行一张幻灯片。