python读取word文档

基本的读取操作

    • 读取文件内容
    • 输出文章的标题
      • 输出文章的1级标题
      • 输出文章的多级标题
    • 输出正文
    • 输出段落内容:
      • 输出一段的内容
      • 输出所有段落的内容
    • 保存文章

读取文件内容

from docx import Document
file = Document("E:\\File\\大一\\大一下学期/马克思.docx")

我们直接输出文章内容是不可以的:

print(file)
# 

我们可以使用循环的方式进行输出text文本:

# 输出内容
for run in file.paragraphs:
    print(run.text)

输出文章的标题

输出文章的1级标题

for run in file.paragraphs:
    if run.style.name == "Heading 1":    # 'Heading 2' 表示二级标题...
        print(run.text)

输出文章的多级标题

# 输出所有标题
for run in file.paragraphs:
    if re.match('^Heading \d+$', run.style.name):
        print(run.text)

输出正文

# 输出正文
for run in file.paragraphs:
    if run.style.name == "Normal":
        print(run.text)

输出段落内容:

输出一段的内容

file.paragraphs[0].text
# 如果该段为空格或者其他非段落内容,则输出这一行

输出所有段落的内容

for i in range(len(file.paragraphs)):
    print(i, file.paragraphs[0].text)

保存文章

file.save("E:/aa.docx")

你可能感兴趣的:(Python办公自动化,爬虫,python)