读取word文档内容

word文档结构
Document:文档
Paragraph:段落
Run:文字块
例:只是第二段,(Run1)加粗 (Run2),(Run3)斜体(Run4) 共有4各Run

python-docx获取段落Paragraph
from docx import Document
doc=Document(‘XXX.docx’)
print(doc.paragraphs)
#doc.paragraphs得到一个列表,包含了每个段落实例
for paragraph in doc.paragraphs:
print(paragraphs.text)
#paragraphs.text得到该段落的文字内容
paragraph=doc.paragraphs[1]
runs=paragraph.runs
#paragraph.runs得到一个列表,包含每个文字块
print(runs)
for run in runs:
print(run.text)
#run.text得到该文字的文字内容
学习链接:https://www.bilibili.com/video/BV197411f7Rp

你可能感兴趣的:(读取word文档内容)