说说 python-docx 解析 word 文档的原理

1 安装

首先通过 pip 安装 python-docx,命令为 pip install python-docx

2 解析原理

python-docx 使用 Document 对象来表示整个 docx 文档。其内部包含 一个Paragraph 对象列表。每个 Paragraph 对应 docx 文档的一个段落。

word 文档中除了字符串,还包含字体、大小、颜色等样式信息。相同样式的连续字符串,就会被保存在一个 Run 对象中。

假设 docx 文档中有下面这些内容:

那么经过 python-docx 解析,就会生成 3 个 Run 对象:

你可能感兴趣的:(说说 python-docx 解析 word 文档的原理)