Pyhton读取word文档

学习python的一个好处是掌握了基本知识后,想研究哪一部分,用相关模块就行了。现在我需要读取word文档的内容,所要研究的python-docx模块。这一模块的名称的“docx”。利用它打开文档,三句代码就够了。

import docx

#获得文档
file=docx.Document("1.docx")

#按照段落读取文档内容
for para in file.paragraphs:
    print(para.text)

关于文档,还需要掌握其层次结构知识。其层级是:

Document:指文档总体

paragraphs:段落

text:段落文本

打开文档,以段落为单元读取内容,然后显示段落中的文本即可。只要能够把word文档读出来,剩下的就可以进行分词、运用正则表达式了。

你可能感兴趣的:(PYTHON难点,python,word)