Python读取word文本

参考:
Python读取word文本
https://blog.csdn.net/woshisangsang/article/details/75221723

如果需要读取word文档中的文字(一般来说,程序也只需要认识word文档中的文字信息),需要先了解python-docx模块的几个概念。

1,Document对象,表示一个word文档。
2,Paragraph对象,表示word文档中的一个段落
3,Paragraph对象的text属性,表示段落中的文本内容。

需要注意,python-docx模块安装需要在cmd命令行中输入pip install python-docx

#读取docx中的文本代码示例
import docx
#获取文档对象
file=docx.Document("D:\\temp\\word.docx")
print("段落数:"+str(len(file.paragraphs)))#段落数为13,每个回车隔离一段

#输出每一段的内容
for para in file.paragraphs:
    print(para.text)

#输出段落编号及段落内容
for i in range(len(file.paragraphs)):
    print("第"+str(i)+"段的内容是:"+file.paragraphs[i].text)

打开doc文件

参考:

https://blog.csdn.net/weixin_39643135/article/details/91348983(暂时不可行)

你可能感兴趣的:(python,word,c#)