使用 python 在多个word文件中提取关键字

使用 python 在多个word文件中提取关键字

当有大量word文档,需要从里面提取包含某项信息的文字时,可用python的docx模块

# 提取word文件中包含制定文字的段落到txt中
import os
from docx import Document
# word:要找的词语
# out_file 保存查找结果的文件
def search_word_in_docx(word,out_file):
    # 获取当前路径下所有文件列表
    files = os.listdir()
    # 筛选出.docx格式的word文档
    for file in files:
        # 若是存在doc格式的word文档,则将其批量转换为.docx格式即可
        if file.endswith('.docx') and not file.startswith('-$') :
            # 打开woord文档
            doc = Document(file)
            # 获取word文档每一行的内容
            for i in doc.paragraphs:
                #以'爱国'开头的段落,也可以改成以某个字结尾或者包含某个字
                if word in i.text:
                #if i.text.startswith('爱国'):
                    with open(out_file, 'a+') as f:
                        f.write(i.text+'\n'+'\n')


search_word_in_docx('线','结果.txt')





你可能感兴趣的:(笔记,python,python)