python查找特定文件中的关键字_Python根据关键字抓取word相关内容

用python我们可以抓取网页,表格,JSON这种半结构化的数据,那么word文档中的内容这种非结构化的数据我们如何抓取呢。

今天我来教大家如何实现python对docx类型的文档中数据的读取,并根据关键字提取相应的内容,然后入库。

首先配置docx文档处理库

pip install python-docx

下面是详细的代码

import pymysql.cursors

import docx

import re

def get_file(path):

'''获取文件'''

#获得word文档

file = docx.Document(path)

#print(file)

return file

def preproccess_file(file):

'''文件预处理'''

#输出文档段落数(行数)

paragraph_sum = len(file.paragraphs)

#print(paragraph_sum)

#输出每一段的内容

para_list = []

for para in file.paragraphs:

print(para.text)

para_list.append(para.text)

#合并字符串

file_text = ''.join(para_list)

print(file_text)

return file_text

def extract_file(keyword, file_text):

'''提取内容&#

你可能感兴趣的:(python查找特定文件中的关键字_Python根据关键字抓取word相关内容)