原文地址:http://www.mapboxx.cn/article/word/
在word文档中出现的表格通常不利于查找,往往需要转换为EXCEL文档中才方便进行操作,本文提供的python代码能够将word文档中出现的所有表格格式的数据提取到CSV文件中。
from docx import Document
import csv
docFile = 'C:\\Users\\hgvgh\\Desktop\\计算机.docx'
document = Document(docFile) #读入文件
tables = document.tables #获取文件中的表格集
data = []
for table in tables[:]:
for i, row in enumerate(table.rows[:]): # 读每行
row_content = []
for cell in row.cells[:]: # 读一行中的所有单元格
c = cell.text
row_content.append(c.strip("\n"))
data.append(row_content)
print(data)
def data_write_csv(file_name, datas):#file_name为写入CSV文件的路径,datas为要写入数据列表
file_csv = open(file_name,'w+',newline='')#追加
writer = csv.writer(file_csv) #, delimiter=' ', quotechar=' ', quoting=csv.QUOTE_MINIMAL)
for data in datas:
writer.writerow(data)
print("保存文件成功,处理结束")
data_write_csv("C:\\Users\\hgvgh\\Desktop\\result.csv", data)
注意事项:
docx
包,安装命令:pip install python-docx
,如果安装不上,请升级pip。