数据处理--excel/xml

用xlrd处理excel的时候,报了以下的错误:

xlrd.biffh.XLRDError: Unsupported format, or corrupt file:Expected BOF record; found '

后来发现,这个应该是一个xml类型的文件。为了提取表格内的内容,直接用xml的包进行操作。

import xml.dom.minidom
dom = xml.dom.minidom.parse('filename')
root = dom.documentElement

首先获取文件内的xml内容。
将这个xml文件导出到一个txt内,分析xml里面的内容。
截取其中一小段进行分析:


名称
法人或负责人
电 话
移动电话
传 真
地 址
邮 编

一开始想直接提取最内存的标签:

use = root.getElementsByTagName('Data')
content = use.firstChild.data

想要提取“名称”,直接加一个计数的num,再num%7 == 0 进行提取。
但是第二行中,data标签不是最内层,计数就全乱了。

之后采取这几个标签就一层一层的提取。

use = root.getElementsByTagName('Row')
for li in use:
temp = li.getElementsByTagName('Cell')[0]
content = temp.getElementsByTagName('Data')[0].firstChild.data

Row标签为最外层,取第一个Cell标签,再取其中的Data标签。打印出来内容。

done。

你可能感兴趣的:(数据处理--excel/xml)