类似json将xml解析为python对象,可以使用第三方库untangle或xmltodict实现。
将以下内容保存为xml2obj.xml,后我我们就使用该文件。
1.第一行的是xml文件的声明,它定义了xml的版本 (1.0)和所使用编码为UTF-8。
2.接下来就是xml文件的内容了,这些内容按一个树状结构进行组织摆放,形式如下:
xml to python obj
section1 content
section2 content
其中,每一个.叫做一个节点,也叫一个元素,节点可以嵌套放置,也可以并列放置,在嵌套结构中,内外层节点是父子关系,以此类推,最外层的节点都叫做根节点。并列的两节点为兄弟关系。
3.对于每一个节点,一般由Tag、Attribute、Text三部分构成。在country_data.xml中data,country,rank,year这些都是tag。与tag同一尖括弧内右边的是Attribute,比如:name。Text就是两个尖括弧中间夹的东西了。
pip install untangle
import untangle
#将文件解析成对象
obj = untangle.parse('xml2obj.xml')
#获取标签内容
obj.root.title.__dict__['cdata']
#获取第一个section标签
obj.root.body.section[0]
#获取第二个section标签的id
obj.root.body.section[1]['id']
pip install xmltodict
import xmltodict
#将xml文件解析成对象
with open('xml2obj.xml') as fd:
dict = xmltodict.parse(fd.read())
#获取标签内容
dict['root']['title']
#获取第一个section标签
dict['root']['body']['section'][0]
#获取第二个section标签的id
dict['root']['body']['section'][1]['@id']
ElementTree生来就是为了处理XML,它在Python标准库中有两种实现:一种是纯Python实现的,如xml.etree.ElementTree,另一种是速度快一点的xml.etree.cElementTree。注意:尽量使用C语言实现的那种,因为它速度更快,而且消耗的内存更少。
在CODE上查看代码片派生到我的代码片。
1
2008
141100
4
2011
59900
68
2011
13600
234
2016
346344
try:
import xml.etree.cElementTree as ET
except ImportError:
import xml.etree.ElementTree as ET
import sys
try:
tree = ET.parse("xml2obj.xml") # 打开xml文档
# root = ET.fromstring(country_string) #从字符串传递xml
root = tree.getroot() # 获得root节点
except: # Exception, e:
print("Error:cannot parse file:xml2obj.xml.")
sys.exit(1)
print(root.tag, "--+-", root.attrib)
for child in root:
print(child.tag, "---", child.attrib)
print("*" * 10)
print(root[0][1].text) # 通过下标访问 )
print(root[0].tag, root[0].text)
print("*" * 10)
for country in root.findall('country'): # 找到root节点下的所有country节点
rank = country.find('rank').text # 子节点下节点rank的值
name = country.get('name') # 子节点下属性name的值
print(name, rank)
# 修改xml文件
for country in root.findall('country'):
rank = int(country.find('rank').text)
if rank > 50:
root.remove(country)
tree.write('output.xml')
文件对象模型(Document Object Model,简称DOM),是W3C组织推荐的处理可扩展置标语言的标准编程接口。一个 DOM 的解析器在解析一个XML文档时,一次性读取整个文档
from xml.dom.minidom import parse
import xml.dom.minidom
#使用minidom解析器打开XML文档
DOMTree = xml.dom.minidom.parse("xml2obj.xml")
Data = DOMTree.documentElement
if Data.hasAttribute("name"):
print("name element : %s" % Data.getAttribute("name"))
#在集合中获取所有国家
Countrys = Data.getElementsByTagName("country")
#打印每个国家的详细信息
for Country in Countrys:
print("*****Country*****")
if Country.hasAttribute("name"):
print("name: %s" % Country.getAttribute("name"))
rank = Country.getElementsByTagName('rank')[0]
print("rank: %s" % rank.childNodes[0].data)
year = Country.getElementsByTagName('year')[0]
print("year: %s" % year.childNodes[0].data)
gdppc = Country.getElementsByTagName('gdppc')[0]
print("gdppc: %s" % gdppc.childNodes[0].data)
for neighbor in Country.getElementsByTagName("neighbor"):
print(neighbor.tagName, ":", neighbor.getAttribute("name"), neighbor.getAttribute("direction"))
SAX是一种基于事件驱动的API,利用SAX解析XML牵涉到两个部分:解析器和事件处理器。其中解析器负责读取XML文档,并向事件处理器发送事件,如元素开始跟元素结束事件;而事件处理器则负责对事件作出相应,对传递的XML数据进行处理
ContentHandler类方法介绍
(1)characters(content)方法
调用时机:
从行开始,遇到标签之前,存在字符,content的值为这些字符串。
从一个标签,遇到下一个标签之前, 存在字符,content的值为这些字符串。
从一个标签,遇到行结束符之前,存在字符,content的值为这些字符串。
标签可以是开始标签,也可以是结束标签。
(2)startDocument()方法
文档启动的时候调用。
(3)endDocument()方法
解析器到达文档结尾时调用。
(4)startElement(name, attrs)方法
遇到XML开始标签时调用,name是标签的名字,attrs是标签的属性值字典。
(5)endElement(name)方法
遇到XML结束标签时调用。
在CODE上查看代码片派生到我的代码片
import xml.sax
class CountryHandler(xml.sax.ContentHandler):
def __init__(self):
self.CurrentData = ""
self.rank = ""
self.year = ""
self.gdppc = ""
self.neighborname = ""
self.neighbordirection = ""
# 元素开始事件处理
def startElement(self, tag, attributes):
self.CurrentData = tag
if tag == "country":
print "*****Country*****"
name = attributes["name"]
print "name:", name
elif tag == "neighbor":
name = attributes["name"]
direction = attributes["direction"]
print name, "->", direction
# 元素结束事件处理
def endElement(self, tag):
if self.CurrentData == "rank":
print "rank:", self.rank
elif self.CurrentData == "year":
print "year:", self.year
elif self.CurrentData == "gdppc":
print "gdppc:", self.gdppc
self.CurrentData = ""
# 内容事件处理
def characters(self, content):
if self.CurrentData == "rank":
self.rank = content
elif self.CurrentData == "year":
self.year = content
elif self.CurrentData == "gdppc":
self.gdppc = content
if __name__ == "__main__":
# 创建一个 XMLReader
parser = xml.sax.make_parser()
# turn off namepsaces
parser.setFeature(xml.sax.handler.feature_namespaces, 0)
# 重写 ContextHandler
Handler = CountryHandler()
parser.setContentHandler(Handler)
parser.parse("xml2obj.xml")
libxml2是使用C语言开发的xml解析器,是一个基于MIT License的免费开源软件,多种编程语言都有基于它的实现,python中的libxml2模块有点小不足的是:xpathEval()接口不支持类似模板的用法,但不影响使用,因libxml2采用C语言开发的,因此在使用API接口的方式上难免会有点不适应。
在CODE上查看代码片派生到我的代码片
import libxml2
doc = libxml2.parseFile("xml2obj.xml")
for book in doc.xpathEval('//country'):
if book.content != "":
print("----------------------")
print(book.content)
for node in doc.xpathEval("//country/neighbor[@name = 'Colombia']"):
print(node.name, (node.properties.name, node.properties.content))
doc.freeDoc()
from lxml import etree
import requests
response = requests.get('https://www.baisu.com/).text
tree = etree.HTML(response)
strs = tree.xpath( "//body")
strs = strs[0]
strs = (etree.tostring(strs)) # 不能正常显示中文
strs = (etree.tostring(strs, encoding = "utf-8", pretty_print = True, method = "html")) # 可以正常显示中文
print (strs)
总结
(1)Python中XML解析可用的类库或模块有xml、libxml2 、lxml 、xpath等,需要深入了解的还需参考相应的文档。
(2)每一种解析方式都有自己的优点和缺点,选择前可以综合各个方面的性能考虑。
(3)若有不足,请留言,在此先感谢!