小酒馆燃着灯

第二十一章解读XML与JSON文件格式(工具)

XML

XML tree and elements

将XML文档解析为树（tree）

我们先从基础讲起。XML是一种结构化、层级化的数据格式，最适合体现XML的数据结构就是树。ET提供了两个对象：ElementTree将整个XML文档转化为树，Element则代表着树上的单个节点。对整个XML文档的交互（读取，写入，查找需要的元素），一般是在ElementTree层面进行的。对单个XML元素及其子元素，则是在Element层面进行的。

XML是一种固有的分层数据格式，最自然的表示方法是使用树ET。ET有两个类：

ElementTree：表示整个XML文档为树，元素表示此树中的单个节点。与整个文档的交互(读取和写入文件)通常是在ElementTree级别上完成的。
Element：与单个XML元素及其子元素的交互是在Element元素级别上完成的。

tree和root分别是ElementTree中两个很重要的类的对象：ElementTree和Element。

下面对XML文件的格式做一些说明：

Tag：使用<>包围的部分，如：<表示：start-tag，>表示：end-tags；
Element：被Tag包围的部分，如：68中的68，可以认为是一个节点，它可以有子节点；
Attribute：在Tag中可能存在的name/value对，如中的name=”Liechtenstein”，一般表示属性。

在Python中处理XML格式文件需要导入的第三方库：

# 导入第三方库
import xml.etree.ElementTree as ET

详细参考：xml.etree.ElementTree的官方文档

XML文件的常见操作

1. 读入xml格式的文件，并显示全部行数据

读入xml格式的文件，并显示全部行数据：

假设有.xml格式文件file_xml，现需要使用Python读入.xml格式文件，并显示全部行数据，执行代码如下：

open_file = open(file_xml) # file_xml为.xml格式文件
read_file = open_file.readlines() # 读入所有行数据

典型范例：

from xml.etree import ElementTree as ET

file_xml = r'/Users/edz/Documents/yandi_data/taishi_loading/to_xlm/anno.xml'

open_file = open(file_xml)
read_file = open_file.readlines() # 读入所有行数据
print(read_file)
>>>
['\n',
 '\tid12_玻璃膜疣\n',
 '\t014f80f346d72001267240b1a62f1b72.jpg\n',
 '\t/Users/edz/Documents/yandi_data/taishi_loading/load_image/原始TXT表/第一批七种病灶/id12_玻璃膜疣/014f80f346d72001267240b1a62f1b72.jpg\n',
 '\t\n',
 '\t\tUnknown\n',
 '\t\n',
 '\t\n',
 '\t\t1924\n',
 '\t\t1556\n',
 '\t\t3\n',
 '\t\n',
 '\t0\n',
 '\t\n',
 '\t