一、XML
XML即可扩展标记语言(eXtensible Markup Language)。标记是指计算机所能理解的信息符号,通过此种标记,计算机之间可以处理包含各种信息的文章等。如何定义这些标记,既可以选择国际通用的标记语言,比如HTML,也可以使用象XML这样由相关人士自由决定的标记语言,这就是语言的可扩展性。XML是从SGML中简化修改出来的。它主要用到的有XML、XSL和XPath等。
上面这段是对XML的一个基本定义,一个被广泛接受的说明。简单说,XML就是一种数据的描述语言,虽然它是语言,但是通常情况下,它并不具备常见语言的基本功能——被计算机识别并运行。只有依靠另一种语言,来解释它,使它达到你想要的效果或被计算机所接受。
记住以下几点就行了:
- XML是一种标记语言,很类似HTML
- XML的设计宗旨是传输数据,而非显示数据
- XML标签没有被预定义。您需要自行定义标签。
- XML被设计为具有自我描述性。
- XML是W3C的推荐标准
总结:
XML是独立于软件和硬件的信息传输工具。 目前,XML在Web中起到的作用不会亚于一直作为 Web 基石的 HTML。 XML无所不在。XML是各种应用程序之间进行数据传输的最常用的工具,并且在信息存储和描述领域变得越来越流行。
1.1 XML属性
1.1.1 XML与HTML的主要差异
- XML不是HTML的替代。
- XML和HTML为不同的目的而设计。
- XML被设计为传输和存储数据,其焦点是数据的内容。
- HTML被设计用来显示数据,其焦点是数据的外观。
- HTML旨在显示信息,而 XML 旨在传输信息
1.1.2 XML是不作为的。
也许这有点难以理解,但是XML不会做任何事情。XML被设计用来结构化、存储以及传输信息。
下面是John写给George的便签,存储为XML:
1
2
3
4
5
6
|
&
lt
;
note
&
gt
;
&
lt
;
to
&
gt
;
George
&
lt
;
/
to
&
gt
;
&
lt
;
from
&
gt
;
John
&
lt
;
/
from
&
gt
;
&
lt
;
heading
&
gt
;
Reminder
&
lt
;
/
heading
&
gt
;
&
lt
;
body
&
gt
;
Don
&
#039;t forget the meeting!</body>
&
lt
;
/
note
&
gt
;
|
上面的这条便签具有自我描述性。它拥有标题以及留言,同时包含了发送者和接受者的信息。但是,这个 XML 文档仍然没有做任何事情。它仅仅是包装在XML标签中的纯粹的信息。我们需要编写软件或者程序,才能传送、接收和显示出这个文档。
1.1.3 XML仅仅是纯文本
XML没什么特别的。它仅仅是纯文本而已。有能力处理纯文本的软件都可以处理XML。 不过,能够读懂 XML 的应用程序可以有针对性地处理 XML 的标签。标签的功能性意义依赖于应用程序的特性。
1.1.4 XML允许自定义标签
上例中的标签没有在任何XML标准中定义过(比如和)。这些标签是由文档的创作者发明的。这是因为XML没有预定义的标签。
在HTML中使用的标签(以及HTML的结构)是预定义的。HTML文档只使用在HTML标准中定义过的标签(比如<p>
,<h1>
等等)。
XML允许创作者定义自己的标签和自己的文档结构。
1.1.5 XML不是对HTML的替代
XML是对HTML的补充。
XML不会替代HTML,理解这一点很重要。在大多数 web 应用程序中,XML用于传输数据,而HTML用于格式化并显示数据。
1.2 XML的语法
XML的语法规则很简单,且很有逻辑。这些规则很容易学习,也很容易使用。
1.2.1 所有元素都必须有关闭标签
在XML中,省略关闭标签是非法的。所有元素都必须有关闭标签。 在HTML,经常会看到没有关闭标签的元素:
1
2
|
&
lt
;
p
&
gt
;
This
is
a
paragraph
&
lt
;
p
&
gt
;
This
is
another
paragraph
|
在XML中,省略关闭标签是非法的。所有元素都必须有关闭标签:
1
2
|
&
lt
;
p
&
gt
;
This
is
a
paragraph
&
lt
;
/
p
&
gt
;
&
lt
;
p
&
gt
;
This
is
another
paragraph
&
lt
;
/
p
&
gt
;
|
注释:您也许已经注意到XML声明没有关闭标签。这不是错误。声明不属于XML本身的组成部分。它不是XML元素,也不需要关闭标签。
1.2.2 XML标签对大小写敏感
XML元素使用XML标签进行定义。
XML标签对大小写敏感。在XML中,标签与标签是不同的。
必须使用相同的大小写来编写打开标签和关闭标签:
1
2
|
&
lt
;
Message
&
gt
;这是错误的。
&
lt
;
/
message
&
gt
;
&
lt
;
message
&
gt
;这是正确的。
&
lt
;
/
message
&
gt
;
|
1.2.3 XML标签对大小写敏感
在 HTML 中,常会看到没有正确嵌套的元素:
1
|
<b>
<i>
This text is bold and italic
</b>
</i>
|
在 XML中,所有元素都必须彼此正确地嵌套:
1
|
&
lt
;
b
&
gt
;
&
lt
;
i
&
gt
;
This
text
is
bold
and
italic
&
lt
;
/
i
&
gt
;
&
lt
;
/
b
&
gt
;
|
在上例中,正确嵌套的意思是:由于<i>
元素是在<b>
元素内打开的,那么它必须在<b>
元素内关闭。
1.2.4 XML文档必须有根元素
XML文档必须有一个元素是所有其他元素的父元素。该元素称为根元素。
1
2
3
4
5
|
&
lt
;
root
&
gt
;
&
lt
;
child
&
gt
;
&
lt
;
subchild
&
gt
;
.
.
.
.
.
&
lt
;
/
subchild
&
gt
;
&
lt
;
/
child
&
gt
;
&
lt
;
/
root
&
gt
;
|
1.2.5 XML的属性值须加引号
与 HTML 类似,XML 也可拥有属性(名称/值的对)。 在 XML 中,XML 的属性值须加引号。请研究下面的两个 XML 文档。第一个是错误的,第二个是正确的:
1
2
3
4
5
6
7
8
9
|
&
lt
;
note
date
=
08
/
08
/
2008
&
gt
;
&
lt
;
to
&
gt
;
George
&
lt
;
/
to
&
gt
;
&
lt
;
from
&
gt
;
John
&
lt
;
/
from
&
gt
;
&
lt
;
/
note
&
gt
;
&
lt
;
note
date
=&
quot
;
08
/
08
/
2008
&
quot
;
&
gt
;
&
lt
;
to
&
gt
;
George
&
lt
;
/
to
&
gt
;
&
lt
;
from
&
gt
;
John
&
lt
;
/
from
&
gt
;
&
lt
;
/
note
&
gt
;
|
1.2.6 实体引用
在 XML 中,一些字符拥有特殊的意义。 如果你把字符 “<” 放在 XML 元素中,会发生错误,这是因为解析器会把它当作新元素的开始。 这样会产生 XML 错误:
1
|
&
lt
;
message
&
gt
;
if
salary
&
lt
;
1000
then
&
lt
;
/
message
&
gt
;
|
为了避免这个错误,请用实体引用来代替 “<” 字符:
1
|
&
lt
;
message
&
gt
;
if
salary
&
amp
;
lt
;
1000
then
&
lt
;
/
message
&
gt
;
|
在 XML 中,有 5 个预定义的实体引用:
1
2
3
4
5
|
&
amp
;
lt
;
&
lt
;
小于
&
amp
;
gt
;
&
gt
;
大于
&
amp
;
amp
;
&
amp
;
和号
&
#039; ' 单引号
&
amp
;
quot
;
&
quot
;
引号
|
注释:在 XML 中,只有字符 “<” 和 “&” 确实是非法的。大于号是合法的,但是用实体引用来代替它是一个好习惯。
1.2.7 XML中的注释
在 XML 中编写注释的语法与 HTML 的语法很相似:
1
|
&
lt
;
!
--
This
is
a
comment
--
&
gt
;
|
在 XML 中,空格会被保留 HTML 会把多个连续的空格字符裁减(合并)为一个:
1
|
HTML
:
Hello
my
name
is
David
.
|
输出: Hello my name is David. 在 XML 中,文档中的空格不会被删节。
1.2.8 以 LF 存储换行
在 Windows 应用程序中,换行通常以一对字符来存储:回车符 (CR) 和换行符 (LF)。这对字符与打字机设置新行的动作有相似之处。在 Unix 应用程序中,新行以 LF 字符存储。而 Macintosh 应用程序使用CR来存储新行。
1.3 XML CDATA
所有XML文档中的文本均会被解析器解析。
只有CDATA区段(CDATA section)中的文本会被解析器忽略。
1.3.1 PCDATA
PCDATA指的是被解析的字符数据(Parsed Character Data)。
XML解析器通常会解析XML文档中所有的文本。 当某个XML元素被解析时,其标签之间的文本也会被解析:
1
|
&
lt
;
message
&
gt
;此文本也会被解析
&
lt
;
/
message
&
gt
;
|
解析器之所以这么做是因为 XML 元素可包含其他元素,就像这个例子中,其中的元素包含着另外的两个元素(first和last):
1
|
&
lt
;
name
&
gt
;
&
lt
;
first
&
gt
;
Bill
&
lt
;
/
first
&
gt
;
&
lt
;
last
&
gt
;
Gates
&
lt
;
/
last
&
gt
;
&
lt
;
/
name
&
gt
;
|
而解析器会把它分解为像这样的子元素:
1
2
3
4
|
&
lt
;
name
&
gt
;
&
lt
;
first
&
gt
;
Bill
&
lt
;
/
first
&
gt
;
&
lt
;
last
&
gt
;
Gates
&
lt
;
/
last
&
gt
;
&
lt
;
/
name
&
gt
;
|
1.3.2 转义字符
非法的XML字符必须被替换为实体引用(entity reference)。
假如您在XML文档中放置了一个类似 “<” 字符,那么这个文档会产生一个错误,这是因为解析器会把它解释为新元素的开始。因此你不能这样写:
1
|
&
lt
;
message
&
gt
;
if
salary
&
lt
;
1000
then
&
lt
;
/
message
&
gt
;
|
为了避免此类错误,需要把字符 “<” 替换为实体引用,就像这样:
1
|
&
lt
;
message
&
gt
;
if
salary
&
amp
;
lt
;
1000
then
&
lt
;
/
message
&
gt
;
|
在 XML 中有 5 个预定义的实体引用:
1
2
3
4
5
|
&
amp
;
lt
;
&
lt
;
小于
&
amp
;
gt
;
&
gt
;
大于
&
amp
;
amp
;
&
amp
;
和号
&
#039; ' 省略号
&
amp
;
quot
;
&
quot
;
引号
|
注释:严格地讲,在XML中仅有字符”<“和”&“是非法的。省略号、引号和大于号是合法的,但是把它们替换为实体引用是个好的习惯。
1.3.3 CDATA
术语CDATA指的是不应由XML解析器进行解析的文本数据(Unparsed Character Data)。
在 XML 元素中,”<“ 和 ”&“ 是非法的。
“<” 会产生错误,因为解析器会把该字符解释为新元素的开始。 “&” 也会产生错误,因为解析器会把该字符解释为字符实体的开始。
某些文本,比如 JavaScript 代码,包含大量 “<” 或 “&” 字符。为了避免错误,可以将脚本代码定义为 CDATA。 CDATA 部分中的所有内容都会被解析器忽略。 CDATA 部分由 “<![CDATA[” 开始,由 “]]>” 结束:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
|
&
lt
;
?
xml
version
=&
quot
;
1.0
&
quot
;
encoding
=&
quot
;
utf
-
8
&
quot
;
?
&
gt
;
&
lt
;
response
&
gt
;
&
lt
;
header
&
gt
;
&
lt
;
respcode
&
gt
;
0
&
lt
;
/
respcode
&
gt
;
&
lt
;
total
&
gt
;
1736
&
lt
;
/
total
&
gt
;
&
lt
;
/
header
&
gt
;
&
lt
;
result
&
gt
;
&
lt
;
album
&
gt
;
&
lt
;
album_id
&
gt
;
320305900
&
lt
;
/
album_id
&
gt
;
&
lt
;
title
&
gt
;
&
lt
;
!
[
CDATA
[
电影侃侃之初恋永不早
]
]
&
gt
;
&
lt
;
/
title
&
gt
;
&
lt
;
tag
&
gt
;
&
lt
;
!
[
CDATA
[
18岁以上
当代
暧昧
华语
]
]
&
gt
;
&
lt
;
/
tag
&
gt
;
&
lt
;
img
&
gt
;
http
:
//pic9.qiyipic.com/image/20141016/ec/e0/v_108639906_m_601_120_160.jpg</img>
&
lt
;
img180236
&
gt
;
http
:
//pic9.qiyipic.com/image/20141016/ec/e0/v_108639906_m_601_180_236.jpg</img180236>
&
lt
;
img11577
&
gt
;
http
:
//pic9.qiyipic.com/image/20141016/ec/e0/v_108639906_m_601_115_77.jpg</img11577>
&
lt
;
img220124
&
gt
;
http
:
//pic9.qiyipic.com/image/20141016/ec/e0/v_108639906_m_601_284_160.jpg</img220124>
&
lt
;
category_id
&
gt
;
1
&
lt
;
/
category_id
&
gt
;
&
lt
;
score
&
gt
;
0.0
&
lt
;
/
score
&
gt
;
&
lt
;
voters
&
gt
;
0
&
lt
;
/
voters
&
gt
;
&
lt
;
tv_sets
&
gt
;
0
&
lt
;
/
tv_sets
&
gt
;
&
lt
;
duration
&
gt
;
00
:
38
:
57
&
lt
;
/
duration
&
gt
;
&
lt
;
year
&
gt
;
&
lt
;
!
[
CDATA
[
2014
]
]
&
gt
;
&
lt
;
/
year
&
gt
;
&
lt
;
tv_focus
&
gt
;跟爱情片学把妹心经
&
lt
;
/
tv_focus
&
gt
;
&
lt
;
episode_count
&
gt
;
1
&
lt
;
/
episode_count
&
gt
;
&
lt
;
directors
&
gt
;
&
lt
;
!
[
CDATA
[
关雅荻
]
]
&
gt
;
&
lt
;
/
directors
&
gt
;
&
lt
;
mainactors
&
gt
;
&
lt
;
!
[
CDATA
[
关雅荻
]
]
&
gt
;
&
lt
;
/
mainactors
&
gt
;
&
lt
;
actors
&
gt
;
&
lt
;
!
[
CDATA
[
]
]
&
gt
;
&
lt
;
/
actors
&
gt
;
&
lt
;
vv2
&
gt
;
&
lt
;
!
[
CDATA
[
15
]
]
&
gt
;
&
lt
;
/
vv2
&
gt
;
&
lt
;
timeText
&
gt
;
&
lt
;
!
[
CDATA
[
今天
]
]
&
gt
;
&
lt
;
/
timeText
&
gt
;
&
lt
;
first_issue_time
&
gt
;
&
lt
;
!
[
CDATA
[
2014
-
10
-
16
]
]
&
gt
;
&
lt
;
/
first_issue_time
&
gt
;
&
lt
;
up
&
gt
;
0
&
lt
;
/
up
&
gt
;
&
lt
;
down
&
gt
;
0
&
lt
;
/
down
&
gt
;
&
lt
;
download
&
gt
;
1
&
lt
;
/
download
&
gt
;
&
lt
;
purchase_type
&
gt
;
0
&
lt
;
/
purchase_type
&
gt
;
&
lt
;
hot_or_new
&
gt
;
0
&
lt
;
/
hot_or_new
&
gt
;
&
lt
;
createtime
&
gt
;
2014
-
10
-
16
12
:
25
:
08
&
lt
;
/
createtime
&
gt
;
&
lt
;
purchase
&
gt
;
0
&
lt
;
/
purchase
&
gt
;
&
lt
;
desc
&
gt
;
&
lt
;
!
[
CDATA
[
本期节目主持人介绍新近上映的口碑爱情片,。主持人轻松幽默的罗列出胡鳄鱼导演拍摄的爱情片越来越接地气,博得观众的认同和追捧,更提出“初恋永远不嫌早”的口号。观众可以跟着爱情片学习把妹心经。
]
]
&
gt
;
&
lt
;
/
desc
&
gt
;
&
lt
;
ip_limit
&
gt
;
1
&
lt
;
/
ip_limit
&
gt
;
&
lt
;
episodes
/
&
gt
;
&
lt
;
/
album
&
gt
;
&
lt
;
/
result
&
gt
;
&
lt
;
/
response
&
gt
;
|
这是展示一部电影的具体数据,包括标题、介绍、内容、导演、演员、时长、上映年份等很多内容。
1.5 XML树结构
XML文档形成了一种树结构,它从“根部”开始,然后扩展到“枝叶”。
1.5.1 一个XML文档实例
XML使用简单的具有自我描述性的语法:
1
2
3
4
5
6
7
|
&
lt
;
?
xml
version
=&
quot
;
1.0
&
quot
;
encoding
=&
quot
;
ISO
-
8859
-
1
&
quot
;
?
&
gt
;
&
lt
;
note
&
gt
;
&
lt
;
to
&
gt
;
George
&
lt
;
/
to
&
gt
;
&
lt
;
from
&
gt
;
John
&
lt
;
/
from
&
gt
;
&
lt
;
heading
&
gt
;
Reminder
&
lt
;
/
heading
&
gt
;
&
lt
;
body
&
gt
;
Don
&
#039;t forget the meeting!</body>
&
lt
;
/
note
&
gt
;
|
第一行是XML声明。它定义XML的版本(1.0)和所使用的编码(ISO-8859-1=Latin-1/西欧字符集)。
下一行描述文档的根元素(像在说:“本文档是一个便签”):
1
|
&
lt
;
note
&
gt
;
|
接下来 4 行描述根的 4 个子元素(to, from, heading 以及 body):
1
2
3
4
|
&
lt
;
to
&
gt
;
George
&
lt
;
/
to
&
gt
;
&
lt
;
from
&
gt
;
John
&
lt
;
/
from
&
gt
;
&
lt
;
heading
&
gt
;
Reminder
&
lt
;
/
heading
&
gt
;
&
lt
;
body
&
gt
;
Don
&
#039;t forget the meeting!</body>
|
最后一行定义根元素的结尾:
1
|
&
lt
;
/
note
&
gt
;
|
从本例可以设想,该XML文档包含了John给George的一张便签。
- XML具有出色的自我描述性,你同意吗?
- XML文档形成一种树结构
- XML文档必须包含根元素。该元素是所有其他元素的父元素。
- XML文档中的元素形成了一棵文档树。这棵树从根部开始,并扩展到树的最底端。
所有元素均可拥有子元素:
1
2
3
4
5
|
&
lt
;
root
&
gt
;
&
lt
;
child
&
gt
;
&
lt
;
subchild
&
gt
;
.
.
.
.
.
&
lt
;
/
subchild
&
gt
;
&
lt
;
/
child
&
gt
;
&
lt
;
/
root
&
gt
;
|
父、子以及同胞等术语用于描述元素之间的关系。父元素拥有子元素。相同层级上的子元素成为同胞(兄弟或姐妹)。
所有元素均可拥有文本内容和属性(类似HTML中)。
1.6 XML DOM
想到这里,大家都有点迫不及待了,XML 文件到底如何解析呢?
但是,别急,让子弹先飞会儿:–)
在XML解析之前,我们必须系统性的学习一下 XML DOM 知识:
1.6.1 定义
XML DOM(XML Document Object Model) 定义了访问和操作XML文档的标准方法。
DOM把XML文档作为树结构来查看。能够通过DOM树来访问所有元素。可以修改或删除它们的内容,并创建新的元素。元素,它们的文本,以及它们的属性,都被认为是节点。
XML DOM是:
- 用于XML的标准对象模型
- 用于XML的标准编程接口
- 中立于平台和语言
- W3C的标准
XML DOM定义了所有XML元素的对象和属性,以及访问它们的方法(接口)。
换句话说:
1
|
XML
DOM是用于获取、更改、添加或删除
XML元素的标准
|
DOM将XML文档作为一个树形结构,而树叶被定义为节点。
1.6.2 总结
XML DOM其实比较复杂,在这么短的篇幅里也无法一一进行讲解。想详细了解XML DOM可以好好去学习下
1.7 XML如何解析?
上面讲了这么多关于XML的东西,那么XML文件应该如何解析呢?
终于到了我们的重头戏了
下面以视频项目为例,展示如何解析XML文件:
1.7.1 Step 1
XML文件是一棵树,首先需要找到对应的节点,然后从节点开始解析,比如搜索找到的就是result/weights/weight 和result/weights/weight 2个节点,分别从这个开始解析:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
|
public
ResultInfo
onParser
(
Element
rootElement
)
{
int
resp
=
-
1
;
try
{
String
elName
=
&
quot
;
header
/
respcode
&
quot
;
;
resp
=
Integer
.
parseInt
(
selectNodeString
(
rootElement
,
elName
)
)
;
}
catch
(
NumberFormatException
e
)
{
e
.
printStackTrace
(
)
;
}
Log
.
d
(
TAG
,
&
quot
;
resp
=
&
quot
;
+
resp
)
;
if
(
resp
!=
0
)
{
return
null
;
}
ResultInfo
searchResultInfo
=
new
ResultInfo
(
)
;
// Parse Search Weight
@
SuppressWarnings
(
&
quot
;
rawtypes
&
quot
;
)
final
List
weights
=
rootElement
.
selectNodes
(
rootElement
.
getPath
(
)
+
&
quot
;
/
&
quot
;
+
&
quot
;
result
/
weights
/
weight
&
quot
;
)
;
ResultInfo
[
]
resultFilterInfos
=
parseVideos
(
weights
)
;
if
(
resultFilterInfos
!=
null
)
{
ResultInfo
weight
=
new
ResultInfo
(
)
;
weight
.
putResultInfoArray
(
ResultInfo
.
KEY_VIDEOS
,
resultFilterInfos
)
;
searchResultInfo
.
putResultInfo
(
ResultInfo
.
KEY_WEIGHT
,
weight
)
;
}
// Parse Albums
@
SuppressWarnings
(
&
quot
;
rawtypes
&
quot
;
)
final
List
albums
=
rootElement
.
selectNodes
(
rootElement
.
getPath
(
)
+
&
quot
;
/
&
quot
;
+
&
quot
;
result
/
albums
/
album
&
quot
;
)
;
ResultInfo
[
]
resultInfos
=
parseVideos
(
albums
)
;
if
(
resultInfos
!=
null
)
{
ResultInfo
album
=
new
ResultInfo
(
)
;
album
.
putResultInfoArray
(
ResultInfo
.
KEY_VIDEOS
,
resultInfos
)
;
searchResultInfo
.
putResultInfo
(
ResultInfo
.
KEY_SEARCH
,
album
)
;
}
return
searchResultInfo
;
}
|
1.7.2 Step 2
找到了对应的Node,即从对应的Node开始递归的查找,直到找到最小的节点,也就是最基本的单元Element。再对每一个Element进行解析:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
|
private
ResultInfo
[
]
parseVideos
(
final
List
nodes
)
{
if
(
nodes
!=
null
&
amp
;
&
amp
;
nodes
.
size
(
)
&
gt
;
0
)
{
final
int
size
=
nodes
.
size
(
)
;
final
ResultInfo
[
]
vis
=
new
ResultInfo
[
size
]
;
int
i
=
0
;
for
(
Object
o
:
nodes
)
{
if
(
o
instanceof
Element
)
{
final
Element
videoElement
=
(
Element
)
o
;
ResultInfo
vi
=
parseVideo
(
videoElement
)
;
vis
[
i
]
=
vi
;
}
i
++
;
}
return
vis
;
}
return
null
;
}
|
1.7.3 Step 3
针对获取到的Element,解析出对应的String将数据传递给VideoInfo这个类:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
|