Java Web基础入门第一讲 XML语言——初识XML语言

什么是XML?

学习一门新的技术,首先应该搞清楚两点,第一它是什么,第二为什么我们要学习它,带着这样的疑问,开始XML的学习之旅。

  • 什么是XML?
    Extensible Markup Language,翻译过来为可扩展标记语言。XML技术是W3C组织发布的,目前推荐遵循的是W3C组织于2000发布的XML1.0规范。
  • 为什么学习XML?
    在现实生活中大量存在有关系的数据,如图所示:
    Java Web基础入门第一讲 XML语言——初识XML语言_第1张图片
    由此引来一个问题:这样的数据如何交给计算机处理呢?

XML技术用于解决什么问题?

XML语言出现的根本目标在于描述上图那种,在现实生活中经常出现的有关系的数据。在XML语言中,它允许用户自定义标签。一个标签用于描述一段数据;一个标签可分为开始标签和结束标签,在开始标签和结束标签之间,又可以使用其它标签描述其它数据,以此来实现数据关系的描述。例如:


<中国>
    <北京>
        <海淀>海淀>
        <朝阳>朝阳>
    北京>
    <福建>
        <福州>福州>
        <龙岩>龙岩>
    福建>
    <湖北>
        <武汉>武汉>
        <天门>天门>
    湖北>
中国>

XML常见应用

XML常见应用有以下两点:

  • XML技术除用于保存有关系的数据之外,它还经常用作软件配置文件,以描述程序模块之间的关系;

  • 在一个软件系统中,为提高系统的灵活性,它所启动的模块通常由其配置文件决定。例如一个软件在启动时,它需要启动A、B两个模块,而A、B这两个模块在启动时,又分别需要A1、A2和B1、B2模块的支持,为了准确描述这种关系,此时使用XML文件最为合适不过。

    
    <soft>
        <a>
            <a1>a1>
            <a2>a2>
        a>
        <b>
            <b1>b1>
            <b2>b2>
        b>
    soft>
    

XML语法

一个XML文件分为如下几部分内容:

  • 文档声明;
  • 元素;
  • 属性;
  • 注释;
  • CDATA区 、特殊字符;
  • 处理指令(processing instruction)。

XML语法-文档声明

在编写XML文档时,需要先使用文档声明,声明XML文档的类型。最简单的声明语法为:


还可用encoding属性说明文档的字符编码,即告诉浏览器用哪个编码表来解析文档。


当XML文件中有中文时,必须使用encoding属性指明文档的字符编码,例如:encoding="GB2312"或者encoding=“UTF-8”,并且在保存文件时,也要以相应的文件编码来保存,否则在使用浏览器解析XML文件时,就会出现解析错误的情况。例如,有如下XML文件,


<softCompany>
	<company>MicroSoftcompany>
	<company>googlecompany>
	<company>Applecompany>
	<company>百度company>
softCompany>

使用“记事本”来保存该XML文件时,没有使用encoding属性来指明文档的字符编码,但文档里面有“百度”这样的中文字符,在使用Chrome浏览器解析该XML文件时,Chrome就不知道该使用什么编码去解析该文件,就无法解析了,如下图所示:
Java Web基础入门第一讲 XML语言——初识XML语言_第2张图片
要想正确解析该XML文档,就可以使用encoding属性指明该文档的字符编码。例如:


<softCompany>
	<company>MicroSoftcompany>
	<company>googlecompany>
	<company>Applecompany>
	<company>百度company>
softCompany>

并且使用“记事本”保存文件时,也要以相应的文件编码(UTF-8)来保存。此时再次使用Chrome浏览器来解析该XML文件,就可以正常解析出里面的中文字符了,如下图所示:
Java Web基础入门第一讲 XML语言——初识XML语言_第3张图片
还可用standalone属性说明文档是否独立,即文档在工作的过程中是否依赖于另一个文档。


浏览器打开之后,并不会将standalone属性解析出来。

常见错误

在编写XML文档时,你会遇到的第一个常见错误如下:
在这里插入图片描述
编写XML文件你会遇到的第二个常见问题就是经典的乱码问题。XML文件一般使用国际化通用的编码“UTF-8”,所以平时看到的XML文件的头部都会有这样的代码:


如果我们使用“记事本”等文本编辑工具编写XML文件时,例如使用“记事本”编写如下的XML文件:


<CharacterEncoding>
	<中国>
 		<encoding>GB2312encoding>
		<encoding>GBKencoding>
	中国>
	<日本>
		<encoding>JISencoding>
	日本>
CharacterEncoding>

当我们在保存文件时,文件的编码默认是以“ANSI”来保存的,如下图所示:
Java Web基础入门第一讲 XML语言——初识XML语言_第4张图片
我们编写XML文件时,使用encoding="UTF-8"来指明了文档的字符编码,但是在保存的时候却使用了“ANSI”编码来保存文件,由于我们在XML文件中使用encoding="UTF-8"来指明了文档的字符编码,所以当Chrome浏览器解析该XML文件时,就是使用“UTF-8”编码来解析,解析结果如下图所示:
Java Web基础入门第一讲 XML语言——初识XML语言_第5张图片
可以看到,浏览器解析失败了,这是为什么呢?我们明明指定了文档的字符编码是“UTF-8”了呀,为什么里面的中文解析不出来呢?这里不得不说说ANSI编码到底代表的是神马意思了。
不同的国家和地区制定了不同的标准,由此产生了GB2312,BIG5,JIS等各自的编码标准。这些使用2个字节来代表一个字符的各种汉字延伸编码方式,称为ANSI编码。在简体中文系统下,ANSI编码代表GB2312编码,在日文操作系统下,ANSI编码代表JIS编码。不同ANSI编码之间互不兼容,当信息在国际间交流时,无法将属于两种语言的文字,存储在同一段ANSI编码的文本中。
下面分析一下为什么Chrome浏览器无法解析XML文件的原因,如下图所示:
Java Web基础入门第一讲 XML语言——初识XML语言_第6张图片
所以千万要记住,使用“记事本”或者“EditPlus”等文本编辑工具编写XML文件时一定要以XML文件的encoding属性指明的编码来保存文件,这样才能保证浏览器解析XML文件时可以正常解析。上述的问题将CharacterEncoding.xml文件再以“UTF-8”编码保存一次就可以正常解析出该文件了。
在使用一些比较智能的IDE编写XML文件时,IDE在保存XML文件时,会自动以encoding属性指明的编码来保存文件。例如在Eclipse中编写XML文件时,就可以根据encoding属性指明的字符编码,指明为encoding="GBK"时,保存XML文件时就自动将文件保存成GBK编码(如下图),
Java Web基础入门第一讲 XML语言——初识XML语言_第7张图片
指明为encoding="UTF-8"时,就自动保存为UTF-8(如下图)。
Java Web基础入门第一讲 XML语言——初识XML语言_第8张图片

元素

XML元素指XML文件中出现的标签,一个标签分为开始标签和结束标签,一个标签有如下几种书写形式,例如:

一个标签中也可以嵌套若干子标签。但所有标签必须合理的嵌套,绝对不允许交叉嵌套,例如以下代码就是错误的表率。

<a>welcome to <b>www.it315.orga>b>

格式良好的XML文档必须有且仅有一个根标签,其它标签都是这个根标签的子孙标签。
对于XML标签中出现的所有空格和换行,XML解析程序都会当作标签内容进行处理。例如:下面两段内容的意义是不一样的。

  • 第一段:

    <网址>www.baidu.com网址>
    
  • 第二段:

    <网址>
        www.baidu.com
    网址>
    

由于在XML中,空格和换行都作为原始内容被处理,所以,在编写XML文件时,使用换行和缩进等方式来让原文件中的内容清晰可读的“良好”书写习惯可能要被迫改变。
最后,我讲一下元素的命名规范——一个XML元素可以包含字母、数字以及其它一些可见字符,但必须遵守下面的一些规范:

  1. 区分大小写,例如,

    是两个不同的标记;

  2. 不能以数字或"_" (下划线)开头;
  3. 不能以xml(或XML、或Xml等)开头;
  4. 不能包含空格;
  5. 名称中间不能包含冒号(:)。

属性

一个标签可以有多个属性,每个属性都有它自己的名称和取值,例如:

<input name="text">

注意:属性值一定要用双引号(")或单引号(’)引起来,定义属性必须遵循与标签相同的命名规范。
在XML技术中,标签属性所代表的信息,也可以被改成用子元素的形式来描述,例如,以上代码又可改写为:

<input>
    <name>textname>
input>

注释

XML文件中的注释采用格式。要注意两点:

  1. XML声明之前不能有注释;

  2. 注释不能嵌套,例如:

    
    ……
    -->
    

CDATA区

在编写XML文件时,有些内容可能不想让解析引擎解析执行,而是当作原始内容处理。遇到此种情况,可以把这些内容放在CDATA区里,对于CDATA区域内的内容,XML解析程序不会处理,而是直接原封不动的输出。语法为:


        中国
        
    
]]>

转义字符

对于一些单个字符,若想显示其原始样式,也可以使用转义的形式予以处理。
Java Web基础入门第一讲 XML语言——初识XML语言_第9张图片
要注意,转义字符和CDATA区的区别: 一段XML文档,你要输出给人看,给人看到原始样子,要用转义;你要交给程序处理,把某一段XML文档作为原始内容交给程序处理,就用CDATA区。

处理指令

处理指令,简称PI(processing instruction)。处理指令用来指挥解析引擎如何解析XML文档内容。例如,在XML文档中可以使用xml-stylesheet指令,通知XML解析引擎,应用css文件显示XML文档内容。
config1.css内容为:

#a1 {
    font-size: 300px;
    color: red;
}
#a2 {
    font-size: 100px;
    color: green;
}
#b1 {
    font-size: 20px;
}
#b2 {
    font-size: 200px;
    color: blue;
}

config1.xml文档内容为:



<soft>
    <a>
        <a1 id="a1">中国a1>
        <a2 id="a2">美国a2>
    a>
    <b>
        <b1 id="b1">小日本b1>
        <b2 id="b2">英国b2>
    b>
soft>

注意:标签名为中文时,css不起作用。还要注意处理指令必须以作为开头,以?>作为结尾,XML声明语句就是最常见的一种处理指令。

你可能感兴趣的:(Java,Web基础入门)