什么是XML
XML(eXtendsible Markup Language)即可标记行扩展语言
XML 可以干啥
- 保存数据
- 用作配置文件
- 数据传输载体
XML 文件构成
后缀名
XML 文件都是以 .xml 为后缀
文档声明
-
最基本的声明
-
带编码(默认为 GBK,一般我们选用 UTF-8),想让 XML 正常显示中文,必须保证 encoding 编码格式与我们文件的编码保存格式一致
-
关联文件 (standalone : no - 该文档依赖关联其他文档 yes - 该文档是一个独立的文档)
元素定义
格式 : 与 HTML 类似,使用 <> 包裹的成为标签,一般对出现(除了空标签),例如:
XML 的标签是可以自定义的,但是必须遵从命名规则
名称可以含字母、数字以及其他的字符
名称不能以数字或者标点符号开始
名称不能以字符 “xml”(或者 XML、Xml)开始
名称不能包含空格
注: 命名尽量简单,做到见名知义
元素类型
-
简单元素
-
复杂元素
张三 12
属性定义
前面说空标签一般配合属性使用,当然普通的标签属性同样可以使用
格式:<元素名称 属性名称="属性的值">元素名称>
张三
18
李四
28
注释
与 HTML 注释一样
注: xml的注释,不允许放置在文档的第一行。 必须在文档声明的下面。
CDATA
XML 文档中的文本都会被解析器解析,有时候我们希望某些元素内部的文本不要去解析,比方说下面的student 元素,我们希望他内部的 name ,age 都不要解析为元素,显然单纯下面这种是无法完成这种效果的
张三 12
这是为什么呢,这就涉及到 XML的非法字符
张三 12 如果不想被解析的话,其所有的字符都要被识别为普通文本,但是 < 字符会被识别为一个元素的开始,我们同样不能在元素内部使用 > <
age > 20
想要解决这个问题,我们必须将非法的字符转换为实体引用
age > 20
XML 预定义实体引用
符号 | 实体引用 |
---|---|
< | < |
> | > |
& | & |
' | ' |
" | " |
注:严格地讲,在 XML 中仅有字符 "<"和"&" 是非法的。省略号、引号和大于号是合法的,但是把它们替换为实体引用是个好的习惯。
如果我们内部需要使用大量的包含类似标签和关键字(“<” 和 “&”)的这种文字,同时我们又不想要 XML 解析器去解析,此时,我们就需要使用 CDATA 了。
CDATA :是指不应该由 XML 解析器进行解析的文本数据。CDATA 部分的所有内容都会被解析器忽略。
使用格式 :
百度 && 网址]]>
在 CDATA 内部就可以使用 < & 符号而不会报错了
注: CDATA 部分不能包含字符串 “]]>”,不允许嵌套 CDATA 部分。标记 CDATA 结尾部分“]]>”不能包含空格或拆行。
XML 解析 (Java)
解析XML实际上就是获取元素的字符数据和属性数据
常用解析方式
- DOM(可以对文档进行增删操作)
- SAX(只能查询)
DOM(document object model): 把整个xml全部读取到内存,形成树状的结构,整个文档称之为document 对象,属性对应为 attribute 对象,元素节点对应为 element 对象,文本称之为 text 对象,他们统称为 node 对象,因为是全部读入,当xml文件特别大的时候,可能会造成内存溢出。
SAX(simple API for xml): 基于事件驱动,读取一行解析一行,不会出现内存溢出
解决方案
- jaxp:sun公司
- jdom
- dom4j:使用比较广泛
dom4j 的基本使用
Maven依赖
dom4j
dom4j
1.6.1
最基本用法
element.element("stu"); //返回该元素下的第一个stu元素
element.elements(); //返回该元素下的所有子元素。
一般步骤:
- 创建 SaxReader 对象
- 指定解析的 XML
- 获取根元素
- 根据根元素获取子元素以及子孙元素
try {
//1. 创建sax读取对象
SAXReader reader = new SAXReader(); //jdbc -- classloader
//2. 指定解析的xml源
Document document = reader.read(new File("src/xml/stus.xml"));
//3. 得到根元素
Element rootElement= document.getRootElement();
//获取根元素下面的子元素 age
//rootElement.element("age")
//System.out.println(rootElement.element("stu").element("age").getText());
//获取根元素下面的所有子元素 。 stu元素
List elements = rootElement.elements();
//遍历所有的stu元素
for (Element element : elements) {
//获取stu元素下面的name元素
String name = element.element("name").getText();
String age = element.element("age").getText();
String address = element.element("address").getText();
System.out.println("name="+name+"==age+"+age+"==address="+address);
}
} catch (Exception e) {
e.printStackTrace();
}
Xpath 使用
使用上面方式获取子孙节点时会特别的繁琐,dom4j 支持 Xpath的写法( xpath其实是xml的路径语言,支持我们在解析xml的时候,能够快速的定位到具体的某一个元素)
添加依赖
jaxen
jaxen
1.1
简单使用
// 获取第一个 name 元素
Element nameElement = (Element) rootElement.selectSingleNode("//name");
// 获取文档里面的所有name元素
List list = rootElement.selectNodes("//name");
约束
上面的XML文件中,我们所有的元素都可以随便写,像学生的id属性可以一样,学生姓名可以有多个...这显然是不符合现实的。因此我们需要对XML文件作出一定的约束,来控制XML文件满足我们的要求
约束方式
- DTD
- Schema
DTD
语法自成一派, 早期就出现的, 可读性比较差
使用方式
-
引用网上的DTD
-
使用本地DTD
-
内嵌使用
]>
DTD 编写格式
stus 下面有一个元素 stu , 但是只有一个
stu下面有两个元素 name ,age 顺序必须name-age
stu有一个属性 文本类型, 该属性可有可无
按照顺序来
两个中只能包含一个子元素
元素的个数:
+ 一个或多个
* 零个或多个
? 零个或一个
属性的类型定义
CDATA : 属性是普通文字
ID : 属性的值必须唯一
Schema
其实就是一个xml , 使用xml的语法规则, xml解析器解析起来比较方便 , 是为了替代DTD 。
但是Schema 约束文本内容比DTD的内容还要多。 所以目前也没有真正意义上的替代DTD
使用scheme约束例子:
约束文件
被约束文件
zhangsan
19
lisi
29
lisi
29
命名空间
一个xml如果想指定它的约束规则, 假设使用的是DTD ,那么这个xml只能指定一个DTD , 不能指定多个DTD 。 但是如果一个xml的约束是定义在schema里面,并且是多个schema,那么是可以的。简单的说: 一个xml 可以引用多个schema约束。 但是只能引用一个DTD约束。
名称空间的作用就是在 写元素的时候,可以指定该元素使用的是哪一套约束规则。 默认情况下 ,如果只有一套规则,那么都可以这么写
张三
Apples
Bananas
African Coffee Table
80
120