### 一 .XML文档的结构良好性验证
结构良好的xml文档,需要遵守下面这些规则:
1.所有开始标签必须有对应的结束标签
2.元素可以嵌套,但是不可以重叠
3.有且只能有一个根元素
4.属性值必须使用引号
5.一个元素不能有两个同样属性名字的属性
6.注释不能出现在标签内部
7.没有转义的" <" 或者" $"不能出现在元素和属性的字符中
### 二.如何检查XML文档是否是良构的
test.xml如下:
<?xml version="1.0" encoding="utf-8"?> <root> <person age="18"> <name>hzj</name> <sex>man</sex> </person> <person age="19" des="hello"> <name>kiki</name> <sex>female</sex> </person> </root>
#encoding=gbk from xml.etree import ElementTree as ET try: ET.parse('test.xml') print '这是一个良构的XML文档' except Exception,e: print '这不是一个良构的XML文档' print '可能原因:',e运行结果:
这是一个良构的XML文档将根标签最后</root>,换成<root>
运行结果:
这不是一个良构的XML文档 可能原因: no element found: line 11, column 6如果希望获取更加详细信息,可使用lxml模块:
lxml安装方法请参考博客:
http://blog.csdn.net/shirdrn/article/details/7030026
import lxml.etree as ET try: ET.parse('test.xml') print '这是一个良构的XML文档' except Exception,e: print '这不是一个良构的XML文档' print '可能原因:',e运行结果:
这不是一个良构的XML文档 可能原因: Premature end of data in tag root line 11, line 11, column 7
python的标准库没有包含对XML文档的有效性验证功能,所以下面介绍的方法都是基于lxml模块的
#3.1.DTD验证
在DTD(Document Type Definition)文件中说明了XML文档的元素,元素类型以及内容格式,且为这些
组成结构及之间关系定义了相应的规则。
实例解释:
#encoding=utf-8 import lxml.etree as ET from StringIO import StringIO f=StringIO("<!ELEMENT empty EMPTY >") """ 在 DTD 中,XML 元素通过元素声明来进行声明。元素声明使用下面的语法: <!ELEMENT 元素名称 类别> 或者 <!ELEMENT 元素名称 (元素内容)> 元素类别包括四类:EMPTY(空元素),ANY(任意),Mixed(混合),Children(子元素) 上面声明的DTD意思是:元素empty为空 """ dtd=ET.DTD(f) xml=ET.XML("<empty/>") # 符合条件 print dtd.validate(xml) xml=ET.XML("<empty>Hello LXML</empty>") #由于带有内容,所以不符合 print dtd.validate(xml) print dtd.error_log #打印错误信息运行结果:
True False <string>:1:0:ERROR:VALID:DTD_NOT_EMPTY: Element empty was declared EMPTY this one has content这里需要注意一下:
f=StringIO("<!ELEMENT empty EMPTY >")!和Element之间不要有空格,出现空格会报错,信息如下:
Traceback (most recent call last): File "F:\python workspace\Helloworld\xml\dtd.py", line 13, in <module> dtd=ET.DTD(f) File "dtd.pxi", line 41, in lxml.etree.DTD.__init__ (src/lxml/lxml.etree.c:113574) File "dtd.pxi", line 114, in lxml.etree._parseDtdFromFilelike (src/lxml/lxml.etree.c:114222) lxml.etree.DTDParseError: error parsing DTD#3.2 XML Schema验证
最好对XML Schema模式有所了解,XML Schema语言也被称为XML Schema Definition (XSD)W3C在线文档:
点击打开链接
实例解释:
import lxml.etree as ET from StringIO import StringIO f=StringIO(""" <xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema" elementFormDefault="qualified"> <xs:element name="note"> <xs:complexType> <xs:sequence> <xs:element name="to" type="xs:string"/> <xs:element name="from" type="xs:string"/> <xs:element name="heading" type="xs:string"/> <xs:element name="body" type="xs:string"/> </xs:sequence> </xs:complexType> </xs:element> </xs:schema> """) xmlschema_doc=ET.parse(f) xmlschema=ET.XMLSchema(xmlschema_doc) valid_str=StringIO(""" <note> <to>George</to> <from>John</from> <heading>Reminder</heading> <body>Don't forget the meeting!</body> </note> """) xml=ET.parse(valid_str) print xmlschema.validate(xml) valid_str=StringIO(""" <note> <from>John</from> <to>George</to> <heading>Reminder</heading> <body>Don't forget the meeting!</body> </note> """) xml=ET.parse(valid_str) print xmlschema.validate(xml) print xmlschema.error_log运行结果:
True False <string>:3:0:ERROR:SCHEMASV:SCHEMAV_ELEMENT_CONTENT: Element 'from': This element is not expected. Expected is ( to ).错误原因很明显,因为我定义的XML Schema元素是有顺序的。