Python与xml之解析篇

  1. # parsexml.py  
  2. # 本例子参考自python联机文档,做了适当改动和添加  
  3.   
  4. import xml.parsers.expat  
  5.   
  6. # 控制打印缩进  
  7. level = 0  
  8.   
  9. # 获取某节点名称及属性值集合  
  10. def start_element(name, attrs):  
  11.     global level  
  12.     print '  '*level, 'Start element:', name, attrs  
  13.     level = level + 1  
  14.   
  15. # 获取某节点结束名称  
  16. def end_element(name):  
  17.     global level  
  18.     level = level - 1  
  19.     print '  '*level, 'End element:', name  
  20.       
  21. # 获取某节点中间的值  
  22. def char_data(data):  
  23.     if(data == '/n'):  
  24.         return  
  25.     if(data.isspace()):  
  26.         return  
  27.     global level  
  28.     print '  '*level, 'Character data:', data  
  29.   
  30. p = xml.parsers.expat.ParserCreate()  
  31.   
  32. p.StartElementHandler = start_element  
  33. p.EndElementHandler = end_element  
  34. p.CharacterDataHandler = char_data  
  35. p.returns_unicode = False  
  36.   
  37. f = file('sample.xml')  
  38. p.ParseFile(f)  
  39. f.close()  


        测试用例:

xml 代码:sample.xml
 
  1. xml version="1.0"?>  
  2. <contacts id="bluecrystal">  
  3. <item name="keen" fff="ddd">  
  4.     <telephone type="phone">222222222 telephone>  
  5.     <telephone type="mobile">134567890 telephone>  
  6. item>  
  7. <item name="bcm">  
  8.     <telephone type="phone">11111111 telephone>  
  9.     <telephone type="mobile">15909878909 telephone>  
  10. item>  
  11. contacts>  

       
        测试结果:

  1. Start element: contacts {'id': 'bluecrystal'}  
  2.   Start element: item {'fff': 'ddd', 'name': 'keen'}  
  3.     Start element: telephone {'type': 'phone'}  
  4.       Character data: 222222222  
  5.     End element: telephone  
  6.     Start element: telephone {'type': 'mobile'}  
  7.       Character data: 134567890  
  8.     End element: telephone  
  9.   End element: item  
  10.   Start element: item {'name': 'bcm'}  
  11.     Start element: telephone {'type': 'phone'}  
  12.       Character data: 11111111  
  13.     End element: telephone  
  14.     Start element: telephone {'type': 'mobile'}  
  15.       Character data: 15909878909  
  16.     End element: telephone  
  17.   End element: item  
  18. End element: contacts  
 

 

 转贴请注明出处http://blog.csdn.net/porcupinefinal

       网上关于xml文件解析的例子多如牛毛,用python解析的也不少,在百度输入python xml就会出来不少结果。我也是从这些例子和文章中学的,所以会有类似的地方,当然我也会加入自己的一些体会。

       《dive into python》第五章对这一部分有较详尽的讲解,如果你不喜欢看英文的话,可到这个网站:http://www.chinesepython.org/pythonfoundry/limodoupydoc/dive/html/toc.html查阅。

       下边开始我们的xml解析之旅:

       处理xml有两种方法:

FIRST:SAX—Simple API for XML。它的工作方式是,一次读出一点XML,对发现的每个元素调用一个方法。SAX是 XML 语法分析器的公用语法分析器接口。它允许应用程序作者编写使用 XML 语法分析器的应用程序,但是它却独立于所使用的语法分析器。(将它看作 XML 的 JDBC。)(Lars Marius Garshol,SAX for Python)

功能:基本上是一个 XML 文档的顺序处理器。应用程序员将定义一个 handler 类,而不是语法分析器类,该 handler 类能注册到任何所使用的语法分析器中。必须定义 4 个 SAX 接口(每个接口都有几个方法):DocumentHandler、DTDHandler、EntityResolver 和 ErrorHandler。创建语法分析器除非被覆盖,否则它还连接默认接口。

 

SECOND:DOM—Document Object Model。它的工作方式是,一次读出整个XML文档,通过将本地的Python类链接到一个树型结构中,生成文档的一个内部表示。

 

这篇文章里我主要用的是SAX这种方法(在dive into python一书中用的是DOM这种方式,我将在下一篇文章python与xml之更新篇中用这种方法举例如何增加、更新及删除xml文件中的某个节点。)我之所以选择这种方法是因为关于用DOM来解析xml的文章实在太多,没有什么从新写的必要,网上也有人说用DOM解析较大的xml文件时效率较低的问题(自己没有测试过,有人说是5M的文件要解析20分钟。。。是够慢的),所以我选择了用SAX来解析xml。

 

       示例:(该示例转载自ibm上可爱的python系列)

       import string

import xml.sax

from xml.sax.handler import *

 

classQuotationHandler(ContentHandler):

    """Crude extractor for quotations.dtd compliant XML document"""

    def __init__(self):

        self.in_quote = 0

        self.thisquote = ''

    def startDocument(self):

        print '--- Begin Document ---'

    def startElement(self, name, attrs):

        if name == 'quotation':

            print 'QUOTATION:'

            self.in_quote = 1

        else:

            self.thisquote = self.thisquote + '{'

    def endElement(self, name):

        if name == 'quotation':

            print string.join(string.split(self.thisquote[:230]))+'...',

            print '('+str(len(self.thisquote))+' bytes)/n'

            self.thisquote = ''

            self.in_quote = 0

        else:

            self.thisquote = self.thisquote + '}'

    def characters(self, ch):

        if self.in_quote:

            self.thisquote = self.thisquote + ch

if __name__ == '__main__':

    parser = xml.sax.make_parser()

    handler = QuotationHandler()

    parser.setContentHandler(handler)

    parser.parse("sample.xml")

       要点:

1、  注意黑体加粗部分,首先继承ContentHandler,构造自己的handler;

2、  剩下的startElement、endElement、characters三个接口必须实现,startElement和endElement主要用于解析形如北理的结构,当处理器进入时将in_quote置为1,在characters中将“北理”这个值赋于self.thisquote然后在endElement中可通过self.thisquote获得“北理”这一值;

3、  形如的解析在startElement中进行,通过attrsattrs.get('id', None)获得“09120016”这一值。(在这个示例里没有,如有不明白的可以发email给我[email protected]);

4、  parse() 方法处理整个流或字符串,所以不必为语法分析器创建循环;

5、  parse() 同样能灵活地接收一个文件名、一个文件对象,或是众多的类文件对象(一些具有 .read() 方式)


本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/porcupinefinal/archive/2006/03/19/629383.aspx

 

///////////////////////////////////////////////////////////
首先:xml文件(tree.xml)内容如下:



山东省
_blank
省份


威海市
_blank
城市



烟台市
_blank
城市


长夼村
_blank
乡镇
http://www.baidu.com/



富镇
_blank
乡镇
http://www.baidu.com/




河北省
_blank
省份


泊头市
_blank
城市


郊河
_blank
乡镇
http://www.baidu.com/



石家庄
_blank
城市





浙江省
_blank
省份


杭州市
_blank
城市


某镇
_blank
乡镇
http://www.baidu.com/



温州市
_blank
城市


某镇
_blank
乡镇
http://www.baidu.com/




//////////////////////////////////////////////////////
然后:javascript函数实现:(文件名称:tree.htm)






JS_XML









//////////////////////////////////////////////////////////
运行,要在同一个路径下!

你可能感兴趣的:(python,work,record)