lxml库 xpath

Author| 尘世gu行
                          转载请注明出处 练习代码为网上选取,如有侵权联系删除

lxml 是 一个HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 数据。
lxml和正则一样,也是用 C 实现的,是一款高性能的 Python HTML/XML 解析器,我们可以利用之前学习的XPath语法,来快速的定位特定元素以及节点信息。
lxml python 官方文档:http://lxml.de/index.html
需要安装C语言库,可使用 pip 安装:pip install lxml(或通过wheel方式安装)

初步使用

我们利用它来解析 HTML 代码,简单示例:

# lxml_test.py

# 使用 lxml 的 etree 库
from lxml import etree 

text = '''
''' #利用etree.HTML,将字符串解析为HTML文档 html = etree.HTML(text) # 按字符串序列化HTML文档 result = etree.tostring(html) print(result)

输出结果:




lxml 可以自动修正 html 代码,例子里不仅补全了 li 标签,还添加了 body,html 标签。

文件读取

除了直接读取字符串,lxml还支持从文件里读取内容。我们新建一个hello.html文件:




再利用 etree.parse() 方法来读取文件。

# lxml_parse.py

from lxml import etree

# 读取外部文件 hello.html
html = etree.parse('./hello.html')
result = etree.tostring(html, pretty_print=True)

print(result)

输出结果与之前相同:




XPath实例测试

1. 获取所有的
  • 标签
  • # xpath_li.py
    
    from lxml import etree
    
    html = etree.parse('hello.html')
    print type(html)  # 显示etree.parse() 返回类型
    
    result = html.xpath('//li')
    
    print result  # 打印
  • 标签的元素集合 print len(result) print type(result) print type(result[0])
  • 输出结果:

    
    [, , , , ]
    5
    
    
    
    2. 继续获取
  • 标签的所有 class属性
  • # xpath_li.py
    
    from lxml import etree
    
    html = etree.parse('hello.html')
    result = html.xpath('//li/@class')
    
    print result
    

    运行结果

    ['item-0', 'item-1', 'item-inactive', 'item-1', 'item-0']
    
    3. 继续获取
  • 标签下hre 为 link1.html 的 标签
  • # xpath_li.py
    
    from lxml import etree
    
    html = etree.parse('hello.html')
    result = html.xpath('//li/a[@href="link1.html"]')
    
    print result
    

    运行结果

    []
    
    4. 获取
  • 标签下的所有 标签
  • # xpath_li.py
    
    from lxml import etree
    
    html = etree.parse('hello.html')
    
    #result = html.xpath('//li/span')
    #注意这么写是不对的:
    #因为 / 是用来获取子元素的,而  并不是 
  • 的子元素,所以,要用双斜杠 result = html.xpath('//li//span') print result
  • 运行结果

    []
    
    5. 获取
  • 标签下的标签里的所有 class
  • # xpath_li.py
    
    from lxml import etree
    
    html = etree.parse('hello.html')
    result = html.xpath('//li/a//@class')
    
    print result
    

    运行结果

    ['blod']
    
    6. 获取最后一个
  • 的 href
  • # xpath_li.py
    
    from lxml import etree
    
    html = etree.parse('hello.html')
    
    result = html.xpath('//li[last()]/a/@href')
    # last() 可以找到最后一个元素
    
    print result
    

    运行结果

    ['link5.html']
    
    7. 获取倒数第二个元素的内容
    # xpath_li.py
    
    from lxml import etree
    
    html = etree.parse('hello.html')
    result = html.xpath('//li[last()-1]/a')
    
    # text 方法可以获取元素内容
    print result[0].text
    

    运行结果

    fourth item
    
    8. 获取 class 值为 bold 的标签名
    # xpath_li.py
    
    from lxml import etree
    
    html = etree.parse('hello.html')
    
    result = html.xpath('//*[@class="bold"]')
    
    # tag方法可以获取标签名
    print result[0].tag
    

    运行结果

    span
    
    9. 模糊查询
    from lxml import etree
    
    html = etree.parse('hello.html')
    #               xx[contains(@属性,"查询条件(模糊 %a%)")]
    result = html.xpath('//li[contains(@class, "1")]')
    print result
    
    

    个人总结:

    1.要使用xpath必须导入lxml库 : from lxml import etree
    2.要把爬下来的字符串解析为 html 文档 html = etree.HTML(text) 或者 html = etree.parse('./hello.html')

    1. xpath返回的是一个列表

    你可能感兴趣的:(lxml库 xpath)