cssselect用法

# cssselector:和xpath是使用比较多的两种数据提取方式。

# scrapy爬虫框架:支持xpath/css
# pyspider爬虫框架:支持PyQuery,也是通过css样式选择器实现的

# pip install cssselector

import cssselect
from lxml.html import etree

html = """
   

       

               
  • 哈哈

  •            
  • Two

  •            
  • Three

  •            
  • Four

  •            

                    百度一下
                   

    第一段


                   

    第2段


                   

    第3段


                   


                        第4段
                        法大师傅大师傅
                   


                   

    第5段


                   

    第6段


               

           

   

"""

html_obj = etree.HTML(html)
span = html_obj.cssselect('.list > .four')[0]
print(span.text) # 获取文本内容
# print(help(span))
# print(span.attrib['id']) # 获取属性:是一个字典

你可能感兴趣的:(cssselect用法)