爬虫: 页面解析 -- css选择器的使用

摘要

css选择器作为页面样式表的选择器,具有十分简便的语法规则,对前端了解的人一定会喜欢用一种熟悉的方式去选择页面中的元素;那么,python中的lxml模块中的cssselect就是很好的选择

说明

对应css选择器的语法规则这里并不详细说明,因为这是属于css样式表的范畴。
以下代码默认已导入lxml中的etree

    from lxml import etree

解析过程如下:

  1. 通过html页面内容生成selector
  2. 通过selector的cssselect方法获取元素

例如:

    # html内容
    html = "

123

" # 生成解析html的selector selector = etree.HTML(html) a = selector.cssselect("a")[0] print(a.text) # 123

上面代码实现了输出a标签的文本内容

你可能感兴趣的:(爬虫: 页面解析 -- css选择器的使用)