网络爬虫css选择器知识贴(一)

css选择器:

  1. #container 选择id为container的元素
  2. .container 选择所有class包含container的元素
  3. * 选择所有元素
  4. div a 选取所有div下所有a元素
  5. ul + p 选取ul后面的第一个p元素
  6. ul ~p 选取与ul相邻的所有p元素
  7. a:nth-child(2) 选取下面第二个标签,如果是a的话则选取,不是则不取
  8. a:nth-child(2n) 选取第偶数个a元素
  9. a:nth-child(2n+1) 选取第奇数个a元素
  10. li.multi-chosen > a 选取class为multi-chosen的li的所有a元素
  11. a[title] 选取所有拥有title属性的a元素
  12. a[href=”https://www.lagou.com/jobs/3537439.html”] 选取所有href属性为https://www.lagou.com/jobs/3537439.html的a元素
  13. a[href*=”www.lagou.com”] 选取所有href属性值中包含www.lagou.com的a元素
  14. a[href^=”http”] 选取所有href属性值中以http开头的a元素
  15. div:not(#content-container) 选取所有id为非content-container 的div

 

css实例:

response.css('title::text').extract()        输出标签title的文本内容

response.css('base::attr(href)').extract()   输出标签base的属性href的内容

response.css('a[href*=image]::attr(href)').extract()     输出属性href内容中含有image的标签a的属性href的内容

response.css('a[href*=image] img::attr(src)').extract()   输出属性href内容中含有image的标签a下面的标签img的属性src的内容

response.xpath('//a[contains(@href, "image")]/text()').re_first(r'Name:\s*(.*)')    使用正则表达式:

               

Name: My image 1
 

                输出:     u'My image 1'

 

你可能感兴趣的:(爬虫,Python)