scrapy爬虫选择器css选择器、xpath选择器

1.css选择器

css即层叠样式表, 用来确定html中某部分位置的语言。
scrapy爬虫选择器css选择器、xpath选择器_第1张图片

css选择器在找节点上比较方便,css选择器不如xpath选择器强大,但获取标签的属性值较困难。

2.xpath选择器

xpath即xml路径语言,是一种用来确定xml文档(html是xml的子集)中某部分位置的语言。
xml是一系列节点构成的树型结构,xpath就是通过找节点来定位元素的。
scrapy爬虫选择器css选择器、xpath选择器_第2张图片
xml的节点主要有4种

  • 根节点(整个树的根)
  • 元素节点 (标签节点 如 html、div等)
  • 属性节点 (标签的属性 如 href、class等)
  • 文本节点 (标签包围的字符串 如 div、a等标签包含的文本内容)

xml节点间的几种关系

<html>
   <body>
   		<div class="book">123<div>
   		<a href="http://www.baidu.com">百度<a>
   body>
html>
... '''
  • 父子 (当一个html标签中包含另一个html标签时,外、内标签为父、子节点 如:html标签(父)和body标签(子))
  • 兄弟 (同一个标签下相同的两个标签互为兄弟标签 如:div和a标签互为兄弟)
  • 祖先/后裔 (与父子标签类似但标签的包含关系超过一级,标签内部相对于外部的称为后裔,外部相对于内部称为祖先 如:html是div的祖先,div是html的后裔)
    xpath选择器语法
    scrapy爬虫选择器css选择器、xpath选择器_第3张图片
    // 通常用来表示跳越多个层次的节点(可以理解为可以省略前面n多个节点直接进入内节点)
    / 用来表示下一级(必须是下一级紧邻的标签)
    示例可以参考xpath安装与使用的使用部分。
    xpath工具(XPath Helper) 这是一个谷歌插件,可以用来检查表达式的书写是否正确,方便检查和调整xpath表达式。xpath安装与使用请点此。

你可能感兴趣的:(python,html,xpath,css,定位,爬虫)