pyquery用法全面总结

  1. 如下, 根据属性值,提取节点
<html>
    <li class="name">zuoyli>
    <li class="age">21li>
    <li id="name">zhangsanli>
    <li id="age">18li>
html>
# 按照属性值,提取姓名
doc = pq(html)
doc('.class').text()  ## zuoy
doc('#name').text()  ## zhangsan

# 或者这样写也行
doc('[class="name"]').text()  ## zuoy
doc('[id="name"]').text()  ## zhangsan
  1. 如下, 提取没有此属性、和又此属性的节点
<html>
    <li class="name">zuoyli>
    <li id="name">zhangsanli>
html>
doc = pq(html)

# 提取有 class 属性的节点
doc('li[class]').text()  ## zuoy

# 提取没有 class 属性的节点
doc('li:not([class])').text()  # zhangsan
  1. 模糊匹配
<html>
    <li class="first name">zuoli>
    <li class="name last">yli>
html>
doc = pq(html)

# 首端匹配
doc('li[class^="first"]').text()  ## zuo

# 末端匹配
doc('li[class$="last"]').text()  ## y

# 包含
doc('li[class*="name"]').text()  ## zuo y
  1. 根据内容关键字,匹配节点
<html>
    <li class="text">张三中奖了li>
    <li class="text">李四结婚了li>
html>

doc = pq(html)
doc('li:contains("张三")').text()  # 张三中奖了
  1. 节点有多个属性值时,如何匹配?与、或、非
<html>
    <li class="text" name="" id=""> 张三中奖了li>
    <li class="text" name="" id=""> 李三结婚了li>
    <li id=""> 张三要饭了li>
html>
doc = pq(html)

# 与运算
doc('li[class][name="张"]').text()  # 张三中奖了

# 或运算
doc('[class][name="张"], [class][id="三"]').text()  # 张三中奖了

# 非运算
doc('li:not([class])').text()  # 张三要饭了
  1. 提取节点内容或属性值
<html>
    <li1 class="text"> 张三中奖了li>
    <li2 text="李四结婚了">li>
html>
doc = pq(html)

# 提取节点值
doc('li1').text()  ## 张三中奖了

# 提取属性值
doc('li2').attr.text  ## 李四结婚了

你可能感兴趣的:(spiders)