爬虫—pyquery用法

"""
__coding__ = 'UTF-8'
__author__ = 'bingo'
__date__ = '2020/9/6'
# code is far away from bugs with the god animal protecting
    I love animals. They taste delicious.
             ┏┓   ┏┓
            ┏┛┻━━━┛┻━━┓
            ┃    ☃    ┃
            ┃  ┳┛  ┗┳ ┃
            ┃     ┻   ┃
            ┗━┓     ┏━┛
              ┃     ┗━━━━━┓
              ┃  神兽保佑  ┣┓
              ┃ 永无BUG! ┏┛
              ┗━━━┓┓┏━━┳┓┏┛
                  ┃┫┫  ┃┫┫
                  ┗┻┛  ┗┻┛
"""
import pyquery as pq
html_content = """

"""
html = pq.PyQuery(html_content)

# 1、查找节点
a1 = html.find("li.baidu")
a2 = html("li.baidu")
print(a1)
print(a2)
print(a2 == a1)
# >>> 
  • 百度一下,你就知道
  • # >>>
  • 百度一下,你就知道
  • # >>> True # 2、查找子节点 b = html("li.baidu").children() print(b) # >>> 百度一下,你就知道 # 3、查找父节点 c1 = html("li.baidu").parent() # 获取当前节点的父节点 c2 = html("li.baidu").parents() # 获取当前节点父及祖节点 print(len(c2)) # >>> 2 # 4、查找兄弟节点 d = html("li.baidu").siblings() print(d) # >>>
  • 谷歌搜索
  • # 5、获取属性及文本 e1 = html("li.baidu").attr("name") # 获取属性 e2 = html("li.baidu").text() # 获取文本 e3 = html("li.baidu").html() # 获取纯html内容 print(e1) print(e2) print(e3) # >>> 百度 # >>> 百度一下,你就知道 # >>> 百度一下,你就知道 # 6、伪类选择器 f1 = html("#u1 li:first-child") # 选取第一个li节点 print(f1) # >>>
  • 选电影
  • f2 = html("#u1 li:last-child") # 选取最后一个li节点 print(f2) # >>>
  • 影评
  • f3 = html("#u1 li:nth-child(2)") # 选取第二个li节点 print(f3) # >>>
  • 电视剧
  • f4 = html("#u1 li:gt(3)") # 选取第四个li之后的li节点,索引是从0开始 print(f4) # >>>
  • 影评
  • f5 = html("#u1 li:nth-child(2n)") # 选取2的整数倍的li节点,即偶数位置的li节点 # f5 = html("#u1 li:nth-child(2n+1)") # 选取奇数位置的li节点 print(f5) # >>>
  • 电视剧
  • #
  • 分类
  • f6 = html("#u1 li:contains(分类)") # 选取包含'分类'文本的li节点 print(f6) # >>>
  • 分类
  • 你可能感兴趣的:(爬虫—pyquery用法)