做过前端开发的同志都应该知道或了解过 jQquery,jQuery 是一个用来处理 DOM 的 JavaScript 库 。pyquery 说白了就是 jQquery 的 Python 版本。不得不说 pyquery 在爬虫网页解析上的又一大神器。
pyquery 相当于 juquery 一样的 Python 库,它有类似于 jQuery 的 API 且可以通过 lxml 模块快速处理 XML 和 HTML 文档,具体可以查看 pyquery – PyQuery complete API 。
下面所有实例的开头声明都如下
from pyquery import PyQuery as pq
from lxml import etree
import urllib
这里有四种初始化方法
1.直接字符串
# pyquery 的四种初始化方式
# pq 参数可以直接传入 HTML 代码,doc 现在就相当于 jQuery 里面的 $ 符号。
doc=pq("")
2.lxml.etree 方法处理
#先用 lxml 的 etree 处理一下代码,这样如果你的 HTML 代码出现一些不完整或者疏漏,都会自动转化为完整清晰结构的 HTML代码。
doc = pq(etree.fromstring(""))
3.直接传 URL
# 这里就像直接请求了一个网页一样,类似用 urllib 来直接请求这个链接,得到 HTML 代码。
doc = pq('http://www.baidu.com',encoding='utf-8')
4.传文件路径
# 可以直接传某个路径的文件名。
doc = pq(filename='hello.html')
1.添加、切换、移除 Css
# css
p = pq('')('p')
p.attr("class")
# 添加
p.addClass("toto")
print(p)
# 切换
p.toggleClass("titi toto")
print(p)
# 移除
p.removeClass("titi")
print(p)
输出如下
id="hello" class="one toto"/>
id="hello" class="one titi"/>
id="hello" class="one"/>
2.操作 Css 样式
#Or the css style:
p.css("font-size", "15px")
print(p)
p.attr("style")
p.css({"font-size": "17px"})
print(p)
输出如下
id="hello" class="one" style="font-size: 15px"/>
id="hello" class="one" style="font-size: 17px"/>
3.以更加 Pythonic 的方式完成同样的功能
#更加 pythonic 的方法 ,Css属性的获取与操作
p.css.font_size = "16px"
print(p.attr.style)
p.css['font-size'] = "15px"
print(p.attr.style)
p.css(font_size="17px")
print(p.attr.style)
p.css = {"font-size": "18px"}
print(p.attr.style)
输出如下
font-size: 16px
font-size: 15px
font-size: 17px
font-size: 18px
在 html 中,有 type
属性,支持语法 。这里的匹配的 Css 元素,就相对于
html
中的属性值。
如下是使用使用伪类匹配 Css 元素列表
名称 | 含义 |
---|---|
:button | 匹配所有按钮输入元素和按钮元素 |
:checkbox | 匹配所有复选框输入元素 |
:checked | 匹配选中的元素,下标从0开始 |
:child | 右边是左边的直接子元素 |
:contains() | 包含元素 |
:descendant | 右边是左边的子元素、孙元素或者更远的后继元素 |
:disabled | 匹配所有被禁用的元素 |
:empty | 匹配所有不包括任何其他元素的元素 |
:enabled | 匹配所有启用的元素 |
:eq() | 使用下标匹配 |
:even | 从下标0开始,匹配所有偶数元素 |
:file | 匹配所有文件类型的输入元素 |
:first | 匹配第一个被选择的元素 |
:gt() | 匹配下标大于指定值的元素 |
:has() | 匹配包含至少一个匹配元素的元素 |
:header | 匹配所有标题元素 |
:hidden | 匹配所有隐藏的输入元素 |
:image | 匹配所有图像输入元素 |
:input | 匹配所有输入元素 |
:last | 匹配最后一个选择的元素 |
:lt() | 匹配所有下标小于指定值的元素 |
:odd | 匹配奇元素,下标从0开始 |
:parent | 匹配所有包含其他元素的元素 |
:password | 匹配所有密码输入元素 |
:pseudo | 翻译一个伪元素(默认不支持伪元素,但可以被子类覆盖) |
:radio | 匹配单选按钮输入元素 |
:reset | 匹配所有重置输入元素 |
:selected | 匹配所有被选中的元素 |
:submit | 匹配所有提交输入元素 |
:text | 匹配所有文本输入元素 |
下面是一些使用案例
html='''
<html>
<head>
<title>一个 HTML 页面title>
head>
<body>
<p>body 元素的内容会显示在浏览器中。p>
<p>title 元素的内容会显示在浏览器的标题栏中。p>
<p>有序列表:p>
<ol>
<li>playli>
<li>asli>
<li>a pythonerli>
ol>
<input type="reset"/>
<div><input type="file"/>div>
<select><option selected="selected"/>select>
<div><input type="button"/>按钮div>
<div><input type =“checkbox”/>复选框 div>
<div> <input checked =“checked”/>checked div>
<input type="button" value="点我" onclick="msg()">
<input type="hidden" name="country" value="Norway">
<br><input type="radio" name="gender" value="male"> Malebr>
<div><input type="password" name="pwd">密码框div>
<p>sayp>
<ul>
<li>doli>
<li>somethingli>
<li>easierli>
ul>
<div><input type="checkbox"/>单选框div>
body>
html>
'''
pseudo_doc=pq(html)
print(pseudo_doc(':reset '))
print(pseudo_doc(':file '))
print(pseudo_doc(':selected '))
print(pseudo_doc(':checked '))
print(pseudo_doc(':button'))
print(pseudo_doc(':password'))
print(pseudo_doc(':hidden '))
print(pseudo_doc(':radio '))
输出如下
type="reset"/>
type="file"/>
<option selected="selected"/>
"“checked”/"/>checked div>
type="button"/>按钮type="button" value="点我" onclick="msg()"/>
type="password" name="pwd"/>密码框
type="hidden" name="country" value="Norway"/>
type="radio" name="gender" value="male"/> Male
1.向标签的尾部追加元素
下面是个实例
d = pq('<p class="hello" id="hello">you know Python rocksp>')
d('p').append(' check out <a href="http://reddit.com/r/python"><span>redditspan>a>')
print(d)
输出
<p class="hello" id="hello">you know Python rocks check out <a href="http://reddit.com/r/python"><span>redditspan>a>p>
2.向标签的开头追加元素
下面是个实例
d = pq('you know Python rocks
')
p = d('p')
#print(p)
p.prepend('check out reddit')
print(p.html())
输出
check out <a href="http://reddit.com/r/python">reddita>you know Python rocks
3.在其他元素之前或者之后追加元素
下面是个实例
d = pq('you know Python rocks')
p = d('p')
d = pq('')
p.prependTo(d('#test'))
print(d('#test').html())
输出
<p class="hello" id="hello">you know Python rocksp><a href="http://python.org">pythona> !
4.在其他元素之后插入元素
下面是个实例
from pyquery import PyQuery as pq
from lxml import etree
import urllib
html='''
<html>
<body>
<div id="test"><a href="http://python.org">pythona> !div>
body>
html>
'''
d=pq(html)
p = pq('<p class="hello" id="hello">you know Python rocksp>')
p.insertAfter(d('#test'))
print(d('body').html())
输出
<div id="test"><a href="http://python.org">pythona> !div>
<p class="hello" id="hello">you know Python rocksp>
5.在其他元素之前插入元素
下面是个实例
from pyquery import PyQuery as pq
from lxml import etree
import urllib
html='''
<html>
<body>
<div id="test"><a href="http://python.org">pythona> !div>
body>
html>
'''
d=pq(html)
p = pq('<p class="hello" id="hello">you know Python rocksp>')
p.insertBefore(d('#test'))
print(d('body').html())
输出
<p class="hello" id="hello">you know Python rocksp><div id="test"><a href="http://python.org">pythona> !div>
6.对每个元素执行操作
下面是个实例
p.each(lambda i, e: pq(e).addClass('hello2'))
print(p)
输出
<p class="hello hello2" id="hello">you know Python rocksp>
7.移除一个元素
下面是个实例
d = pq('Yeah!python rocks !
输出
<html><body><p>python rocks !p>body>html>
8.移除选中元素的内容
下面是个实例
d = pq('Yeah!python rocks !
输出
<p id="id"/><p/>
9.获得修改后的html内容
下面是个实例
print(d)
输出
<html><body><p id="id"/><p/>body>html>
10.生成html片段
下面是个实例
from pyquery import PyQuery as pq
print(pq('Yeah !').addClass('myclass') + pq('cool'))
输出
<div class="myclass">Yeah !div><b>coolb>
11.移除所有命名空间
下面是个实例
from pyquery import PyQuery as pq
print(pq('Yeah!python rocks !
输出
<html><body><p id="id">Yeah!p><p>python rocks !p>body>html>
<html><body><p id="id"/><p/>body>html>
1.使用字符串选择器过滤选择列表
下面是个实例
from pyquery import PyQuery as pq
from lxml import etree
d = pq('')
#选择 id=hello 的信息
p=d('p').filter('.hello')
print(p)
输出
<p id="hello" class="hello"><a/>p>
2.使用eq选择器选中单个元素
下面是个实例
d = pq('')
p=d('p').eq(0)
print(p)
输出
<p id="hello" class="hello1"><a/>p>
3.找出嵌套元素
下面是个实例
d = pq('''这是 w3school 链接地址:W3School
''')
print(d('p').find('a'))
输出
<a href="http://www.w3school.com.cn">W3Schoola>
4.支持使用 end
从一级遍历中跳出
下面是个实例
d = pq('''这是 w3school 链接地址:W3School
''')
print(d('p').find('a').end())
print(d('p').eq(0).end())
print(d('p').filter(lambda i: i == 1).end())
输出
<p>这是 w3school 链接地址:<a href="http://www.w3school.com.cn">W3Schoola>p>
<p>这是 w3school 链接地址:<a href="http://www.w3school.com.cn">W3Schoola>p>
<p>这是 w3school 链接地址:<a href="http://www.w3school.com.cn">W3Schoola>p>
5.注意标点的转义
下面是个实例
d = pq(
'''<html><body>
<p id="hello.you">textp>
<p>这是 w3school 链接地址:<a href="http://www.w3school.com.cn">W3Schoola>p>body>html>''')
print(d('#hello\.you'))
输出
<p id="hello.you">textp>
1.Pyquery 可以从一个 url 加载为 html 文档
下面是个实例
url="https://www.baidu.com/"
p=pq(url)
print(p)
输出限于篇幅,请自行查看
2.如果安装了 requests
就使用 requests
。可以使用大部分requests
的参数。
下面是个实例
d=pq(url=url, headers={'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'})
print(d)
输出限于篇幅,请自行查看
else
pq (your_url , { 'q' : 'foo' }, method = 'post' , verify = True )
[<html>]
1.可以使链接转化为绝对链,在屏幕抓取时还会比较有用
>>> d = pq(url=your_url, parser='html')
>>> d('form').attr('action')
'/form-submit'
>>> d.make_links_absolute()
[]
2.使用不同的解析器
默认的情况下,pyquery 使用 lxml 中的 lxml 解析器且如果它不能工作的话,可以尝试lxml.html
中的 html 解析器。xml 解析器在解析 xhtml 页面时可能出现一些问题,因为解析器不会抛出错误,而是给出一个无用的树。
可以显式地声明使用哪一个解析器:
>>> pq('<html><body><p>totop>body>html>', parser='xml')
[<html>]
>>> pq('<html><body><p>totop>body>html>', parser='html')
[<html>]
>>> pq('<html><body><p>totop>body>html>', parser='html_fragments')
[<p>]
其中,html
和 html_fragments
解析器都在 lxml.html
当中。
这一 Part 是实战过程中使用最频繁的内容,浏览器自带 Css 选择器,可以直接通过右键 Copy 获取所需的 Css 样式。可以直接查看 CSS 选择器参考手册 。
在 CSS 中,选择器是一种模式,用于选择需要添加样式的元素。”CSS” 列指示该属性是在哪个 CSS 版本中定义的。(CSS1、CSS2 还是 CSS3。)
下面是 Css 选择器
引入一个用于测试的 doc
from pyquery import PyQuery as pq
from lxml import etree
doc = pq('https://www.python.org/',encoding='utf-8')
print(doc)
输出由于篇幅限制,可以自行运行查看
下面是一些实例
#打印 id为 downloads 的标签
print(doc('#downloads'))
print(type(doc('#downloads')))
#打印 class 为 python 的标签
print(doc(".python"))
#打印标签名为 body 的标签
print(doc('body'))
#多种css选择器使用
print(doc('html #downloads'))
输出由于篇幅限制,可以自行运行查看
更多有关选择器的知识可以查看:
CSS3 选择器——基本选择器 、CSS3 选择器——属性选择器 、CSS3 选择器——伪类选择器 。