Python爬虫之PyQuery解析库的使用

本文为笔者根据Python静觅教程记录笔记，仅供学习使用

PyQuery解析库跟BeautifulSoup解析库一样都是方便我们解析文档的，但是PyQuery解析库跟JS的框架JQuery很相似，如果之前接触过JQuery的话，再学习这个就没有什么学习成本了。

1.初始化

字符串初始化

html = '''

    
         first item
         second item
         third item
         fourth item
         fifth item
     
 
'''
from pyquery import PyQuery as pq
doc = pq(html)
print(doc('li'))

运行结果：

运行结果图

URL初始化

from pyquery import PyQuery as pq
doc = pq(url='http://www.baidu.com')
print(doc('head'))

运行结果：

运行结果图

文件初始化

from pyquery import PyQuery as pq
doc = pq(filename='demo.html')
print(doc('li'))

运行结果：

运行结果图

2.基本CSS选择器

html = '''

    
         first item
         second item
         third item
         fourth item
         fifth item
     
 
'''
from pyquery import PyQuery as pq
doc = pq(html)
print(doc('#container .list li'))

运行结果：

运行结果图

3.查找元素

子元素

html = '''

    
         first item
         second item
         third item
         fourth item
         fifth item
     
 
'''
from pyquery import PyQuery as pq
doc = pq(html)
items = doc('.list')
print(type(items))
print(items)
lis = items.find('li')
print(type(lis))
print(lis)

运行结果：

运行结果图

lis = items.children()
print(type(lis))
print(lis)

运行结果：

运行结果图

lis = items.children('.active')
print(lis)

运行结果：

运行结果图

父元素

html = '''

    
         first item
         second item
         third item
         fourth item
         fifth item
     
 
'''
from pyquery import PyQuery as pq
doc = pq(html)
items = doc('.list')
container = items.parent()
print(type(container))
print(container)

运行结果：

运行结果

html = '''

    
        
             first item
             second item
             third item
             fourth item
             fifth item
         
     
 
'''
from pyquery import PyQuery as pq
doc = pq(html)
items = doc('.list')
parents = items.parents()
print(type(parents))
print(parents)

运行结果：

运行结果图

parent = items.parents('.wrap')
print(parent)

运行结果：

运行结果图

兄弟元素

html = '''

    
        
             first item
             second item
             third item
             fourth item
             fifth item
         
     
 
'''
from pyquery import PyQuery as pq
doc = pq(html)
li = doc('.list .item-0.active')
print(li.siblings())

运行结果：

运行结果图

html = '''

    
        
             first item
             second item
             third item
             fourth item
             fifth item
         
     
 
'''
from pyquery import PyQuery as pq
doc = pq(html)
li = doc('.list .item-0.active')
print(li.siblings('.active'))

运行结果：

运行结果图

4.遍历

单个元素

html = '''

    
        
             first item
             second item
             third item
             fourth item
             fifth item
         
     
 
'''
from pyquery import PyQuery as pq
doc = pq(html)
li = doc('.item-0.active')
print(li)

运行结果：

运行结果图

多个元素

html = '''

    
        
             first item
             second item
             third item
             fourth item
             fifth item
         
     
 
'''
from pyquery import PyQuery as pq
doc = pq(html)
lis = doc('li').items()
print(type(lis))
for li in lis:
    print(li)

运行结果：

运行结果图

5.获取信息

获取属性

html = '''

    
        
             first item
             second item
             third item
             fourth item
             fifth item
         
     
 
'''
from pyquery import PyQuery as pq
doc = pq(html)
a = doc('.item-0.active a')
print(a)
print(a.attr('href'))
print(a.attr.href)

运行结果：

运行结果图

获取文本

html = '''

    
        
             first item
             second item
             third item
             fourth item
             fifth item
         
     
 
'''
from pyquery import PyQuery as pq
doc = pq(html)
a = doc('.item-0.active a')
print(a)
print(a.text())

运行结果：

运行结果图

获取HTML

html = '''

    
        
             first item
             second item
             third item
             fourth item
             fifth item
         
     
 
'''
from pyquery import PyQuery as pq
doc = pq(html)
li = doc('.item-0.active')
print(li)
print(li.html())

运行结果：

运行结果图

6.DOM操作

addClass、removeClass

html = '''

    
        
             first item
             second item
             third item
             fourth item
             fifth item
         
     
 
'''
from pyquery import PyQuery as pq
doc = pq(html)
li = doc('.item-0.active')
print(li)
li.removeClass('active')
print(li)
li.addClass('active')
print(li)

运行结果：

运行结果图

attr、css

html = '''

    
        
             first item
             second item
             third item
             fourth item
             fifth item
         
     
 
'''
from pyquery import PyQuery as pq
doc = pq(html)
li = doc('.item-0.active')
print(li)
li.attr('name', 'link')
print(li)
li.css('font-size', '14px')
print(li)

运行结果：

运行结果图

remove

html = '''

    Hello, World
    This is a paragraph.
 
'''
from pyquery import PyQuery as pq
doc = pq(html)
wrap = doc('.wrap')
print(wrap.text())
wrap.find('p').remove()
print(wrap.text())

运行结果：

运行结果图

其他DOM方法
http://pyquery.readthedocs.io/en/latest/api.html

7.伪类选择器

html = '''

    
        
             first item
             second item
             third item
             fourth item
             fifth item
         
     
 
'''
from pyquery import PyQuery as pq
doc = pq(html)
li = doc('li:first-child')
print(li)
li = doc('li:last-child')
print(li)
li = doc('li:nth-child(2)')
print(li)
li = doc('li:gt(2)')
print(li)
li = doc('li:nth-child(2n)')
print(li)
li = doc('li:contains(second)')
print(li)

运行结果：

运行结果图

Python爬虫之PyQuery解析库的使用

1.初始化

2.基本CSS选择器

3.查找元素

4.遍历

5.获取信息

6.DOM操作

7.伪类选择器

你可能感兴趣的:(Python爬虫之PyQuery解析库的使用)