BeautifuSoup和Pyquery解析库方法比较

1.对象初始化:

BeautifySoup库:

from bs4 import BeautifulSoup 
html = 'html string......'
soup = BeautifulSoup(html, 'lxml')

Pyquery库:

from pyquery import PyQuery as pq
# 以字符串初始化
html = 'html string...'
doc = pq(html)
# 以url初始化
doc = pq(url='https://....')
# 以文件初始化
doc = pq(filename='XXX.html')

2. 节点属性获取:

BeautifuSoup库:

# 在根据节点选择器、方法选择器或者CSS选择器,选择出节点(例如:li)后,两种方法获取属性值
value = li['attr_name']
value = li.attrs['attr_name']

Pyquery库:

# 在根据CSS选择器定位到节点(例如li)后,两种方法获取属性值
value = li.attr.attr_name
value = li.attr('attr_name')

3. 文本内容获取:

BeautifulSoup库:

# 在根据节点选择器、方法选择器或者CSS选择器,选择出节点(例如:li)后,两种方法获取属性值
text = li.string
text = li.get_text()

Pyquery库:

# 在根据CSS选择器定位到节点(例如li)后
text = li.text()

转载于:https://www.cnblogs.com/strivepy/p/9253311.html#_label0

你可能感兴趣的:(网络爬虫)