本篇阅读时间约为 8 分钟。
1
前言
上篇
2
穷游网目标与分析
二、看源码,分析元素节点。
F12 查看当前网页源代码:
https://place.qyer.com/japan/citylist-0-0-1/
选中下图区域,可以看到这是一个 ul 标签,class 为 plcCitylist 。
ul:unordered list,“无序列表”的意思。
class 为 plcCitylist ,全局检索一下,ul 标签的 class 值唯一:
在这个无序标签里,有许多 li 标签,class 为 item+数字。
li:list item,“列表项”的意思。
城市名字:包含在 a 标签中。
去过的人数:包含在 h3 标签中,且在 p 标签中,class 为 beenton 中。
详情景点:包含在 h3 标签中,且在 p 标签中,class 为 pois 中,且在 a 标签中。
h3:给文本增加主标题的语义。(显示在页面上标题变粗)
p:段落标签
以上分析完了,其实单纯分析节点很简单。重点在于代码如何使用。
3
PyQuery代码详讲
依然是分步骤来提取我们想要的。
回忆一下,用 PyQuery 请求到源代码,拿到实例对象。
from pyquery import PyQuery as pq
doc = pq('https://place.qyer.com/japan/citylist-0-0-1')
1. css选择器,提取外层 ul
ul_city = doc('.plcCitylist')
ul_city = doc('ul.plcCitylist')
lis = ul_city('li')
但需要注意的是,尽管我们 print 打印是你看到的文字,它们实际上并不是 str 类型的字符串,而是 PyQuery 这个类型。
for li in lis.items():
.............
h3 = li('.title.fontYaHei')
a_city = h3('a').attr('data-bn-ipg', 'place-citylist-mix-name-1')
h3('a') 获取的是 h3 标签里 a 标签的元素节点。
使用 .attr 时,后面两个参数说明 a 标签原本的属性由如下组成:
attr 第一个参数是标签属性的名字,第二个参数则是属性具体的值。
p_person_nums = li('p')('.beento')
print(p_person_nums.text())
4
成果展示
5
总结