豆瓣TOP250中提取评价人数:
text='''
9.7
2029026人评价
'''
doc = PyQuery(text)
doc('.star span').eq(-1).text() #PyQuery.eq(index)用于同名标签筛选,index从0开始,-1表最后一个
# doc('.star span:last-child').text() 也可达到效果,第一个节点first-child,第n(n>1)个节点nth-child(n)
豆瓣TOP250中提取“导演,演员,上映时间,地区,类别” 注: 这里定位p的父标签仅仅就图片中的文本而言,具体请求链接后的文本定位视真实情况而定
可以看到,第一个p标签的class属性没有值,实际就是 ,另外br标签看起来不完整,不管它,直接从p标签提取文本看看结果。
定位p的父标签如#试着提取导演和上映时间
doc = pq(text) #pq:PyQuery
position = doc('.bd p').eq(0).text().split('\n')[0].split('\xa0')[0]
time = doc('.bd p').eq(0).text().split('\n')[1].split('/')[1].strip()