快期末了,有个数据挖掘的大作业需要用到python的相关知识(这太难为我这个以前主学C++的人了,不过没办法还是得学),下面是我在学习爬虫相关知识的数据解析时总结的一些东西,我对于python不是很熟悉,如果下面的一些知识点有哪里出问题或者有不同理解的,请一定一定要在评论区提出来,让我这个菜鸡学习学习~~/(ㄒoㄒ)/~~
当我们从网站上爬取到全部数据时,我们需要获得我们想要的数据,这就需要用到数据解析了,数据解析的方式有四种
本篇博客主要是写XPath的相关知识点
pip install lxml
下面这些东西如果不懂也没关系,后面我会提供例子给大家参考
3、观察各个榜单的榜首在那个节点和位置 4.通过黑框来找到网站榜单的各个榜首书名
观察到这个网站榜单的各个榜首书名都是在\
至此说明安装插件成功通过python代码实现用XPath来解析数据
import requests
from lxml import etree
url = "https://www.qidian.com/rank/chn21/"
# 需要添加头部
header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36 Edg/108.0.1462.46"}
# 发送请求
resp = requests.get(url,header)
e = etree.HTML(resp.text) # 将str类型转为etree.Element类型
# 获取榜首书名
names = e.xpath('//div[@class="book-info fl"]/h2/a/text()')
# 获取榜首作者名
authors = e.xpath('//p[@class="author"]/a[2]/text()')
# 将书名和作责名一起打印
for name,author in zip(names,authors):
print(name,":",author)