Python——豆瓣top250爬取
1.分析网页
1.1为什么要分析网页
我们需要从一个网页中爬取东西时,如果对网页中有什么东西、网页如何构成都不清楚,我们是很难进行爬取的,所以这一步是为了后面爬取的方便实施。
1.2如何分析网页
在这里,我要爬取的是豆瓣Top250上的东西。首先,我们得进入该网页,查看它的网页结构。点击【下一页】,查看网页的URL(也就是它的链接),多换几页之后会发现有如下图所示规律:
2.请求网页
接下来就是向服务器发出请求了,我们先选择第一个链接来进行测试,完成本页所有内容的获取,然后再获取其他所有页面的信息
2.1导入包
这里需要用到requests这个,没有安装的话需要安装这个包,安装步骤如下:#pip安装 pip install requests-------->win+r,运行--------->cmd,回车-------->输入pip install requests
2.2设置浏览器代理
在网页中点击右键,打开检查,选择Network,All,刷新网页,选择第一个文件,双击,选择headers
设置的浏览器代理必须为字典型,如:
headers={
‘User-Agent’:‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.87 Safari/537.36’
}
2.3请求服务器
请求源代码,向服务器发出请求,200代表成功,使用get()获取