爬虫基础实战项目,一步步带你简易分析爬虫原理!

今天是2019年的第二天,在这里小编先祝大家新年快乐!既然今天是个新的启程,我们也就不弄难的东西,我们就来弄个基础入门级别的实战吧——爬取蜂鸟网站。(在这里郑重声明一点,本文所做的爬虫仅作于学习Python练手,严禁用于商业目的和推广。另外温馨提示一点,蜂鸟是个有版权保护的网站,所以请在原作者允许的使用范围内使用,请勿侵权!)

爬虫基础实战项目,一步步带你简易分析爬虫原理!_第1张图片

我们来进行操作吧~~~想学Python或者对Python感兴趣的老铁,可以私信小编发送1314,小编这里有适合Python初学者学习的资料(2018最新版Python资料),免费送给大家!

一、网站分析

我将爬取分成了几步,希望这样大家能更加清晰的看明白。

第一步,我们来分析下要爬取的网站有没有方法爬取,打开页面,找分页

上面的页面发现一个关键的参数page=1这个就是页码了,但是另一个比较头疼的问题是,他没有最后的页码,这样我们没有办法确定循环次数,所以后面的代码编写中,只能使用while了

这个地址返回的是JSON格式的数据,这个对爬虫来说,非常友好!省的我们用正则表达式分析了。

爬虫基础实战项目,一步步带你简易分析爬虫原理!_第2张图片

然后我们来分析这个页面的头文件,查阅是否有反爬措施,假如有反爬极可能要麻烦点,

爬虫基础实战项目,一步步带你简易分析爬虫原理!_第3张图片

在看完头文件后,发现除了HOST和User-Agent以外,没有特殊的点,大网站就是任性,没啥反爬,可能压根不在乎这个事情吧。

第二步,我们来分析图片详情页面,在我们上面获取到的JSON中,找到关键地址

爬虫基础实战项目,一步步带你简易分析爬虫原理!_第4张图片

关键地址打开之后,这个地方有一个比较骚的操作了,上面图片中标注的URL选的不好,恰好是一个文章了,我们要的是组图,重新提供一个新链接(由于头条不允许用非本平台的链接,所以就发的链接地址,还望大家见谅):

打开页面,你可能直接去找规律了,找到下面的一堆链接,但是这个操作就有点复杂了,我们查阅上述页面的源码

爬虫基础实战项目,一步步带你简易分析爬虫原理!_第5张图片

网页源码中发现了,这么一块区域

爬虫基础实战项目,一步步带你简易分析爬虫原理!_第6张图片

大胆的猜测一下,这个应该是图片的JSON,只是他打印在了HTML中,我们只需要用正则表达式进行一下匹配就好了,匹配到之后,然后进行下载。

第三步,开始码我们的代码。

爬虫基础实战项目,一步步带你简易分析爬虫原理!_第7张图片

二、写代码

爬虫基础实战项目,一步步带你简易分析爬虫原理!_第8张图片
爬虫基础实战项目,一步步带你简易分析爬虫原理!_第9张图片
爬虫基础实战项目,一步步带你简易分析爬虫原理!_第10张图片

运行代码,效果亮出来:

爬虫基础实战项目,一步步带你简易分析爬虫原理!_第11张图片

怎么样?大家可还喜欢?本文到此就告一段落咯!朋友们,我们下次再会!喜欢本文的小伙伴可以点波关注或转发喔!

本文来自网络,如有侵权,请联系小编删除!

你可能感兴趣的:(爬虫基础实战项目,一步步带你简易分析爬虫原理!)