python爬虫入门0:什么是爬虫,怎么玩爬虫?

 

python爬虫入门0:什么是爬虫,怎么玩爬虫?_第1张图片

看到这两只爬虫没有?

 

两只爬虫

两只爬虫

跑得快

跑得快

一只没有..

 

不好意思

 

跑题了...

 

 

别误会,今天不是要教你怎么玩上面这两只沙雕玩意。

 

今天,我们正式从0到1

 

轻松学会 python 爬虫

 

接下来...

 

将是学习Python的正确姿势!

 

小帅b闪亮登场

 

python爬虫入门0:什么是爬虫,怎么玩爬虫?_第2张图片

 

 

在你的浏览器里面

 

输入百度网址

 

https://www.baidu.com

 

一回车看到一个网页

 

python爬虫入门0:什么是爬虫,怎么玩爬虫?_第3张图片

 

 

大家都很熟悉吧!

 

然而

 

你右键,查看网页源代码。

 

是这个样子的

 

python爬虫入门0:什么是爬虫,怎么玩爬虫?_第4张图片

 

(源代码的1/100)

 

“窝里割草”

 

简简单单一个页面。

 

这么多密密麻麻的代码

 

不说了

 

劝退前端程序员!

 

还是学习 Python 吧。哈哈哈

 

 

 

 

那么说这个,和爬虫有什么关系呢?

 

你有没有想过

 

这些许许多多的网站

 

背后都是一些数据

 

如果我们可以用一个自动化的程序

 

轻轻松松就能把它们给爬取下来

 

是不是很爽?

 

比如,一些小电影的网站

 

我们只要用 Python 

 

写几行代码

 

然后一运行

 

这个程序就帮我们爬取所有的小电影到我们本地

 

完全不需要我们费一点力气

 

再比如,你想了解一个行业的趋势

 

是不是可以把它们往年的数据都爬取下来

 

然后,对这些数据做一些分析呢?

 

等等..

 

这些,以后我们都会讲到!

 

 

我们刚刚提到的

 

一个自动化的程序

 

就是爬虫

 

 

python爬虫入门0:什么是爬虫,怎么玩爬虫?_第5张图片

 

 

知道了什么是爬虫之后

 

问题来了

 

爬虫怎么玩的?

 

那就偷偷告诉你

 

python爬虫入门0:什么是爬虫,怎么玩爬虫?_第6张图片

 

在互联网上许许多多的网站

 

它们都是托管在服务器上的

 

这些服务器 24 小时运行着

 

时时刻刻,兢兢业业的等待着别人的请求

 

所以

 

我们的爬虫,首先会模拟请求

 

就好像你在浏览器输入网址,然后回车那样

 

爬虫可以用到一些 Http 库向指定的服务器偷偷摸摸的发起请求,这个时候爬虫可以假装自己是浏览器(添加一些header信息)

 

大多数的服务器呢,傻不拉的以为是浏览器发送请求

 

就直接返回数据给爬虫了

 

python爬虫入门0:什么是爬虫,怎么玩爬虫?_第7张图片

 

当然了,有一些网站比较精明

 

所以他们会建立一些反爬虫机制

 

但是,对于我们来说,不在话下

 

这个是后话了!

 

反正这个时候呢,服务器把数据返回给我们了

 

那么我们就可以对这些数据进行猥琐操作了。

 

 

不同的情况下,服务器返回给我们的数据格式不一样

 

 

HTML

 

JSON

 

二进制的数据啦

 

 

根据不同的情况,我们可以使用不同的方式对他们进行处理。

 

 

处理完之后

 

我们就可以对他们进行保存啦

 

保存的方式也有几种

 

数据库

 

硬盘

 

等等..

 

 

以上就是我们的爬虫的具体爬取流程,这是我们开启爬虫体系的第一篇,接下来我们将一步一步来操作我们的爬虫。

 

 

 

快加入Pythonner的聚集地

 

 

python爬虫入门0:什么是爬虫,怎么玩爬虫?_第8张图片

 

 

 

 

你可能感兴趣的:(python,爬虫,python3)