初识python爬虫

1,爬虫的定义:
模拟客户端发送请求,并获取响应,理论上来说,客户端能做的事情,一般爬虫都能做。

2,爬虫的分类:
分为通用爬虫和聚焦爬虫
通用爬虫: 搜索引擎的爬虫,一般爬取多个网站,例如百度,新浪新闻等
聚焦爬虫 :针对某个特定的网站,爬取需要的数据

3,爬虫的工作流程:
初识python爬虫_第1张图片

4,第一个爬虫(爬取百度首页源代码)

初识python爬虫_第2张图片

解释:首先必须对python基础有一定的了解,并安装pycharm等编辑器,并且我们这里运用的python2。如图,就是在pycharm中编辑的代码。如下是对代码的解释:

初识python爬虫_第3张图片

其中,请求头部分可以模拟浏览器发送请求,如果不写,也可以爬取。但只针对百度这种搜索引擎,如果需要爬取其他网站,不写的话,会被一眼看出是个爬虫,这样网站就会对你的程序作出反应,或者屏蔽,从而达不到爬取的效果。我们运行一下代码,就会得到百度首页的源代码。


你可能感兴趣的:(python爬虫)