提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
出一系列爬虫入门文章,不断更新!
提示:以下是本篇文章正文内容,下面案例可供参考
爬虫简单来说就是通过代码实现自动化脚本,对网页深度信息进行自动提取。
根据使用场景,网络爬虫可以分为 通用爬虫、聚焦爬虫、增量式爬虫三种
1、通用爬虫(大而全)
功能强大、采集面广,通常用于搜素引擎 百度、360、guge
2、聚焦爬虫、主题爬虫(小而精)
功能相对单一(只针对于网站特定内容进行爬取)
3、增量式爬虫(只采集更新后的内容)
爬取更新后的内容,新闻,漫画,视频(主要是区分新老数据)
Robots协议全称是“网络爬虫排除标准”
作用:告知网络爬虫哪些页面可以抓取,哪些页面不可以抓取
君子协定:指代口头协议,如果爬取,去能出现法律纠纷
例如小米的Robots协议:
https://www.mi.com/robots.txt
1、发起请求 使用python中request模块
安装 pip install request
2、获取相应内容
如果服务器能正常响应,会得到一个response,并携带想要获取的页面内容,类型主要有Json字符串、html、二进制数据(图片、视频)等
3、解析内容
获取的数据类型主要有 Json字符串、html、二进制数据(图片、视频),通过一定手段对获取的数据不断转换成我们想要得到的数据类型。(后面几篇文章将专门对解析进行讲解)
4、保存数据
保存形式多种多样,文本、数据库、或者特定格式的文件等
1、请求方式:主要是GET和POST两中国
2、请求URL:全称统一资源定位符,简单理解是链接
3、请求头:包含请求时的头部信息,如User-Agent、Host、Cookies等
4、请求体:请求时携带的数据、如表单提交时的表单数据
举例:
https://www.baidu.com/s?wd=%E8%AD%A6%E6%96%B9%E9%80%9A%E6%8A%A5%E7%94%B7%E5%AD%90%E5%88%80%E8%83%8C%E7%A0%8D%E5%A6%BB%EF%BC%9A%E4%BA%92%E7%9B%B8%E8%B0%85%E8%A7%A3&sa=fyb_n_homepage&rsv_dl=fyb_n_homepage&from=super&cl=3&tn=baidutop10&fr=top1000&rsv_idx=2&hisfilter
https://www.baidu.com/s?
1、.com后面的/s代表搜索的开始
2、?表示后面要开始接参数了(参数都是以键值对的形式存在的)
1、相应状态:
200代表成功
301代表跳转
404代表找不到网页
502代表服务器错误
2、响应头:
如内容类型、内容长度、服务器信息、蛇者Cookie等
3、相应体:
最主要的部分,包含了请求资源的内容:主要有Json字符串、html、二进制数据(图片、视频)等
1、网页文本:Json字符串、html、二进制数据(图片、视频)等
2、图片:二进制数据
3、视频:也是二进制文件
4、其他:能请求到的,理应上都可以获取
爬虫概念介绍+入门引入。