一.简介了解
1.爬虫在使用场景中的分类:
通用爬虫:抓取系统重要组成部分。抓取的是一整张页面数据。
聚焦爬虫:是建立在爬虫的基础之上。抓取的是页面的局部内容。
增量爬虫(重点):检测网站数据更新的情况。只会抓取网站中最新更新出来的数据。
2.爬虫的与矛盾
互联网中50%的收益来源于爬虫。
反爬机制:
反反爬策略:
robots.txt协议:如
taobao.com/robots.txt
http协议
- 概念:就是服务器和客户端进行数据交互的一种形式。
常用请求头信息
- User-Agent:请求载体的身份标识
- Connection:请求完毕后,是断开连接还是保持连接
常用响应头信息
- Content-Type:服务器响应回客户端的数据类型
https协议:
- 安全的超文本传输协议
加密方式
- 对称秘钥加密
- 非对称秘钥加密
- 证书秘钥加密