1 爬虫入门 requests模块 UA伪装

爬虫

1 爬虫介绍

1.1 什么是爬虫

爬虫是通过编写程序来模拟浏览器上网,然后从网页中抓取数据的过程,也可以理解为让代码代替人去检测并获取网站上某个位置的数据。

难点:如何让代码伪装成人类(正常使用者)向网站发送请求。

1.2 分类

1.2.1 通用爬虫与聚焦爬虫

通用爬虫:抓取一张网页的全部源码。
聚焦爬虫:抓取一张网页中的局部内容,聚焦爬虫是建立在通用爬虫的基础上的。

1.2.2 增量式爬虫与分布式爬虫

增量式爬虫是在上一次爬虫的基础上继续爬取数据,适用于继续爬取因故未爬完的数据或网站更新的数据;
分布式爬虫是在多个服务器上部署爬虫程序,是一种提高爬取效率的方法。

1.3 反爬机制与反反爬策略

反爬机制
反爬机制是应用于网站中,用于阻止爬虫程序对网站数据进行爬取。
反反爬策略
反反爬策略是应用于爬虫中,用于破解网站的反爬机制从而实现对网站中的数据进行爬取。

1.4 requests模块

requests模块是一个基于网络请求的模块,可用于模拟浏览器上网过程。
流程:

  1. 指定url
  2. 发起请求
  3. 获取响应数据
  4. 持久化存储
1.5 Chrome的开发者工具中Elements和Netw

你可能感兴趣的:(爬虫技术,python,爬虫,搜索引擎,java爬虫程序,爬虫搜索,关键字搜索)