【爬虫概述】

爬虫就是自动获取网页内容的程序,例如搜索引擎,Google,Baidu 等,每天都运行着庞大的爬虫系统,从全世界的网站中爬虫数据,供用户检索时使用。

爬虫流程

其实把网络爬虫抽象开来看,它无外乎包含如下几个步骤

  • 模拟请求网页。模拟浏览器,打开目标网站。
  • 获取数据。打开网站之后,就可以自动化的获取我们所需要的网站数据。
  • 保存数据。拿到数据之后,需要持久化到本地文件或者数据库等存储设备。

 【爬虫概述】_第1张图片

 获取header和cookie是一个爬虫程序必须的,它直接决定了爬虫程序能不能准确的找到网页位置进行爬取

这里推荐一个网页Convert curl commands to code 可以把复制的URL,自动生成header和cookie。

我们将header和cookie搞到手后,就可以将它复制到我们的程序里。之后,使用request请求,就可以获取到网页了

解析网页

找到网页的Elements部分。copy selector。

爬个微博热搜轻轻松松,接下来学爬其他的。

你可能感兴趣的:(数据分析,爬虫)