一. 什么是爬虫

爬虫入门第一节

什么是爬虫?

爬虫就是请求网站并提取数据的自动化程序。

爬虫的基本流程

  • 发起请求。通过HTTP库向目标站点发起请求。即发送一个request请求,请求可以包含额外的headers等信息,等待服务器响应。

  • 获取相应内容。如果服务器正常响应,遇到一个response对象,response的内容就是所要获取的网页内容。

  • 解析内容。得到的内容可能是HTML。可以通过正则表达式,网页解析器进行解析。

  • 保存数据。保存形式多样,可以保存成文本,也可以保存至数据库。

什么是Request和Response?

  • 浏览器发送消息给该网址所在的服务器。这个过程叫做HTTP Request。

  • 服务器收到浏览器发送的消息后,能够根据浏览器发送的消息内容,做相应处理,然后把消息会给浏览器。这个过程叫做HTTP Response。

  • 浏览器收到服务器的Response之后,会对信息进行处理。然后展示。

Request中包含什么?

  • 请求方式(get,post)

  • URL(统一资源定位符) 比如一个网页文档,一张图片,一个资源都可以通过URL来唯一确定。

  • 请求头。包含请求时的头部信息。如User-Agent、Host、Cookies等信息。

  • 请求体。

Response中包含什么?

  • 响应状态。有多种响应状态。200代表成功,301跳转,404找不到页面,502服务器错误。

  • 响应头。 如内容类型、内容长度、服务器信息、设置Cookie等等。

  • 响应体。最主要的部分,包含了请求资源的内容,如网页HTML,图片,二进制数据等等。

    能抓什么样的数据

  • 网页文本

  • 图片二进制文件

  • 视频

  • 其他

解析方式

  • 直接处理 纯文本文件,直接抓取

  • Json解析

  • 正则表达式

  • beautifulsoup

  • PyQuery

为什么我抓的数据和浏览器看到的不一样?

….

怎么解决JS渲染问题?

  • 分析Ajax请求

  • Selenium/webdriver

  • Splash

  • ……

怎么保存数据

  • 文本

  • 关系型数据库 MySQL,Oracle

  • 非关系型数据库

你可能感兴趣的:(Python从入门到放弃系列)