Ch2 爬虫原理和网页构造

概要

将通过介绍网络连接来解释爬虫的原理，并使用Chrome浏览器认识网页构造并查询网页信息。

主要涉及主要知识点如下：

网络连接：介绍网络连接的基本过程。
爬虫原理：介绍爬虫的基本原理和过程
Chrome浏览器：使用Chrome浏览器认识网页构造和查询网页信息

正文

爬虫原理

1.网络连接

网络连接像是在自动饮料售货机上购买饮料一样：购买者只需选择所需饮料，投入硬币（或纸币），自主饮料售货机就会弹出相应的商品。

计算机（购买者）带着请求头和消息体（硬币和所需饮料）向服务器（自助饮料售货机）发起一次Request请求（购买），相应的服务器（自助饮料售货机）会返回本计算机相应的HTML文件作为Response（相应的商品）

这里是一个GET请求。

对于学习爬虫技术，读者只需要知道最基本的网络连接原理即可。计算机一次Request请求和服务器端的Response回应，即实现了网络连接。计算机Request请求带着的请求头和消息体是什么以及网络更底层的东西，不是本文介绍的范围。

2.爬虫原理

了解网络连接的基本原理后，爬虫原理就好理解了。网络连接需要计算机一次Request请求和服务器端的Response回应。爬虫也是需要做两件事：

①模拟计算机对服务器发起Request请求。
②接收服务器端的Response内容并解析、提取所需的信息。

但互联网网页错综复杂，一次的请求和回应不能够批量获取网页的数据，这时就需要设计爬虫的流程，主要用到的两种爬虫所需的流程，即多页面和跨页面爬虫流程。

多页面爬虫流程

有的网页存在多页的情况，每页的网页结构都相同或类似，这种类型的网页爬虫流程为：

手动翻页并观察各网页的URL构成特点，构造出所有页面的URL存入列表中。
根据URL列表依次循环取出URL
定义爬虫函数
循环调用爬虫函数，存储数据。
循环完毕，结束爬虫程序。

跨页面爬虫流程

列表页和详细页

这种跨页面的爬虫程序流程为：

定义爬取函数爬取列表页的所有专题的URL
将专题URL存入列表中（种子URL）
定义爬取详细页数据函数
进入专题详细页面爬取详细页数据
存储数据，循环完毕，结束爬虫程序

网页构造

通过Chrome浏览器的使用简单介绍网页的构成。

网页构造

现在打开任意一个网页（http://bj.xiaozhu.com/）,按F12，可以看到网页的代码：

现在来分析上图，图中左半部分为HTML文件，下半部分为CSS样式，用标签的是JavaScript代码。用户浏览的网页就是浏览器渲染后的结果，浏览器就像翻译官，把HTML、CSS和JavaScript代码进行翻译后得到用户使用的网页界面。如果把网页比喻成房子的话，那么HTML为房子的框架和格局（几室几厅），CSS就是房子的样式（地板、房漆），JavaScript就是房子中的电器。