网络爬虫六

爬虫原理

  一、网络连接

      什么是网络连接呢?其实就是你去买水的时候,你只是需要水,投入硬币,自助机就会给你弹出你需要的书。计算机带着请求头和消息头向服务器发起一次请求,相应的服务器会返回计算机相应的html文件作为Response.这里的请求其实是一次get请求.计算机Request请求和服务器的Respouse回应。即实现网络连接。网络爬虫六_第1张图片

二、爬虫原理

     爬虫是需要做两件事,一是模拟计算机对服务器发起Request请求。二就是接受服务器端的Reponse内容并解析、提取所需的信息。但互联网网页错综复杂,一次的请求和回应不能够批量获取网页的数据,这时候就需要设计爬虫的流程。

三、多页面爬虫流程

  1.     手动翻页并观察个网页的URL特点,构造出所有页面的URL存入列表中。
  2. 根据URL列表一次循环去除URL.
  3. 定义爬虫函数。
  4. 循环调用爬虫函数,存储数据。
  5. 循环完毕,结束爬虫。

四、跨页面爬虫流程

  1. 定义爬取函数爬取列表页的所有专题的URL
  2. 将专题URL存入列表中
  3. 定义爬取详细页数据函数
  4. 进入专题详细页面爬取详细页数据
  5. 存储数据,循环完毕,爬虫结束

你可能感兴趣的:(网络爬虫)