读书笔记:《Python3网络爬虫开发实战》——第2章:爬虫基础

第2章 爬虫基础

2.1 HTTP基本原理

2.1.1 URI和URL

URI: Uniform Resource Identifier 统一资源标识符
URL:Universal Resource Locator 统一资源定位符

2.1.2 超文本

hypertext

2.1.3 http和https

https:Hyper Text Transfer Protocol over Secure Socket Layer
https是以安全为目标的HTTP通道,简单地讲师HTTP的安全版,即HTTP下加入SSL层,简称为HTTPS

2.1.4 HTTP请求过程
2.1.5 请求
  1. 请求方法:get和post
  • get请求中的参数包含在URL中,数据可以在URL中看到;而post请求的URL不会包含这些数据,数据通过表单形式传输的,会包含在请求体中
  • get请求提交的数据最多只有1024字节,post无限制
  1. 请求的网址
    即URL
  2. 请求头
  3. 请求体
2.1.6 响应
  1. 相应状态码
  2. 响应头
  3. 响应体

2.2 网页基础


2.3 爬虫的基本原理

2.3.1 爬虫概述

获取网页 —> 提取信息 —> 保存数据 —> 自动化程序


2.4 会话和cookies

后面有cookies池搭建,此处不赘述


2.5 代理的基本原理

同上

你可能感兴趣的:(读书笔记,Python3网络爬虫开发实战)