通过编写程序,模拟浏览器上网,然后抓取网上感兴趣的数据的过程。
超文本传输协议(Hyper Text Transfer Protocol)
解释:Sever和Client之间进行数据交互的一种形式
HTTP工作原理
HTTP协议工作于客户端-服务端架构为上。浏览器作为HTTP客户端通过URL向HTTP服务端即WEB服务器发送所有请求。Web服务器根据接收到的请求后,向客户端发送响应信息
常用的请求头信息
请求头 | 作用 |
---|---|
accept | 浏览器通过这个头告诉服务器,它所支持的数据类型 |
Accept-Charset | 浏览器通过这个头告诉服务器,它支持哪种字符集 |
Accept-Encoding | 浏览器通过这个头告诉服务器,支持的压缩格式 |
Accept-Language | 浏览器通过这个头告诉服务器,它的语言环境 |
Host | 浏览器通过这个头告诉服务器,想访问哪台主机 |
If-Modified-Since: | 浏览器通过这个头告诉服务器,缓存数据的时间 |
Referer | 浏览器通过这个头告诉服务器,客户机是哪个页面来的 防盗链 |
Connection | 浏览器通过这个头告诉服务器,请求完后是断开链接还是何持链接 |
X-Requested-With | XMLHttpRequest 代表通过ajax方式进行访问 |
User-Agent | 请求载体的身份标识 |
响应头 | 作用 |
---|---|
Location | 服务器通过这个头,来告诉浏览器跳到哪里 |
Server | 服务器通过这个头,告诉浏览器服务器的型号 |
Content-Encoding | 服务器通过这个头,告诉浏览器,数据的压缩格式 |
Content-Length | 服务器通过这个头,告诉浏览器回送数据的长度 |
Content-Language | 服务器通过这个头,告诉浏览器语言环境 |
Content-Type | 服务器通过这个头,告诉浏览器回送数据的类型 |
Refresh | 服务器通过这个头,告诉浏览器定时刷新 |
Content-Disposition | 服务器通过这个头,告诉浏览器以下载方式打数据 |
Transfer-Encoding | 服务器通过这个头,告诉浏览器数据是以分块方式回送的 |
Expires | -1 控制浏览器不要缓存 |
Cache-Control | no-cache |
Pragma | no-cache |
HTTPS (Secure Hypertext Transfer Protocol)安全超文本传输协议,HTTPS是在HTTP上建立SSL加密层,并对传输数据进行加密,是HTTP协议的安全版。
https://www.bilibili.com/video/BV18C4y1a7uk?from=search&seid=3650689839072756184