聚沙成塔--爬虫系列(十八)(原生socket(套接字)实现HTTP请求)

版权声明:本文为作者原创文章,可以随意转载,但必须在明确位置标明出处!!!

tips:本基础系列旨在以爬虫带大家入门Python语言

上一篇文章介绍了HTTP协议,相信读者对HTTP协议也有了一个基本的了解,但这还不够,光了解它并不代表你能够使用它,就像练习武林秘诀一样,光知道口诀是不行的,还要反复的去联系,去体会才能融会贯通,所以我们拥有了HTTP协议口诀后,要做的就是去练习它了,本章将会通过原生的socket套接字去实现HTTP请求以加深如协议的理解。

socket套接字

套接字是计算机网络数据结构,它体现了“通信端点”的概念,在任何类型的通信开始之前,网络应用程序都必须创建套接字,你可以把她当作老式的电话线,要让电话可用那必须先得插上和外界通信的电话线。套接字的起源可以追溯到20 世纪70 年代,它是加利福尼亚大学的伯克利版本UNIX(称为BSD UNIX)的一部分。因此,有时你可能会听过将套接字称为伯克利套接字或BSD 套接字。套接字最初是为同一主机上的应用程序所创建,使得主机上运行的一个程序(又名一个进程)与另一个运行的程序进行通信。这就是所谓的进程间通信(Inter Process Communication,IPC)。有两种类型的套接字:基于文件的和面向网络的。基于文件的家族是AF_UNIX;AF_NETLINK、AF_TIPC、AF_INET家族都是基于网络的。

socket模块

要使用网络编程就必须的用到socket模块了,这个模块是 Python 的标准库模块,可以直接导入使用,网络传输有两种模式,一种是可靠传输,也就是使用TCP协议,一种是不可靠传输,使用UDP协议;什么是可靠传输呢,可靠传输是指要确保我发给对方的数据,对方一定能收到, 它常用在文件传输。UDP为不可以传输,是指我只管把数据发给你,至于你有没有收到我并不关心,所以UDP协议常用在视频传输,实时通信等方面,对于视频传输就算少个3,4帧数据我们人眼是看不出来的,TCP、UDP都是传输层协议,它们都需要通过IP(网络层)封装后才能在网络中传输,TCP比UPD传输速率慢,因为TCP有「三次握手」,「四次挥手」。

属性 TCP UDP
连接性 面向连接 面向无连接
可靠性 可靠 不可靠
传输效率

套接字对象的内置方法

网络编程的第一步就是创建一个socket套接字,它返回一个套接字对象,该对象有如下方法


聚沙成塔--爬虫系列(十八)(原生socket(套接字)实现HTTP请求)_第1张图片

网络编程流程

在编写代码之前首先要了解客户端和服务端的交互流程,这个流程一定要记得滚瓜烂熟,最好的办法就是多写几遍,我刚开始学网络编程就是用的这种办法。TCP和UDP的交互流程如下

  • TCP协议模型
    • 服务端:
      1. 创建套接字(socket)
      2. 绑定端口(bind)
      3. 监听端口(listen)
      4. 接受连接(accept)无限循环等待客户端的连接请求
      5. 接收/发送消息(recv/send)
      6. 关闭套接字
    • 客户端:
      1. 创建套接字(socket)
      2. 连接服务端(connect)
      3. 发送/接收消息(send/recv)
      4. 关闭套接字
  • UDP的交互流程如下
    • 服务端:
    1. 创建套接字(socket)
    2. 绑定端口(bind)
    3. 接收/发送消息(recvfrom/sendto)
    4. 关闭套接字
    • 客户端:
      1. 创建套接字(socket)
      2. 连接服务端(connect)
      3. 发送/接收消息(send/recv)
      4. 关闭套接字

socketserver模块

该模块是一个高级的抽象模块,它的目标是简化很多样板代码,就是创建网络客户端和服务器所必需的代码,所以该模块只是封装了一些原生套接字的的功能,你查看该模块的源码肯定会发现其实它还是用的socket,所以在你刚接触网络编程的时候一定要使用原生的套接字,让自己掌握客户端和服务端的交互流程,当你觉得你已经用的很熟了的时候你可以考虑使用更高级的模块,初学的时候建议使用原生的套接字,accept默认是阻塞的,只有等待客户端的连接请求了才会返回。有阻塞肯定就有异步,所以读者可以去了解了解异步套接字怎么实现,异步套接字的实现可以去了解select模块, 再深入一点就是去读TCP/IP协议详解。

Request请求格式

聚沙成塔--爬虫系列(十八)(原生socket(套接字)实现HTTP请求)_第2张图片
Request请求格式

Response应答格式

聚沙成塔--爬虫系列(十八)(原生socket(套接字)实现HTTP请求)_第3张图片
Response应答格式

实战

光说不练都是假把式,下面将会使用原生的套接字实现http协议的几个方法

  • GET方法
from socket import *

# 创建套接字
tcp_socket = socket(AF_INET, SOCK_STREAM)
# 连接服务器
tcp_socket.connect(('www.baidu.com', 80))

request_str = '''GET /home/news/data/newspage HTTP/1.1\r\n\
Host:www.baidu.com\r\n\
Connection:keep-alive\r\n\
Accept-Encoding:gzip, deflate, br\r\n
Accept-Language:en,zh-CN;q=0.8,zh;q=0.6\r\n
User_Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36\r\n\r\n'''

tcp_socket.send(bytes(request_str.encode('utf-8')))

response_str = tcp_socket.recv(4096)

print(response_str)
  • 返回结果
HTTP/1.1 200 OK
Date: Wed, 15 Nov 2017 06:59:19 GMT
Content-Type: text/html;charset=utf-8
Transfer-Encoding: chunked
Connection: Keep-Alive
Vary: Accept-Encoding
Cache-Control: private
Expires: Wed, 15 Nov 2017 06:59:19 GMT
tracecode: 35597275360655541002111514
Set-Cookie: BAIDUID=800F3E63D821D767A0F99B52BF9C82A4:FG=1; expires=Thu, 15-Nov-18 06:59:19 GMT; max-age=31536000; path=/; domain=.baidu.com; version=1
P3P: CP=" OTI DSP COR IVA OUR IND COM "
Content-Encoding: gzip
Server: BWS/1.0
  • POST方法
from socket import *

# 创建套接字
tcp_socket = socket(AF_INET, SOCK_STREAM)
# 连接服务器
tcp_socket.connect(('www.baidu.com', 80))

request_str = '''POST /home/news/data/newspage HTTP/1.1\r\n\
Host:www.baidu.com\r\n\
Connection:keep-alive\r\n\
Accept-Encoding:gzip, deflate, br\r\n
Accept-Language:en,zh-CN;q=0.8,zh;q=0.6\r\n
User_Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36\r\n\r\n'''

tcp_socket.send(bytes(request_str.encode('utf-8')))

response_str = tcp_socket.recv(4096)

print(response_str)
  • 返回结果
HTTP/1.1 200 OK
Date: Wed, 15 Nov 2017 07:27:41 GMT
Content-Type: text/html;charset=utf-8
Transfer-Encoding: chunked
Connection: Keep-Alive
Vary: Accept-Encoding
Cache-Control: private
Expires: Wed, 15 Nov 2017 07:27:41 GMT
tracecode: 16618310650351194890111515
Set-Cookie: BAIDUID=12E8E5D7F713B721254540A39F83EF37:FG=1; expires=Thu, 15-Nov-18 07:27:41 GMT; max-age=31536000; path=/; domain=.baidu.com; version=1
P3P: CP=" OTI DSP COR IVA OUR IND COM "
Content-Encoding: gzip
Server: BWS/1.0
  • OPTIONS方法
from socket import *

# 创建套接字
tcp_socket = socket(AF_INET, SOCK_STREAM)
# 连接服务器
tcp_socket.connect(('www.baidu.com', 80))

request_str = '''OPTIONS http://www.baidu.com HTTP/1.1\r\n\
Host:www.baidu.com\r\n\
Connection:keep-alive\r\n\
Accept-Encoding:gzip, deflate, br\r\n
Accept-Language:en,zh-CN;q=0.8,zh;q=0.6\r\n
User_Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36\r\n\r\n'''

tcp_socket.send(bytes(request_str.encode('utf-8')))

response_str = tcp_socket.recv(4096)

print(response_str)
  • 返回结果
HTTP/1.1 200 OK
Date: Wed, 15 Nov 2017 07:34:23 GMT
Server: Apache
P3P: CP=" OTI DSP COR IVA OUR IND COM "
P3P: CP=" OTI DSP COR IVA OUR IND COM "
Set-Cookie: BAIDUID=B709AAC9A337A10E7C13EB1C84696D10:FG=1; expires=Thu, 15-Nov-18 07:34:23 GMT; max-age=31536000; path=/; domain=.baidu.com; version=1
Set-Cookie: BAIDUID=B709AAC9A337A10EF3C3565FCF06D220:FG=1; expires=Thu, 15-Nov-18 07:34:23 GMT; max-age=31536000; path=/; domain=.baidu.com; version=1
Allow: GET,HEAD,POST,OPTIONS,TRACE
Cache-Control: max-age=1
Expires: Wed, 15 Nov 2017 07:34:24 GMT
Vary: Accept-Encoding,User-Agent
Content-Encoding: gzip
Content-Length: 20
Connection: Keep-Alive
Content-Type: text/html

从返回结果中我看可以看到百度服务器不支持PUT,DELETE方法,想想也知道为撒啊,要是支持了这两个方法那还不得乱套了,你可以随便想他的服务器上传文件,也可以删除服务器上的文件,这得有多恐怖是吧。TRACE方法也可以自己去试试,不过我测试过这个方法,服务器并没有返回任何应答给我。

okay,本章就到这里结束了,学习一个协议的时候最好的理解办法就是亲自动手去实践一下。一定要养成这样的习惯,对于肯定大有裨益。


欢迎关注我:「爱做饭的老谢」,老谢一直在努力...

你可能感兴趣的:(聚沙成塔--爬虫系列(十八)(原生socket(套接字)实现HTTP请求))