实际上,假设你对TCP/IP协议不是很了解,也可以很轻松的学会使用socket()实现网络间进行通信。原因是socket的设计就是为了隐藏复杂的TCP/IP协议族,对于用户而言,一组简单的socket接口就是全部。
- 了解Socket的概念;
套接字Socket是应用层与TCP/IP协议族通信的中间软件抽象层,是一组接口。在设计模式中,Socket其实是一个门面模式,它将复杂的TCP/IP协议族隐藏在Socket接口后面,对于用户来说,一组简单的接口就是全部,让Socket来组织数据,以符合指定的协议。图1表明了socket与TCP/IP协议族之间的关系。
应用层通过传输层进行数据通信时,TCP会遇到同时为多个应用程序进程提供并发服务的问题。多个TCP连接或多个应用程序进程可能需要通过同一个 TCP协议端口传输数据。为了区别不同的应用程序进程和连接,许多计算机操作系统为应用程序与TCP/IP协议交互提供了套接字(Socket)接口。应用层可以和传输层通过Socket接口,区分来自不同应用程序进程或网络连接的通信,实现数据传输的并发服务。
- 基于TCP协议的Socket通信的流程;
网络中的进程是通过Socket来通信的。创建TCP连接时,主动发起连接的叫客户端,被动响应连接的叫服务器。举个例子,当我们在浏览器中访问时,客户端是我们自己的计算机,服务端是百度的服务器,浏览器会主动向百度的服务器发起连接,假设的服务器顺利地接受了我们的连接,一个TCP连接就建立起来来,后面的通信就是百度服务器向浏览器发送网页内容。图3的流程图向我们展示了socket是如何使得服务端和客户端完成一次交互。
- 基于TCP协议的Socket通信的实现;
3.1 客户端
(1)通过socket()创建一个socket描述符,它唯一标识一个socket,然后基于该描述符传入目标服务器的IP 地址和端口号主动请求连接:
import socket
# 创建一个socket对象
s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
# 建立连接
s.connect(('www.baidu.com', 80))
创建一个Socket对象,AF_INET是指定使用IPv4协议,如果要用IPv6,就指定为AF_INET6;SOCK_STREAM是指定使用面向流的TCP协议。
一个Socket对象创建成功之后,客户端通过(服务器的IP地址+端口号)主动向服务端发起TCP连接请求。网站的IP地址可用域名www.baidu.com自动转换到IP地址。由于我们想要访问网页,因此提供网页服务的服务器必须将端口号固定在80端口,80端口是HTTP服务的标准端口。
端口号分为以下两类:(a)服务器端使用的端口号,这又分为熟知端口号(0--1023,又称Internet标准服务的端口),如FTP服务的端口号21,DNS服务的端口号53,HTTP服务的端口号80等这些熟知端口号数值可在www.iana.org查到,和登记号端口(1024--49151),它是为没有熟知端口号的应用程序提供的;(b)客户端使用的端口号(49152--65535),它仅在客户进程运行时动态选择。
(2)建立TCP连接之后,我们就可以向百度服务器发送请求(发送的文本格式必须符合HTTP标准),要求返回首页的内容:
# 发送数据
s.send("GET / HTTP/1.1\r\nHost: baidu.com\r\n\r\n".encode('utf-8'))
TCP连接创建的是双向通道,双方可以同时给对方发数据。但是谁先发谁后发,怎么协调,要根据具体的协议来决定。例如,HTTP协议规定客户端必须先发请求给服务器,服务器收到后才发数据给客户端。
(3)接收百度服务器返回的数据:
# 接收数据
buffer = []
while True:
# 每次最多接收1k字节
d = s.recv(1024)
if d:
buffer.append(d)
else:
break
data = b''.join(buffer)
(4)当我们接收完数据后,调用close()方法关闭Socket,这样,一次完整的网络通信就结束了:
# 关闭连接
s.close()
(5)处理接收到的数据:打印HTTP,保存网页内容:
header, html = data.split(b'\r\n\r\n', 1)
print(header.decode('utf-8'))
# 把接收的数据写入文件:
with open('baidu.html', 'wb') as f:
f.write(html)
在浏览器中打开baidu.html文件就可以看到百度的首页了。
3.2 服务端
从图3的流程图可以看出和客户端编程相比,服务器编程就要复杂一些。我们通过编写一个简单的服务器程序来来了解服务端工作流程,该程序实现接收客户端连接,把客户端发过来的字符串加上Hello再发回去。
(1)创建一个基于IPv4和TCP协议的Socket:
s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
(2)绑定监听的地址和端口:
# 绑定地址和端口
s.bind(('127.0.0.1', 9999))
127.0.0.1是一个特殊的IP地址,表示本机地址,如果绑定到这个地址,客户端必须同时在本机运行才能连接。端口号需要预先指定,由于我们写的这个服务不是标准服务,因此用9999这个端口号(1024--49151都可以)。注:小于1024的标准服务端口号必须要有管理员权限才能绑定。
(3)监听端口,监听来自多个客户端的连接:
# 传入的参数指定等待连接的最大数量:
s.listen(5)
print('Waiting for connection...')
(4)服务端程序通过一个永久循环来接受来自客户端的连接,accept()会等待并返回一个客户端的连接:
while True:
# 接受一个新连接
sock, addr = s.accept()
# 创建新线程来处理TCP请求
# tcplink是处理请求的函数
t = threading.Thread(target=tcplink, args=(sock, addr))
t.start()
每个连接都必须创建新线程(或进程)来处理,否则,单线程在处理连接的过程中,无法接受其他客户端的连接:
(5)处理客户端的请求:
# 连接建立后,服务器首先发一条欢迎消息,
# 然后等待客户端数据,并加上Hello再发送给客户端,
# 如果客户端发送了exit字符串,就直接关闭连接。
def tcplink(sock, addr):
print('Accept new connection from %s:%s...' % addr)
sock.send(b'Welcome!')
while True:
data = sock.recv(1024)
time.sleep(1)
if not data or data.decode('utf-8') == 'exit':
break
sock.send(('Hello, %s!' % data.decode('utf-8')).encode('utf-8'))
sock.close()
print('Connection from %s:%s closed.' % addr)
(6) 通过编写新的客户端程序测试服务端程序:
s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
# 建立连接:
s.connect(('127.0.0.1', 9999))
# 接收欢迎消息:
print(s.recv(1024).decode('utf-8'))
for data in [b'Michael', b'Alice', b'york']:
# 发送数据:
s.send(data)
print(s.recv(1024).decode('utf-8'))
s.send(b'exit')
s.close()
测试时,我们需要打开两个命令行窗口,一个运行服务器程序,另一个运行客户端程序,就可以看到效果了:
注:客户端程序运行完毕就退出了,而服务器程序会永远运行下去,必须按Ctrl+C终止服务端程序。
4. 小结:Socke是网络通信过程中端点的抽象表示,包含进行网络通信必须的五种信息:连接使用的协议,本地主机的IP地址(客户端地址),本地进程的协议端口(客户端端口),远地主机的IP地址(服务端地址),远地进程的协议端口(服务端端口)。
对于服务器,首先要绑定监听指定地址和端口,然后对于每一个新的客户端连接,要创建一个线程或进程来处理客户端的请求。通常服务器程序会无限运行下去。对于客户端,要主动连接服务器的IP和指定端口。
由于服务器是通过服务器地址、服务器端口、客户端地址和客户端端口来唯一确定一个socket,因此当同一个端口被一个Socket绑定了以后,就不能被别的Socket绑定了。