Python网络编程之Socket原理与基本用法

本文介绍了Socket的基本原理。之前做一个科创小项目的时候使用socket,实现电脑端和树莓派端的通信,电脑端作为发送端(服务端),树莓派作为接收端(客户端),进而实现电脑无线控制与树莓派相连的LED灯。之前使用过ThingSpeak平台,通过这个平台作为中介,实现电脑端和树莓派端通过读写该平台的信息来进行控制,但是因为免费的API对读写有数量和频率限制,控制有延迟,而且经常无法读写指令,于是使用了socket。最近准备把之前做的这个小项目开源,为了方便二次开发,准备重写一下代码,于是又来复习一下socket,顺便整理成了本文。

本文不对Socket做原理性做过多地探究,仅做适当扩展和说明在Python中如何使用Socket。这部分如果没有学过一些网络协议的知识,可能看起来比较费劲,如果不想花大力气学,可先跳过先修知识部分,知道基本用法,直接看文末的代码实例即可。


系列文章

Python3 基础教程最全总结
Python3 进阶教程最全总结

一文掌握Python基础知识
一文掌握Python列表/元组/字典/集合
一文掌握Python函数用法
Python面向对象之类与对象详解
Python面向对象之装饰器与封装详解
Python面向对象之继承和多态详解
Python异常处理和模块详解
Python文件(I/O)操作详解

Python网络编程之Socket原理与基本用法
Python多线程threading模块基本用法

Python爬虫正则表达式详解 爬爬爬爬个虫子
Python爬虫实战Urllib抓取段子
Python爬虫实战抓包分析视频评论
Python爬虫实战Requests抓取博客文章
Python爬虫实战Scrapy抓取商品信息并写入数据库



文章目录

  • 系列文章
  • 1. 先修知识:
    • 1.1 TCP/IP协议
    • 1.2 UDP传输协议
    • 1.3 Socket 阻塞和非阻塞
      • 1.3.1 阻塞模式
      • 1.3.2 非阻塞模式
  • 2. Socket
    • 1.1 什么是 Socket?
    • 1.2 Python socket() 函数
    • 1.3 Socket 对象方法
    • 1.4 实例
      • 1.4.1 简单实例1
      • 1.4.2 简单实例2


1. 先修知识:

1.1 TCP/IP协议

TCP/IP(Transmission Control Protocol/Internet Protocol,传输控制协议/网际协议) 是指能够在多个不同网络间实现信息传输的协议簇。TCP/IP协议不仅仅指的是TCP 和IP两个协议,而是指一个由FTP、SMTP、TCP、UDP、IP等协议构成的协议簇, 只是因为在TCP/IP协议中TCP协议和IP协议最具代表性,所以被称为TCP/IP协议。

TCP/IP传输协议严格来说是一个四层的体系结构,应用层、传输层、网络层和数据链路层都包含其中。

层级 主要协议 功能
应用层 Telnet、FTP、SMTP 接收来自传输层的数据或者按不同应用要求与方式将数据传输至传输层
传输层 UDP、TCP 使用者使用平台和计算机信息网内部数据结合的通道,可以实现数据传输与数据共享
网络层 ICMP、IP、IGMP 负责网络中数据包的传送
数据链路层 ARP、RARP 提供链路管理错误检测、对不同通信媒介有关信息细节问题进行有效处理

1.2 UDP传输协议

UDP 是User Datagram Protocol的简称, 中文名是用户数据报协议,是OSI(Open System Interconnection,开放式系统互联) 参考模型中一种无连接的传输层协议,提供面向事务的简单不可靠信息传送服务,IETF RFC 768 是UDP的正式规范。UDP在IP报文的协议号是17。

UDP与TCP对比:
TCP 是面向连接的传输控制协议,而UDP 提供了无连接的数据报服务;TCP 具有高可靠性,确保传输数据的正确性,不出现丢失或乱序;UDP 在传输数据前不建立连接,不对数据报进行检查与修改,无须等待对方的应答,所以会出现分组丢失、重复、乱序,应用程序需要负责传输可靠性方面的所有工作;UDP 具有较好的实时性,工作效率较 TCP 协议高;UDP 段结构比 TCP 的段结构简单,因此网络开销也小。TCP 协议可以保证接收端毫无差错地接收到发送端发出的字节流,为应用程序提供可靠的通信服务。对可靠性要求高的通信系统往往使用 TCP 传输数据。

适用场合:
在选择UDP作为传输协议时必须要谨慎。在网络质量令人十分不满意的环境下,UDP协议数据包丢失会比较严重。但是由于UDP的特性:它不属于连接型协议,因而具有资源消耗小,处理速度快的优点,所以通常音频、视频和普通数据在传送时使用UDP较多,因为它们即使偶尔丢失一两个数据包,也不会对接收结果产生太大影响。比如我们聊天用的ICQ和QQ就是使用的UDP协议。


1.3 Socket 阻塞和非阻塞

Windows套接字(socket)在阻塞非阻塞两种模式下执行I/O操作。

  • 阻塞模式下,在I/O操作完成前,执行的操作函数一直等候而不会立即返回,该函数所在的线程会阻塞在这里。
  • 非阻塞模式下,套接字函数会立即返回,而不管I/O是否完成,该函数所在的线程会继续运行。

简单理解,阻塞就是干不完不准回来;非阻塞就是你先干,我现看看有其他事没有,完了告诉我一声。

1.3.1 阻塞模式

在阻塞模式的套接字上,调用任何一个Windows Sockets API都会耗费不确定的等待时间。如下图所示,在调用 recv() 函数时,发生在内核中等待数据和复制数据的过程。
Python网络编程之Socket原理与基本用法_第1张图片
当调用 recv() 函数时,系统首先查是否有准备好的数据。如果数据没有准备好,那么系统就处于等待状态。当数据准备好后,将数据从系统缓冲区复制到用户空间,然后该函数返回。在套接应用程序中,当调用 recv() 函数时,未必用户空间就已经存在数据,那么此时 recv() 函数就会处于等待状态。

当使用 socket() 函数创建套接字时,默认的套接字都是阻塞的。这意味着当调用Windows Sockets API不能立即完成时,线程处于等待状态,直到操作完成。

阻塞模式优点:

  • 开发网络程序比较简单,容易实现
  • 适用于能够立即发送和接收数据,且处理的套接字数量比较少的情况。

阻塞模式缺点:

  • 在大量建立好的套接字线程之间进行通信时困难
  • 当使用“生产者-消费者”模型开发网络程序时,为每个套接字都分别分配一个读线程、一个处理数据线程和一个用于同步的事件,增大系统的开销
  • 当希望同时处理大量套接字时,将无从下手,其扩展性很差

1.3.2 非阻塞模式

把套接字设置为非阻塞模式,即通知系统内核:在调用Windows Sockets API时,不让线程睡眠,而应该让函数立即返回。在返回时,该函数返回一个错误代码。如下图所示,一个非阻塞模式套接字多次调用 recv() 函数的过程。前三次调用 recv() 函数时,内核数据还没有准备好。因此,该函数立即返回 WSAEWOULDBLOCK 错误代码。第四次调用 recv() 函数时,数据已经准备好,被复制到应用程序的缓冲区中,recv() 函数返回成功指示,应用程序开始处理数据。
Python网络编程之Socket原理与基本用法_第2张图片
当使用 socket() 函数和 WSASocket() 函数创建套接字时,默认都是阻塞的。在创建套接字之后,通过调用 ioctlsocket() 函数,将该套接字设置为非阻塞模式。Linux下的函数是:fcntl()

非阻塞模式的优点:

  • 非阻塞套接字在控制建立的多个连接,在数据的收发量不均,时间不定时,明显具有优势
  • 通常情况下,可考虑使用套接字的“I/O模型”,它有助于应用程序通过异步方式,同时对一个或多个套接字的通信加以管理。

非阻塞模式的缺点:

  • 与阻塞模式套接字相比,不容易使用。
  • 使用非阻塞模式套接字,需要编写更多的代码,以便在每个Windows Sockets API函数调用中,对收到的 WSAEWOULDBLOCK 错误进行处理。

2. Socket

1.1 什么是 Socket?

Socket又称"套接字",应用程序通常通过"套接字"向网络发出请求或者应答网络请求,使主机间或者一台计算机上的进程间可以通讯。以下为百度百科的解释:

"""
套接字(socket)是一个抽象层,应用程序可以通过它发送或接收数据,可对其进行像对文件一样的打开、读写和关闭等操作。
套接字允许应用程序将I/O插入到网络中,并与网络中的其他应用程序进行通信。网络套接字是IP地址与端口的组合。

传输层实现端到端的通信,因此,每一个传输层连接有两个端点。那么,传输层连接的端点是什么呢?
不是主机,不是主机的IP地址,不是应用进程,也不是传输层的协议端口。传输层连接的端点叫做套接字(socket)。

根据RFC793的定义:端口号拼接到IP地址就构成了套接字。所谓套接字,实际上是一个通信端点,
每个套接字都有一个套接字序号,包括主机的IP地址与一个16位的主机端口号,即形如(主机IP地址:端口号)。

例如,如果IP地址是210.37.145.1,而端口号是23,那么得到套接字就是(210.37.145.1:23)。

总之,套接字Socket=(IP地址:端口号),套接字的表示方法是点分十进制的IP地址后面写上端口号,中间用冒号或逗号隔开。
每一个传输层连接唯一地被通信两端的两个端点(即两个套接字)所确定。

套接字可以看成是两个网络应用程序进行通信时,各自通信连接中的一个端点。
通信时,其中的一个网络应用程序将要传输的一段信息写入它所在主机的Socket中,
该Socket通过网络接口卡的传输介质将这段信息发送给另一台主机的Socket中,使这段信息能传送到其他程序中。

因此,两个应用程序之间的数据传输要通过套接字来完成。
"""
  • python中提供socket.py标准库,非常底层接口库。
  • Socket是一种通用的网络编程接囗,和网络层次没有一一对应的关系。
  • AF表示Address Family,用于 socket() 第一个参数。

1.2 Python socket() 函数

更详细说明和用法请访问Python socket 官方文档


Python 中,使用 socket() 函数创建套接字,语法格式如下:

socket.socket([family[, type[, proto]]])

参数:

  • family: 套接字家族可以使 AF_UNIX 或者 AF_INET
  • type: 套接字类型可以根据是面向连接的还是非连接分为 SOCK_STREAMSOCK_DGRAM
  • protocol: 一般不填默认为 0

1.3 Socket 对象方法

import socket
s = socket.socket()

服务器端套接字:

函数 描述
s.bind() 绑定地址(host,port)到套接字, 在AF_INET下,以元组(host,port)的形式表示地址。
s.listen() 开始TCP监听。backlog指定在拒绝连接之前,操作系统可以挂起的最大连接数量。该值至少为1,大部分应用程序设为5就可以了。
s.accept() 被动接受TCP客户端连接,(阻塞式)等待连接的到来

客户端套接字:

函数 描述
s.connect() 主动初始化TCP服务器连接,。一般address的格式为元组(hostname,port),如果连接出错,返回socket.error错误。
s.connect_ex() connect()函数的扩展版本,出错时返回出错码,而不是抛出异常

公共用途的套接字函数:

函数 描述
s.recv() 接收TCP数据,数据以字符串形式返回,bufsize指定要接收的最大数据量。flag提供有关消息的其他信息,通常可以忽略。
s.send() 发送TCP数据,将string中的数据发送到连接的套接字。返回值是要发送的字节数量,该数量可能小于string的字节大小。
s.sendall() 完整发送TCP数据,完整发送TCP数据。将string中的数据发送到连接的套接字,但在返回之前会尝试发送所有数据。成功返回None,失败则抛出异常。
s.recvform() 接收UDP数据,与recv()类似,但返回值是(data,address)。其中data是包含接收数据的字符串,address是发送数据的套接字地址。
s.sendto() 发送UDP数据,将数据发送到套接字,address是形式为(ipaddr,port)的元组,指定远程地址。返回值是发送的字节数。
s.close() 关闭套接字。
s.getpeername() 返回连接套接字的远程地址。返回值通常是元组(ipaddr,port)。
s.getsockname() 返回套接字自己的地址。通常是一个元组(ipaddr,port)
s.setsockopt(level,optname,value) 设置给定套接字选项的值。
s.getsockopt(level,optname[.buflen]) 返回套接字选项的值。
s.settimeout(timeout) 设置套接字操作的超时期,timeout是一个浮点数,单位是秒。值为None表示没有超时期。一般,超时期应该在刚创建套接字时设置,因为它们可能用于连接的操作(如connect())
s.gettimeout() 返回当前超时期的值,单位是秒,如果没有设置超时期,则返回None。
s.fileno() 返回套接字的文件描述符。
s.setblocking(flag) 如果flag为0,则将套接字设为非阻塞模式,否则将套接字设为阻塞模式(默认值)。非阻塞模式下,如果调用recv()没有发现任何数据,或send()调用无法立即发送数据,那么将引起socket.error异常。
s.makefile() 创建一个与该套接字相关连的文件。

1.4 实例

1.4.1 简单实例1

'''
服务端 sever.py
'''
import socket               
s = socket.socket()         # 创建 socket 对象
host = socket.gethostname() # 获取本地主机名
port = 12345                # 设置端口
s.bind((host, port))        # 绑定端口
s.listen(5)                 # 等待客户端连接
while True:
    c, addr = s.accept()    # 建立客户端连接。
    print('连接地址:', addr)
    send_info = '你好,孙悟空!'.encode()
    c.send(send_info)
    c.close()               # 关闭连接

'''
客户端 client.py
'''
import socket               # 导入 socket 模块
s = socket.socket()         # 创建 socket 对象
host = socket.gethostname() # 获取本地主机名
port = 12345                # 设置端口号
s.connect((host, port))
print(s.recv(1024).decode())
s.close()

效果:
Python网络编程之Socket原理与基本用法_第3张图片


1.4.2 简单实例2

# Echo server program
import socket

HOST = ''                 # Symbolic name meaning all available interfaces
PORT = 50007              # Arbitrary non-privileged port
with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as s:
    s.bind((HOST, PORT))
    s.listen(1)
    conn, addr = s.accept()
    with conn:
        print('Connected by', addr)
        while True:
            data = conn.recv(1024)
            if not data: break
            conn.sendall(data)

# Echo client program
import socket

HOST = 'daring.cwi.nl'    # The remote host
PORT = 50007              # The same port as used by the server
with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as s:
    s.connect((HOST, PORT))
    s.sendall(b'Hello, world')
    data = s.recv(1024)
print('Received', repr(data))

参考:
Python Socket:https://docs.python.org/3.7/library/socket.html?highlight=socket#socket.socket.recv
TCP/IP协议:https://baike.baidu.com/item/TCP/IP协议/212915
UDP:https://baike.baidu.com/item/UDP/571511#reference-[1]-30509-wrap
TCP:https://baike.baidu.com/item/TCP/33012
Socket 阻塞与非阻塞模式:http://blog.sina.com.cn/s/blog_63e164b00100mfvu.html
Socket阻塞模式和非阻塞模式的区别:https://zhidao.baidu.com/question/524389935515530805.html

你可能感兴趣的:(Python)