浅谈python中struct模块的使用

浅谈python中struct模块的使用_第1张图片

前言:

​ 最近在学习python网络编程这一块,在写简单的socket通信代码时,遇到了struct这个模块的使用,那么在这里就简单的介绍一下struct模块
​ 了解c语言的人,一定会知道struct结构体在c语言中的作用,它定义了一种结构,里面包含不同类型的数据(int,char,bool等等),方便对某一结构对象进行处理。而在网络通信当中,大多传递的数据是以二进制流(binary data)存在的。当传递字符串时,不必担心太多的问题,而当传递诸如int、char之类的基本数据的时候,就需要有一种机制将某些特定的结构体类型打包成二进制流的字符串然后再网络传输,而接收端也应该可以通过某种机制进行解包还原出原始的结构体数据。 python中的struct模块就提供了这样的机制。

一、struct的作用是什么

​ 该模块的主要作用就是对python基本类型值与 bytes字节流之间的转换

二、学习struct之前需要具备的知识

1.字节顺序/大小/对齐

默认情况下,pack是使用本地C库的字节顺序来编码的。格式化字符串的第一个字符可以用来表示填充数据的字节顺序、大小和对齐方式,如下表所描述的:

浅谈python中struct模块的使用_第2张图片
如果格式符中没有设置这些,那么默认将使用 @。

本地字节顺序是指字节顺序是由当前主机系统决定。比如:Intel x86和AMD64(x86-64)使用小字节序; Motorola 68000和 PowerPC G5使用大字节序。ARM和Intel安腾支持切换字节序。可以使用sys.byteorder查看当前系统的字节顺序。

本地大小(Size)和对齐(Alignment)是由c编译器的sizeof表达式确定的。它与本地字节顺序对应。

2.fmt格式化

struct其实使用起来很简单,但是有些人对struct中fmt格式化的含义了解不是很清楚,导致使用起来非常困难,这里需要了解一下c语言中的类型含义

字符 C类型 C含义 python类型 标准尺寸
x 填充字节 转义字符 没有意义的值
c char 容纳单字符的一种基本数据类型 长度为1的字节 1
b signed char 有符号 整型 1
B unsigned char 无符号 整型 1
_Bool 布尔 布尔 1
h short 短整型 整型 2
H unsigned short 无符号短整型 整型 2
i int 整形 整型 4
I unsigned int 无符号整型 整型 4
l long 长整型 整型 4
L unsigned long 无符号长整形 整型 4
q long long 超长整型 整型 8
Q unsigned long long 无符号超长整型 整型 8
n ssize_t 相当于有符号整型 整型
N size_t 相当于无符号振兴 整型
f float 单精度浮点数 浮动 4
d double 双精度浮点数 浮动 8
s char[] 字符数组 字节
p char[] 字符数组 字节
P void * 无类型 整型

这里有人不理解unsigend 和 sigend , 我们知道在二进制中第一位是符号位,这里的unsigend 和 sigend代表的就是有无符号位的意思

三、代码示例

1.引入库

代码如下(示例):

import struct

2.Packing(打包)

代码如下(示例):

import struct

import binascii

values = (1, 'ab'.encode('utf-8'), 2.7)
s = struct.Struct('I 2s f')
packed_data = s.pack(*values)

print('原始值:', values)
print('格式符:', s.format)
print('占用字节:', s.size)
print('打包结果:', binascii.hexlify(packed_data))

# output
原始值: (1, b'ab', 2.7)
格式符: b'I 2s f'
占用字节: 12
打包结果: b'0100000061620000cdcc2c40'

这个示例将打包的值转换为十六进制字节序列,用binascii.hexlify()方法打印出来。

3.Unpacking(解包)

import struct
import binascii

packed_data = binascii.unhexlify(b'0100000061620000cdcc2c40')

s = struct.Struct('I 2s f')
unpacked_data = s.unpack(packed_data)
print('解包结果:', unpacked_data)

# output
解包结果: (1, b'ab', 2.700000047683716)

将打包的值传给unpack(),基本上返回相同的值(浮点数会有差异)。

4.字节顺序/大小的指定

import struct
import binascii

values = (1, 'ab'.encode('utf-8'), 2.7)
print('原始值  : ', values)

endianness = [
    ('@', 'native, native'),
    ('=', 'native, standard'),
    ('<', 'little-endian'),
    ('>', 'big-endian'),
    ('!', 'network'),
]

for code, name in endianness:
    s = struct.Struct(code + ' I 2s f')
    packed_data = s.pack(*values)
    print()
    print('格式符  : ', s.format, 'for', name)
    print('占用字节: ', s.size)
    print('打包结果: ', binascii.hexlify(packed_data))
    print('解包结果: ', s.unpack(packed_data))

# output
原始值  :  (1, b'ab', 2.7)

格式符  :  b'@ I 2s f' for native, native
占用字节:  12
打包结果:  b'0100000061620000cdcc2c40'
解包结果:  (1, b'ab', 2.700000047683716)

格式符  :  b'= I 2s f' for native, standard
占用字节:  10
打包结果:  b'010000006162cdcc2c40'
解包结果:  (1, b'ab', 2.700000047683716)

格式符  :  b'< I 2s f' for little-endian
占用字节:  10
打包结果:  b'010000006162cdcc2c40'
解包结果:  (1, b'ab', 2.700000047683716)

格式符  :  b'> I 2s f' for big-endian
占用字节:  10
打包结果:  b'000000016162402ccccd'
解包结果:  (1, b'ab', 2.700000047683716)

格式符  :  b'! I 2s f' for network
占用字节:  10
打包结果:  b'000000016162402ccccd'
解包结果:  (1, b'ab', 2.700000047683716)

5.缓冲区

将数据打包成二进制通常是用在对性能要求很高的场景。
在这类场景中可以通过避免为每个打包结构分配新缓冲区的开销来优化。
pack_into()和unpack_from()方法支持直接写入预先分配的缓冲区。

import array
import binascii
import ctypes
import struct

s = struct.Struct('I 2s f')
values = (1, 'ab'.encode('utf-8'), 2.7)

print('原始值:', values)

print('使用ctypes模块string buffer')

b = ctypes.create_string_buffer(s.size)
print('原始buffer  :', binascii.hexlify(b.raw))
s.pack_into(b, 0, *values)
print('打包结果写入 :', binascii.hexlify(b.raw))
print('解包        :', s.unpack_from(b, 0))

print('使用array模块')

a = array.array('b', b'\0' * s.size)
print('原始值   :', binascii.hexlify(a))
s.pack_into(a, 0, *values)
print('打包写入 :', binascii.hexlify(a))
print('解包     :', s.unpack_from(a, 0))


# output
原始值: (1, b'ab', 2.7)

使用ctypes模块string buffer
原始buffer  : b'000000000000000000000000'
打包结果写入 : b'0100000061620000cdcc2c40'
解包        : (1, b'ab', 2.700000047683716)

使用array模块
原始值   : b'000000000000000000000000'
打包写入 : b'0100000061620000cdcc2c40'
解包     : (1, b'ab', 2.700000047683716)

你可能感兴趣的:(python,开发语言)