Python中没有二进制类型,但是可以使用string字符串类型来存储二进制数据,然后使用struct模块来对二进制数据进行处理。下面将详细描述如何使用struct模块来处理二进制数据。
使用struct.pack把一个整数值打包成字符串,打开Python命令行,输入:
>>>import struct
>>> a =0x01020304
>>> str= struct.pack("I", a)
>>>repr(str)
"'\\x04\\x03\\x02\\x01'"
此时,str为一个字符串,字符串中的内容与整数a的二进制存储的内容相同。
使用struct.unpack把字符串解包成整数类型,如下:
>>> b =struct.unpack("I", str)
>>> b
(16909060,)
在解包之后,返回一个元组类型(tuple)的数据。
如果多个数据进行打包,可以在格式中指定打包的数据类型,然后数据通过参数传入:
>>> a ="hello"
>>> b ="world!"
>>> c =2
>>> d =45.123
>>> str= struct.pack("5s6sif", a, b, c, d)
等价于: struct.pack_into(“5s6sif”,str, 0, a, b, c, d)
>>> str
'helloworld!\x00\x02\x00\x00\x00\xf4}4B'
解包多个数据可以这样做:
>>>parts = struct.unpack("5s6sif", str)
等价于: struct.unpack_from(“5s6sif”, str, 0)
>>>parts
('hello','world!', 2, 45.12300109863281)
从上可以看到浮点值在解包后与原来值不一样,这是因为浮点数的精度问题导致的。
struct模块中二进制格式化表示
格式 |
C类型 |
Python类型 |
字节数 |
x |
填充字节 |
无值 |
1 |
c |
char |
长度为1的字符串 |
1 |
b |
signed char |
整型 |
1 |
B |
unsigned char |
整型 |
1 |
? |
_bool |
bool |
1 |
h |
short |
整型 |
2 |
H |
unsigned short |
整型 |
2 |
i |
Int |
整型 |
4 |
I |
Unsigned int |
整型 |
4 |
l |
Long |
整型 |
4 |
L |
Unsigned long |
整型 |
4 |
q |
Long long |
整型 |
8 |
Q |
Unsigned long long |
整型 |
8 |
f |
float |
浮点数 |
4 |
d |
double |
浮点数 |
8 |
s |
Char[] |
字符串 |
1 |
p |
Char[] |
字符串 |
1 |
P |
Void * |
long |
4 |
最后一个可以用来表示指针类型,占4个字节(32位),8个字节(64位)。
为了在与不同硬件结构之间交换数据,需要考虑字节序,如下:
字符 |
字节序 |
大小和对齐 |
@ |
本机字节序 |
本机,本机4字节对齐 |
= |
本机字节序 |
标准,按原字节数对齐 |
< |
小尾字节序 |
标准,按原字节数对齐 |
> |
大尾字节序 |
标准,按原字节对齐 |
! |
网络字节序(大尾) |
标准,按原字节对齐 |
注:缺省的情况下,使用本机字节序(同@),可以通过上面的字符修改字节序。
计算格式字符串的大小函数:struct.calcsize(fmt)
>>>struct.calcsize("ihi") 缺省为4字节对齐时,长度为12
12
>>>struct.calcsize("iih") 当h在最后的时(此时不4字节对齐),长度为10
10
>>>struct.calcsize("@ihi")
12
>>>struct.calcsize("=ihi")
10
>>>struct.calcsize(">ihi")
10
>>>struct.calcsize("<ihi")
10
>>>struct.calcsize("!ihi")
10
注:二进制文件打开/读取的时候需要使用“rb”/“wb”模式以二进制方式打开/读取文件。
注:关于LE(little-endian)和BE(big-endian)区别:
LE—最符合人的思维的字节序,地址低位存储值的低位,地址高位存储值的高位。
BE—最直观的字节序,地址低位存储值的高位,地址高位存储值的低位。
例如:双字0X01020304在内存中存储方式,LE=0403 02 01,BE=01 02 03 04。