bytes、bytearray
python3引入了两个新类型
bytes
不可变字节序列
可以简单认为字节组成的列表
bytearray
字节数组
可变
字节组成的序列,字符串组成序列,有什么差异?
字符串以字符为单位
字节是以单个字节为单位,网络传输时候,很重要
bytes不可变,所以出现了bytearray这种类型
字符串拼接,用‘+’效率不是很高,所以要用format,格式化字符串,format做了效率优化。
所有的数据,都能够用bytes来处理。
python当中,最主要还是用bytes处理字符串
字符串与bytes
字符串是字符组成的有序列表,字符可以使用编码来理解
bytes是字节组成的,有序的,不可变序列
bytearray是字节组成的,有序的,可变序列
编码与解码
字符串按照不同的字符集编码encode返回字节序列bytes
encode(encoding='utf-8',error='strict') - bytes - 不可变的
字节序列按照不同的字符集编码decode返回字符串
bytes.decode(encoding='utf-8',error='strict') - str
bytearray.decode(encoding='utf-8',error='strict') - str
- gb2312、gbk都是2个字节上面玩
- unicode编码,是多字节玩
- 内存中的数据,都是字节,你需要告诉内存,是什么编码,才能找到数字对应的字符。
- linux默认编码是utf-8,windows默认编码是gbk
- linux回车换行符是\r\n,windows下面的回车换行符是\n
- 这是linux和windows对打字机的理解方式不一样
- linux换行,自动到下一行,再回到头。
- windows是先回到头,再下来。
- 这就是大家对不同操作系统不同编码的理解。
- 字符串的编码,是可以理解的。
- 编码无非就是一个编码表,告诉你某一个数字和某一个字符之间的对应。
- 这些字符能够显示在屏幕上,要到字库当中,找对应的点阵映射。
- 然后把点阵映射,映射到屏幕上的点阵上面。
列表封装的比数组比较复杂。
列表的c语言源码当中,封装的其实,还是数组。
bytes定义
定义
bytes()空bytes,没用
bytes(int) 指定字节的bytes,被0填充
bytes(iterable_of_ints) -> bytes [0,255]的int组成的可迭代对象
bytes(string,encoding[,errors]) -> bytes等价于string.encode()
bytes(bytes_or_buffer) -> immutable copy of bytes_or_buffer
从一个字节序列或者buffer复制出一个新的不可变的bytes对象
使用b前缀定义
只允许基本ASCII使用字符形式b'abc9'
使用16进制表示b"\x41\x61"
和str类型相似,都是不可变类型,所以方法很多都一样。只不过bytes的方法,输入是bytes,输出是bytes
b'abcdef'.replace(b'f',b'k')
b'abc'.find(b'b')
类方法 bytes.fromhex(string)
类似于java和c++当中的静态方法
string必须是2个字符的16进制的形式,'6162 6a 6b',空格将被忽略
bytes.fromhex('6162 09 6a 6b00')
hex()
返回16进制表示的字符串
'abc'.encode().hex()
索引
b'abcdef'[2]返回该字节对应的数,int类型。
有序的序列,一定可以索引和迭代
bytearray定义
定义
bytearray()空bytes
bytearray(int)指定字节的bytearray,被0填充
bytearray(iterable_of_ints) -> bytearray [0,255]的int组成的可迭代对象
bytearray(string,encoding[,errors]) -> bytearray 近似string.encode() 不过返回可变对象
bytearray(bytes_or_buffer)从一个字节序列或者buffer复制出一个新的可变的bytearray对象
这个方法,可以将bytes转变成为bytearray,消耗一次内存拷贝。
注意,b前缀定义的类型是bytes类型
buffer本身,就是一个bytearray
bytearray操作
和bytes类型的方法相同
bytearray(b'abcdef').replace(b'f',b'k')
bytearray(b'abc').find(b'b')
类方法 bytearray.fromhex(string)
string必须是2个字符的16进制的形式,'6162 6a 6b',空格将被忽略
bytearray.fromhex('6162 09 6a 6b00')
hex()
返回16进制表示的字符串
bytearray('abc'.encode()).hex()
索引
bytearray(b'abcdef')[2]返回该字节对应的数,int类型
bytearray操作
append(int)尾部追加一个元素
insert(index,int)在指定索引位置插入元素
extend(iterable_of_ints)将一个可迭代的整数集合追加到当前bytearray
pop(index=-1)从指定索引上移除元素,默认从尾部移除
remove(value)找到第一个value移除,找不到抛ValueError异常
注意:上述方法若需要使用int类型,值在[0,255]
clear() 清空bytearray
reverse() 翻转bytearray,就地修改
b = bytearray()
b.append(97)
b.append(99)
b.insert(1,98)
b.extend([65,66,67])
b.remove(66) # 找不到抛出异常,一定要注意处理异常
b.pop
b.reverse()
b.clear()