0_1_字符串常用方法以及编码问题

1. 查找索引和出现次数

# 查找sub在字符串中出现的位置,并返回
str.find(sub, start, end)  

# 查找sub在字符串中最后出现的位置(右侧第一个),并返回
str.rfind(sub, start, end)  

# 功能和str.find()一样,查不到会报错
str.index(sub, start, end)  

# 功能和str.rfind()一样,查不到会报错
str.rindex(sub, start, end)  

# 统计sub在字符串中出现的次数,并返回
str.count(sub,start,end)  

2. 替换、分割、添加

# 将字符串中的old替换为new,替换count个,返回新字符串
str.replace(old, new, count)

# 根据字符串中的sep拆分maxsplit次,返回拆分后的列表
str.split(sep, maxsplit)

# 根据字符串中的换行符分割,返回拆分后的列表
str.splitlines()

# 将字符串分为三部分,sep前,sep,sep后,返回元组
str.partition(sep)

# 将列表中的每个元素后都添加字符串内容组成新串,返回
str.jion(iterable)

3. 大小写转换

# 将字符串第一个字符大写,其余全部小写,返回新串
str.capitalize()

# 将字符串的每个单词首字母大写,返回新串
str.title()

# 将字符串全部变为小写,返回新的字符串
str.lower()

# 将字符串全部变为大写,返回新的字符串
str.upper()

4. 判断字符

# 判断字符串是否全为字母
str.isalpha()

# 判断是否全为数字
str.isdigit()

# 判断是否只包含字母或者数字
str.isalnum()

# 判断是否只包含空格
str.isspace()

# 检查是否以prefix开头,返回布尔值
str.startswith(prefix, start, end)

# 检查是否以suffix结尾,返回布尔值
str.endswith(suffix, start, end)

5. 左对齐、右对齐、居中

# 将字符串左对齐,长度不满width,用fillchar补满
str.ljust(width, fillchar)

# 将字符串右对齐,长度不满width,用fillchar补满
str.rjust(width, fillchar)

# 将字符串居中,长度不满width,用fillchar补满
str.center(width, fillchar)

6. 删除多余字符

# 删除左侧的字符
str.lstrip(chars)

# 删除右侧的字符
str.rstrip(chars)

# 删除两端的字符
str.strip(chars)

7. 字符串编码

7.1 ASCII码

一个字节(byte)占8个二进制位, 每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种状态.
上个世纪60年代,美国制定了一套字符编码,对英语字符与二进制位之间的关系,做了统一规定。这被称为ASCII码,一直沿用至今.
ASCII码一共规定了128个字符的编码, 这128个符号(包括32个不能打印出来的控制符号),只占用了一个字节的后面7位,最前面的1位统一规定为0。

英语用128个符号编码就够了,但是用来表示其他语言,128个符号是不够的,不同的国家有不同的字母,因此,哪怕它们都使用256个符号的编码方式,代表的字母却不一样.

7.2 Unicode

Unicode,将世界上所有的符号都纳入其中。每一个符号都给予一个独一无二的编码,那么乱码问题就会消失。
Unicode只是一个符号集,它只规定了符号的二进制代码,却没有规定这个二进制代码应该如何存储。
Unicode的问题:
(1)如何才能区别Unicode和ASCII?
(2)如果Unicode统一规定,每个符号用三个或四个字节表示,那么每个英文字母前都必然有二到三个字节是0,这对于存储来说是极大的浪费
它们造成的结果是:
(1)出现了Unicode的多种存储方式,也就是说有许多种不同的二进制格式,可以用来表示Unicode。
(2)Unicode在很长一段时间内无法推广,直到互联网的出现。

7.4 UTF-8

UTF-8就是在互联网上使用最广的一种Unicode的实现方式
UTF-8最大的一个特点,就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度。
规则:
1)对于单字节的符号,字节的第一位设为0,后面7位为这个符号的unicode码。因此对于英语字母,UTF-8编码和ASCII码是相同的。
2)对于n字节的符号(n>1),第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的unicode码。

解读UTF-8编码非常简单。如果一个字节的第一位是0,则这个字节单独就是一个字符;如果第一位是1,则连续有多少个1,就表示当前字符占用多少个字节。

8.1 原始字符串

原始字符串以r开头,可以在原始字符串中放入任何字符,但不能以反斜线“\”结尾,用来防止反斜线转义.
原始字符串是用来解决正则表达式和ASCII字符之间的冲突而产生的技术

8.2 Unicode字符串

Unicode字符串使用u前缀,就像原始字符串使用r一样.
注意:在python3中,所有的字符串都是Unicode字符串.

9. Python2 和 Python3 之间的区别

在Python3当中,文本字符串类型(使用Unicode数据存储)被命名为 str , 字节字符串类型被命名为 bytes 。一般情况下,实例化一个字符串会得到一个 str 对象 ,Python3默认是Unicode,也就是这个意思。
如果你想得到bytes,那就在文本之前加上前缀 b , 或者 encode 一下
所以,很显然,str 对象有一个encode方法,bytes 对象有一个decode方法。

在Python3中的 str 对象在Python2中叫做 unicode,但 bytes 对象在Python2中叫做 str.
Python2自作聪明为了对一个unicode对象执行解码而进行的隐式编码

b.encode('ascii').decode('GBK')

如果你在用2.X,请养成在字符串加上 u 前缀的习惯,统一编码UTF-8,如果windows控制台或者Pycharm控制台依旧出现乱码,那多半是控制台编码不同,改过来就好。

你可能感兴趣的:(0_1_字符串常用方法以及编码问题)