0_1_字符串常用方法以及编码问题

1. 查找索引和出现次数

# 查找sub在字符串中出现的位置，并返回
str.find(sub, start, end)  

# 查找sub在字符串中最后出现的位置（右侧第一个），并返回
str.rfind(sub, start, end)  

# 功能和str.find()一样，查不到会报错
str.index(sub, start, end)  

# 功能和str.rfind()一样，查不到会报错
str.rindex(sub, start, end)  

# 统计sub在字符串中出现的次数，并返回
str.count(sub,start,end)

2. 替换、分割、添加

# 将字符串中的old替换为new，替换count个，返回新字符串
str.replace(old, new, count)

# 根据字符串中的sep拆分maxsplit次，返回拆分后的列表
str.split(sep, maxsplit)

# 根据字符串中的换行符分割,返回拆分后的列表
str.splitlines()

# 将字符串分为三部分，sep前，sep，sep后，返回元组
str.partition(sep)

# 将列表中的每个元素后都添加字符串内容组成新串，返回
str.jion(iterable)

3. 大小写转换

# 将字符串第一个字符大写，其余全部小写，返回新串
str.capitalize()

# 将字符串的每个单词首字母大写，返回新串
str.title()

# 将字符串全部变为小写，返回新的字符串
str.lower()

# 将字符串全部变为大写，返回新的字符串
str.upper()

4. 判断字符

# 判断字符串是否全为字母
str.isalpha()

# 判断是否全为数字
str.isdigit()

# 判断是否只包含字母或者数字
str.isalnum()

# 判断是否只包含空格
str.isspace()

# 检查是否以prefix开头，返回布尔值
str.startswith(prefix, start, end)

# 检查是否以suffix结尾，返回布尔值
str.endswith(suffix, start, end)

5. 左对齐、右对齐、居中

# 将字符串左对齐，长度不满width，用fillchar补满
str.ljust(width, fillchar)

# 将字符串右对齐，长度不满width，用fillchar补满
str.rjust(width, fillchar)

# 将字符串居中，长度不满width，用fillchar补满
str.center(width, fillchar)

6. 删除多余字符

# 删除左侧的字符
str.lstrip(chars)

# 删除右侧的字符
str.rstrip(chars)

# 删除两端的字符
str.strip(chars)

7. 字符串编码

7.1 ASCII码

一个字节（byte）占8个二进制位, 每一个二进制位（bit）有0和1两种状态，因此八个二进制位就可以组合出256种状态.
上个世纪60年代，美国制定了一套字符编码，对英语字符与二进制位之间的关系，做了统一规定。这被称为ASCII码，一直沿用至今.
ASCII码一共规定了128个字符的编码, 这128个符号（包括32个不能打印出来的控制符号），只占用了一个字节的后面7位，最前面的1位统一规定为0。
英语用128个符号编码就够了，但是用来表示其他语言，128个符号是不够的，不同的国家有不同的字母，因此，哪怕它们都使用256个符号的编码方式，代表的字母却不一样.

7.2 Unicode

Unicode，将世界上所有的符号都纳入其中。每一个符号都给予一个独一无二的编码，那么乱码问题就会消失。
Unicode只是一个符号集，它只规定了符号的二进制代码，却没有规定这个二进制代码应该如何存储。
Unicode的问题：
（1）如何才能区别Unicode和ASCII？
（2）如果Unicode统一规定，每个符号用三个或四个字节表示，那么每个英文字母前都必然有二到三个字节是0，这对于存储来说是极大的浪费
它们造成的结果是：
（1）出现了Unicode的多种存储方式，也就是说有许多种不同的二进制格式，可以用来表示Unicode。
（2）Unicode在很长一段时间内无法推广，直到互联网的出现。

7.4 UTF-8

UTF-8就是在互联网上使用最广的一种Unicode的实现方式
UTF-8最大的一个特点，就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度。
规则：
1）对于单字节的符号，字节的第一位设为0，后面7位为这个符号的unicode码。因此对于英语字母，UTF-8编码和ASCII码是相同的。
2）对于n字节的符号（n>1），第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。

解读UTF-8编码非常简单。如果一个字节的第一位是0，则这个字节单独就是一个字符；如果第一位是1，则连续有多少个1，就表示当前字符占用多少个字节。

8.1 原始字符串

原始字符串以r开头，可以在原始字符串中放入任何字符，但不能以反斜线“\”结尾，用来防止反斜线转义.
原始字符串是用来解决正则表达式和ASCII字符之间的冲突而产生的技术

8.2 Unicode字符串

Unicode字符串使用u前缀，就像原始字符串使用r一样.
注意：在python3中，所有的字符串都是Unicode字符串.

9. Python2 和 Python3 之间的区别

在Python3当中，文本字符串类型（使用Unicode数据存储）被命名为 str , 字节字符串类型被命名为 bytes 。一般情况下，实例化一个字符串会得到一个 str 对象，Python3默认是Unicode，也就是这个意思。
如果你想得到bytes，那就在文本之前加上前缀 b , 或者 encode 一下
所以，很显然，str 对象有一个encode方法，bytes 对象有一个decode方法。

在Python3中的 str 对象在Python2中叫做 unicode,但 bytes 对象在Python2中叫做 str.
Python2自作聪明为了对一个unicode对象执行解码而进行的隐式编码

b.encode('ascii').decode('GBK')

如果你在用2.X，请养成在字符串加上 u 前缀的习惯，统一编码UTF-8，如果windows控制台或者Pycharm控制台依旧出现乱码，那多半是控制台编码不同，改过来就好。