小小程序员.¥

Python 字符串及正则表达式

字符串是所有编程语言在项目开发过程中涉及最多的一个内容。大部分项目的运行结果，都需要以文本的形式展示给客户，比如财务系统的总账报表，电子游戏的比赛结果，火车站的列车时刻表等。

5.1 字符串常用操作
在Python开发过程中，为了实现某项功能，经常需要对某些字符串进行特殊处理，如拼接字符串、截取字符串、格式化字符串等。

5.1.1 拼接字符串
使用“+”运算符可完成对多个字符串的拼接，“+”运算符可以连接多个字符串并产生一个字符串对象。
例如，定义两个字符串，一个保存英文版的名言，另一个用于保存中文版的名言，然后使用“+”运算符连接，代码如下：
mot_en = 'Remembrance is a form of meeting. Forgetfulness is a form of freedom.'
mot_cn = '记忆是一种相遇。遗忘是一种自由。'print(mot_en + '——' + mot_cn)

字符串不允许直接与其他类型的数据拼接

解决该问题，可以将整数转换为字符串，然后以拼接字符串的方法输出该内容。

5.1.2 计算字符串的长度
由于不同的字符所占字节数不同，所以要计算字符串的长度，需要先了解各字符所占的字节数。在Python中，数字、英文、小数点、下划线和空格占一个字节；一个汉字可能会占2~4个字节，占几个字节取决于采用的编码。汉字在GBK/GB2312编码中占2个字节，在UTF-8/unicode编码中一般占用3个字节（或4个字节）

在Python中，提供了len()函数计算字符串的长度，语法格式如下：
len(string)
其中，string用于指定要进行长度统计的字符串。

在默认的情况下，通过len()函数计算字符串的长度时，不区分英文、数字和汉字，所有字符都按一个字符计算。

5.1.3 截取字符串
由于字符串也属于序列，所以要截取字符串，可以采用切片方法实现。通过切片方法截取字符串的语法格式如下：
string[start : end : step]
参数说明：

string：表示要截取的字符串。

start：表示要截取的第一个字符的索引（包括该字符），如果不指定，则默认为0。

end：表示要截取的最后一个字符的索引（不包括该字符），如果不指定则默认为字符串的长度。

step：表示切片的步长，如果省略，则默认为1，当省略该步长时，最后一个冒号也可以省略。

说明：字符串的索引同序列的索引是一样的，也是从0开始，并且每个字符占一个位置。

例如，定义一个字符串，然后应用切片方法截取不同长度的子字符串，并输出，代码如下：

str1 = '人生苦短，我用Python!' # 定义字符串
substr1 = str1[1] # 截取第2个字符
substr2 = str1[5:] # 从第6个字符截取
substr3 = str1[:5] # 从左边开始截取5个字符
substr4 = str1[2:5] # 截取第3个到第5个字符print('原字符串：',str1)print(substr1 + '\n' + substr2 + '\n' + substr3 + '\n' + substr4)

注意：在进行字符串截取时，如果指定的索引不存在，则会抛出异常。

要解决该问题，可以采用try…except语句捕获异常。

5.1.4 分割、合并字符串
在Python中，字符串对象提供了分割和合并字符串的方法。分割字符串是把字符串分割为列表，而合并字符串是把列表合并为字符串，分割字符串和合并字符串可以看作是互逆操作。
1．分割字符串
字符串对象的split()方法可以实现字符串分割，也就是把一个字符串按照指定的分隔符切分为字符串列表。该列表的元素中，不包括分隔符。split()方法的语法格式如下：
str.split(sep, maxsplit)
参数说明：

str：表示要进行分割的字符串。

sep：用于指定分隔符，可以包含多个字符，默认为None，即所有空字符（包括空格、换行“\n”、制表符“\t”等）。

maxsplit：可选参数，用于指定分割的次数，如果不指定或者为-1，则分割次数没有限制，否则返回结果列表的元素个数，个数最多为maxsplit+1。

返回值：分隔后的字符串列表。该列表的元素为以分隔符为界限分割的字符串（不含分隔符），当该分隔符前面（或与前一个分隔符之间）无内容时，将返回一个空字符串元素。说明：在split()方法中，如果不指定sep参数，那么也不能指定maxsplit参数。

例如，定义一个保存明日学院网址的字符串，然后应用split()方法根据不同的分隔符进行分割，代码如下：
str1 = '明日学院官网 >>> www.mingrisoft.com'print('原字符串：',str1)
list1 = str1.split() # 采用默认分隔符进行分割
list2 = str1.split('>>>') # 采用多个字符进行分割
list3 = str1.split('.') # 采用.号进行分割
list4 = str1.split(' ',4) # 采用空格进行分割，并且只分割前4个

print(str(list1) + '\n' + str(list2) + '\n' + str(list3) + '\n' + str(list4))

list5 = str1.split('>') # 采用>进行分割print(list5)
上面的代码在执行后，将显示以下内容：
原字符串：明日学院官网 >>> www.mingrisoft.com
['明', '日', '学', '院', '官', '网', '>>>', 'www.mingrisoft.com']
['明日学院官网 ', ' www.mingrisoft.com']
['明日学院官网 >>> www', 'mingrisoft', 'com']
['明', '日', '学', '院', '官网 >>> www.mingrisoft.com']
['明日学院官网 ', ' ', ' ', ' www.mingrisoft.com']

说明：在使用split()方法时，如果不指定参数，默认采用空白符进行分割，这时无论有几个空格或者空白符都将作为一个分隔符进行分割。

2．合并字符串
合并字符串与拼接字符串不同，它会将多个字符串采用固定的分隔符连接在一起。

合并字符串可以使用字符串对象的join()方法实现，语法格式如下：strnew = string.join(iterable)
参数说明：

strnew：表示合并后生成的新字符串。

string：字符串类型，用于指定合并时的分隔符。

iterable：可迭代对象，该迭代对象中的所有元素（字符串表示）将被合并为一个新的字符串。string作为边界点分割出来。

5.1.5 检索字符串
在Python中，字符串对象提供了很多应用于字符串查找的方法，这里主要介绍以下几种方法。
1．count()方法
count()方法用于检索指定字符串在另一个字符串中出现的次数。如果检索的字符串不存在，则返回0，否则返回出现的次数。其语法格式如下：
str.count(sub[, start[, end]])
参数说明：

str：表示原字符串。

sub：表示要检索的子字符串。

start：可选参数，表示检索范围的起始位置的索引，如果不指定，则从头开始检索。