字符串
简介
字符串序列用于表示和存储文本,python中字符串是不可变的,一旦声明,不能改变
这里的的改变,指的是声明变量后的真实对象。但如果第二次用到变量,赋值,系统会默认为你新生成一个变量。比如:
>>> a='11'
>>> print id(a)
41264744
>>> a='22'
>>> print id(a)
41264648
可以看出,变量a,实际上是两个同名变量,存储地址不同。只会新生成,删除旧的!
通常由单引号(' ),双引号(" ),三引号(''' """)包围
其中三引号可以由多行组成,编写多行文本的快捷语法,常用语文档字符串,在文件的特定地点,被当做注释。便捷的多行注释
Python实际三类字符串:
1.通常意义字符串(str)
2.原始字符串,以大写R 或 小写r开始,r'',不对特殊字符进行转义
3.Unicode字符串,u'' basestring子类
在 Python 中,字符串是“不可改变的序列”
1.不可变
2.满足序列基本操作,按位置存取,切片及索引
字符串
1.获得帮助:
>>> help(str)
>>> dir(str)
>>> help(str.replace)
2.不可变性
在创建之后就不能就地改变(同java),不能通过对其某一位置进行赋值而改变字符划分为不可变序列,这些字符串所包含的字符存在从左到右的顺序,不可在原处修改。python中字符串相当于一个不可变序列的列表,一旦声明,每个字符位置固定
意味着若想改变,必须新建一个!
>>>s=’spam’
>>>s[0]=’k’ #TypeError
#修改字符串类似java,重新赋值
s = ‘k’ + s[1:]
原始字符串
原始字符串常量,r”abcd”,(r/R)即去掉了反斜线转义机制。关闭转义机制,即\不再表示转义
用处:
1.正则表达式
用于处理正则表达式,减少反斜杠
p4search = re.compile(r'\s*')
2.系统路径
可以方便地表示系统路径
path = r'e:\book'
unicode字符串
Unicode是书写国际文本的标准方法。
Python允许你处理Unicode文本——你只需要在字符串前加上前缀u或U。例如,u"This is a Unicode string."
BP: 在你处理文本文件的时候使用Unicode字符串,特别是当你知道这个文件含有用非英语的语言写的文本。
常用操作
1.基本操作
+ :string1+string2 #联接字符串,将后一个串链接到前一个串的后面
Python不允许在+表达式中出现其他类型,需要手工转【这点不同于java】‘abc’+str(9)
* :string*n #创建一个新字符串重复n次原来的串
[] :string[n] #从字符串中获取对应位置的一个字符
[:] :string[n:m] #截取字符串,如果为:m从头到m如果为n:从n到尾
in :char in string #判断一个字符是否在串中,如果在返回为真(True)
not in :char not in string #判断一个字符是否不在串中,如果在返回为真(True)
r/R : r/Rstring #禁止转义字符的实际意义,整个字符为原始意义
len() : 长度len(s)
2.类型转换
字符串和数字相互转换
字符串到数字int/float/long
数字到字符串str
>>> int(42)
42
>>> int('42')
42
>>> str(42)
'42'
>>> float('42.0')
42.0
>>> str(42.0)
'42.0'
或者使用string模块的函数
s:进行转换的字符串, base:可选,目标进制
import string
string.atoi(s[,base]) #base默认为10,如果为0,那么s就可以是012或0x23这种形式的字符串,如果是16那么s就只能是0x23或0X12这种形式的字符串
string.atol(s[,base]) #转成long
string.atof(s[,base]) #转成float
字符串和列表的转换
字符串转列表:
s=’spam’
l = list(s)
l2 = "hello world".spilt()
列表转字符串
k = ‘’.join(l)
注意,不能join列表中的非字符串
3.修改字符串
s = s + ’a’
s = s[3:] + ‘b’
s = s.replace(‘pl’,’pa’)
a = '' #赋值空
del a #整个变量删除
4.索引和分片
索引s[i]
s[0]首个
s[-1] = s[len(s)-1] 倒数第一个
分片s[i:j]
不含上边界,s[1:3] 取[1-2]
s[1:]取1到结束 s[:3] 取开始到2
s[:-1]开始到倒数第二个
s[:]开始到结尾,相当于一个复制
s[1:10:2] 取1-9,步长=2
s[a:b:-2] 步长为负数,两个边界意义反转了,表示从b+1到a,步长-2
s=’abcdefg’
s[5:1:-1] 得到 fedc
s[1:3] == s[slice(1,3)] 内置函数
字符串格式化
这里只介绍基本字符串格式化,扩展在后续篇幅介绍%c 单个字符%d 十进制整数%o 八进制整数%s 字符串%x 十六进制整数,其中字母小写%X 十六进制整数,其中字母大写
>>> str = "so %s a day!"
>>> str % 'beautiful'
'so beautiful a day!'
>>> '{0} is {1}'.format('a','b')
'a is b'
>>> template = "{0}, {1} and {2}"
>>> template.format('a', 'b', 'c')
'a, b and c'
内建函数列表
【字符串方法是python文本处理头号工具】
string.capitalize()
字符串第一个字符大写
string.center(width,[,fill])
原字符居中,空格填充至width长度
string.count(str,beg=0,end=len(string))
获得字符串中某一个子串的数目,计算出现次数,可指定范围
string.decode(encoding=’UTF-8’,errors=’strict’)
解码字符串,出错默认报ValueError,除非errors是ignore或replace
string.encode(encoding=’UTF-8’,errors=’strict’)
string.endswith(suffix,beg=0,end=len(string))
是否以**结尾
string.expandtabs(tabsize=8)
把字符串中tab转为空格,默认8个
string.find(str,beg=0,end=len(stirng))
检测是否包含str,存在返回开始索引,否则返回-1
string.index(str,begin=0,end=len(string))
同find,不存在报异常,ValueError
string.isalnum()
至少一个字符,且所有字符均为字母或数字,True. 检测字符串是否只包含0-9A-Za-z
string.isalpha()
至少一个字符,所有字符都是字母,True. 检测字符串是否只包含字母
string.isdecimal()
只包含十进制数,True
stirng.isdigit()
只包含数字,True. 检测字符串是否仅包含数字
string.islower()
至少一个区分大小写字符且所有字符小写,True. 检测字符串是否均为小写字母
string.isnumeric()
只含数字字符,True
string.isspace()
只包含空格,True. 检测字符串是否均为空白字符
string.istitle()
标题化字符,True. 检测字符串中的单词是否为首字母大写
string.isupper()
至少一个区分大小写字符且所有字符大写,True. 检测字符串是否均为大写字母
string.join(seq)
以string作为分隔符,seq中所有元素合并为新的字符串. 将原字符串插入参数字符串中的每两个字符之间
string.ljust(width)
返回一个原字符串左对齐,空格补充至长度width
string.lower()
转小写. 将字符串全部转为小写
string.lstrip()
截掉左侧的空格
string.partition(str)
= find+split,从str出现第一个位置,截断为pre_str,str,after_str元组,不含str则pre_str=strstring.replace(str1,str2,num=string.count(str1))替换,指定不超过num次,可作为模板实现
string.rfind(str,beg=0,end=len(string))
同find,右边开始
string.rindex(str,beg=0,end=len(string))
同index,右边开始
string.rjust(width)
右对齐,空格补齐
string.rpartition(str)
同partition,右边开始
string.rstrip([chars])
清理右侧空白,包括换行符,返回处理后字符串
string.split(str=””, maxsplit =string.count(str))
以str切片,可指定分割次数, 分割字符串,返回列表,默认分隔符空格
string.splitlines(num=string.count(‘\n’))
s.splitlines([keepends])按行分隔,可指定分割次数
string.startswith(obj,beg=0,end=len(string))
以str开头,True. 检测字符串是否以某一子串开头
string.strip([obj])
在string上执行lstrip和rstrip
string.swapcase
反转string中大小写. 字符串中小写转大写,大写转小写
string.title()
标题花,单词首字母大写,其余小写
string.translate(str,del=””)
s.translate(table)根据str给出表转换string字符,要过滤的字符放在del参数中
string.upper()
转大写. 将字符串全部转为大写
string.zfill(width)
返回长度width的字符串,原字符串右对齐,前面填充0
len(string)
获取字符串的长度
最佳实践
1.循环中用到长度
while i < len(stri):
#修改
size = len(stri)
while i < size
2.字符串追加
l = ['a', 'b']
result = ''
for i in l:
result += i
#修改
result = ''.join(l)
其他
1.转义符
几个常用:
\n换行,\\反斜杠
\t制表 \'单引号
\r回车 \"双引号
后续需扩展
字符串编码详解
字符串格式化
正则表达式
字符串涉及常用模块(序列化/文本包装等)
一些讨论
在python有各种各样的string操作函数。最开始的时候,python有一个专门的string的module,使用string的方法要先import,但后来由于众多的python使用者的建议,从python2.0开始,string方法改为用S.method()的形式调用,只要S是一个字符串对象就可以这样使用,而不用import。同时为了保持向后兼容,现在的python中仍然保留了一个string的module,其中定义的方法与S.method()是相同的,这些方法都最后都指向了用S.method()调用的函数。要注意,S.method()能调用的方法比string的module中的多,比如isdigit()、istitle()等就只能用S.method()的方式调用。
对一个字符串对象,首先想到的操作可能就是计算它有多少个字符组成,很容易想到用S.len(),但这是错的,应该是len(S)。因为len()是内置函数,包括在__builtin__模块中。python不把len()包含在string类型中,乍看起来好像有点不可理解,其实一切有其合理的逻辑在里头。len()不仅可以计算字符串中的字符数,还可以计算list的成员数,tuple的成员数等等,因此单单把len()算在string里是不合适,因此一是可以把len()作为通用函数,用重载实现对不同类型的操作,还有就是可以在每种有len()运算的类型中都要包含一个len()函数。python选择的是第一种解决办法。类似的还有str(arg)函数,它把arg用string类型表示出来。
字符串中字符大小写的变换:S.lower() #小写
S.upper() #大写
S.swapcase() #大小写互换
S.capitalize() #首字母大写
String.capwords(S)
#这是模块中的方法。它把S用split()函数分开,然后用capitalize()把首字母变成大写,最后用join()合并到一起
S.title() #只有首字母大写,其余为小写,模块中没有这个方法
字符串在输出时的对齐:S.ljust(width,[fillchar])
#输出width个字符,S左对齐,不足部分用fillchar填充,默认的为空格。
S.rjust(width,[fillchar]) #右对齐
S.center(width, [fillchar]) #中间对齐
S.zfill(width) #把S变成width长,并在右对齐,不足部分用0补足
字符串中的搜索和替换:S.find(substr, [start, [end]])
#返回S中出现substr的第一个字母的标号,如果S中没有substr则返回-1。start和end作用就相当于在S[start:end]中搜索
S.index(substr, [start, [end]])
#与find()相同,只是在S中没有substr时,会返回一个运行时错误
S.rfind(substr, [start, [end]])
#返回S中最后出现的substr的第一个字母的标号,如果S中没有substr则返回-1,也就是说从右边算起的第一次出现的substr的首字母标号
S.rindex(substr, [start, [end]])
S.count(substr, [start, [end]]) #计算substr在S中出现的次数
S.replace(oldstr, newstr, [count])
#把S中的oldstar替换为newstr,count为替换次数。这是替换的通用形式,还有一些函数进行特殊字符的替换
S.strip([chars])
#把S中前后chars中有的字符全部去掉,可以理解为把S前后chars替换为None
S.lstrip([chars])
S.rstrip([chars])
S.expandtabs([tabsize])
#把S中的tab字符替换没空格,每个tab替换为tabsize个空格,默认是8个
字符串的分割和组合:S.split([sep, [maxsplit]])
#以sep为分隔符,把S分成一个list。maxsplit表示分割的次数。默认的分割符为空白字符
S.rsplit([sep, [maxsplit]])
S.splitlines([keepends])
#把S按照行分割符分为一个list,keepends是一个bool值,如果为真每行后而会保留行分割符。
S.join(seq) #把seq代表的序列──字符串序列,用S连接起来
字符串的mapping,这一功能包含两个函数:String.maketrans(from, to)
#返回一个256个字符组成的翻译表,其中from中的字符被一一对应地转换成to,所以from和to必须是等长的。
S.translate(table[,deletechars])
#使用上面的函数产后的翻译表,把S进行翻译,并把deletechars中有的字符删掉。需要注意的是,如果S为unicode字符串,那么就不支持deletechars参数,可以使用把某个字符翻译为None的方式实现相同的功能。此外还可以使用codecs模块的功能来创建更加功能强大的翻译表。
字符串还有一对编码和解码的函数:S.encode([encoding,[errors]])
#其中encoding可以有多种值,比如gb2312 gbk gb18030 bz2 zlib big5 bzse64等都支持。errors默认值为"strict",意思是UnicodeError。可能的值还有'ignore', 'replace', 'xmlcharrefreplace', 'backslashreplace' 和所有的通过codecs.register_error注册的值。这一部分内容涉及codecs模块,不是特明白
S.decode([encoding,[errors]])
字符串的测试函数,这一类函数在string模块中没有,这些函数返回的都是bool值:S.startwith(prefix[,start[,end]])
#是否以prefix开头
S.endwith(suffix[,start[,end]])
#以suffix结尾
S.isalnum()
#是否全是字母和数字,并至少有一个字符
S.isalpha() #是否全是字母,并至少有一个字符
S.isdigit() #是否全是数字,并至少有一个字符
S.isspace() #是否全是空白字符,并至少有一个字符
S.islower() #S中的字母是否全是小写
S.isupper() #S中的字母是否便是大写
S.istitle() #S是否是首字母大写的
字符串类型转换函数,这几个函数只在string模块中有:string.atoi(s[,base])
#base默认为10,如果为0,那么s就可以是012或0x23这种形式的字符串,如果是16那么s就只能是0x23或0X12这种形式的字符串
string.atol(s[,base]) #转成long
string.atof(s[,base]) #转成float
这里再强调一次,字符串对象是不可改变的,也就是说在python创建一个字符串后,你不能把这个字符中的某一部分改变。任何上面的函数改变了字符串后,都会返回一个新的字符串,原字串并没有变。其实这也是有变通的办法的,可以用S=list(S)这个函数把S变为由单个字符为成员的list,这样的话就可以使用S[3]='a'的方式改变值,然后再使用S=" ".join(S)还原成字符串