参考链接: Python的字符串Strings decode
“专业人士笔记”系列目录:
创帆云:Python成为专业人士笔记--强烈建议收藏!每日持续更新!zhuanlan.zhihu.com
更改字符串的大小写
Python的字符串类型提供了许多作用于字符串大小写的函数。这些包括 :
str.casefoldstr.upperstr.lowerstr.capitalizestr.titlestr.swapcase
使用unicode字符串(Python 3中的默认字符串),这些操作方法不是1:1映射或可逆的。这些操作中的大多数是为了显示或者打印需要的字符串形式,而不是为了字符串格式标准化,接下来详细介绍各个方法的使用:
str.casefold()
print("XßΣ".casefold())
# 'xssσ'
print("XßΣ".lower())
# 'xßς'
#Python casefold() 方法是Python3.3版本之后引入的,其效果和 lower() 方法非常相#似,都可以转换字符串中所有大写字符为小写
#两者的区别是:lower() 方法只对ASCII编码,也就是‘A-Z’有效,对于其他语言(非汉语#或英文)中把大写转换为小写的情况只能用 casefold() 方法
str.upper()
str.upper接受字符串中的每个字符,并将其转换为对应的大写字母,例如:
"This is a 'string'.".upper()
# "THIS IS A 'STRING'."
str.lower()
str.lower的作用正好相反;它获取字符串中的每个字符,并将其转换为等价的小写字母:
"This IS a 'string'.".lower()
# "this is a 'string'."
str.capitalize()
str.capitalize 返回字符串的大写版本,也就是说,它使第一个字符大写,其余字符小写
"this Is A 'String'.".capitalize()
# "This is a 'string'."
str.title()
title返回字符串的标题格式,也就是说,每个单词的开头字母都是大写的,其他字母都是小写的
"this Is a 'String'".title()
# "This Is A 'String'"
str.swapcase()
swapcase返回一个新的string对象,在这个对象中,所有小写字符都被转换为大写,所有大写字符都被转换为小写
当一个集合类型字符串需要处理时,使用map函数是最高效和简洁的:
print(list(map(str.upper,["These","are","some","'strings'"])))
#输出:['THESE', 'ARE', 'SOME', "'STRINGS'"]
翻译字符串中的字符
Python支持对str的翻译方法,该方法允许指定翻译表(用于替换)以及过程中应该删除的任何字符
translation_table = str.maketrans("aeiou", "12345") #按位置进行翻译替换
my_string = "This is a string!"
print(my_string.translate(translation_table))
#输出:Th3s 3s 1 str3ng!
Python的字符串模块提供字符串相关的高级操作。要使用它们,请导入string模块
import string
print(string.ascii_letters) #所有的ascii字符
#输出:abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ
print(string.ascii_lowercase) #所有的ascii小写字符
#输出:abcdefghijklmnopqrstuvwxyz
print(string.ascii_uppercase) # 所有的ascii大写字符
#输出:'ABCDEFGHIJKLMNOPQRSTUVWXYZ'
print(string.digits) # 所有十进制数字字符
#输出:'0123456789'
print(string.hexdigits) # 所有十六进制数字字符
#输出:'0123456789abcdefABCDEF'
print(string.octaldigits) # 所有八进制数字字符
#输出:'01234567'
print(string.punctuation) # C语言环境中被认为是标点符号的所有字符
#输出:'!"#$%&'()*+,-./:;<=>?@[]^_`{|}~'
print(string.whitespace #所有被认为是空格的ASCII字符
#输出:' tnrx0bx0c'
print(string.printable) # 包含所有可打印字符及字符串的组合、数字字符串ascii字母,字符串。标点符号、空格等
#输出:'0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&'()*+,-./:;<=>?@[]^_`{|}~
tnrx0bx0c'
删除字符串首尾字符
Python提供了三种方法,能够从字符串中删除前导字符和尾随字符:str.strip、str.rstrip和str.lstrip。这三个方法都返回一个新字符串对象,其中删除了不需要的字符
str.strip([chars])
str.strip在给定的字符串中删除参数中包含的任何前导字符或尾随字符;如果不提供字符或不提供字符,则默认情况下删除所有空白字符。例如 :
print(" 创帆云 ".strip())
#输出:创帆云 不带任何空格
还可以删除指定的字符:
print("aaaaaaaaaaaa创帆云aaaa".strip('a'))
#输出 创帆云
str.rstrip([chars]) 和 str.lstrip([chars])
这些方法与str.strip()具有类似的语义和参数,它们的区别在于它们开始的方向。rstrip()从字符串的末尾开始,而str.lstrip()从字符串的开头开始 :
print("aaaaaaaaaaaa创帆云aaaa".lstrip('a'))
#输出:创帆云aaaa
print("aaaaaaaaaaaa创帆云aaaa".rstrip('a'))
#输出:aaaaaaaaaaaa创帆云
反转字符串
使用内置的reverse()函数可以反转字符串,该函数接受一个字符串并以相反的顺序返回一个迭代器 :
print(reversed('hello'))
#注意这里返回的是迭代器
用生成式返回反转后的字符:
print(list(c for c in (reversed('hello'))))
#['o', 'l', 'l', 'e', 'h']
当然,也可以将返回的字符重新拼装成字符串:
print("".join(reversed('hello')))
# olleh
字符串拆分
split(sep=None, maxsplit=-1)获取一个字符串并返回原始字符串的子字符串列表。
其拆分行为的不同取决于sep参数是提供的还是省略的。如果没有提供sep,那么只要有空格,就会发生分割。但是,前面和后面的空白将被忽略,多个连续的空白字符将被视为单个空白字符
print(" This is a sentence. ".split())
#输出 ['This', 'is', 'a', 'sentence.']
按照指定的字符进行拆分:
print(" This is a sentence. ".split('s'))
#输出 [' Thi', ' i', ' a ', 'entence. ']
默认情况下,分隔符每次出现时都进行分割,但是maxsplit参数限制了发生分割的次数。默认值-1表示没有限制 :
print(" This is a sentence. ".split('s',1))
# [' Thi', ' is a sentence. '] 只根据第一个出现的s字符串拆分
字符串替换
Python的str类型还有一个方法,可以将给定字符串中的一个子字符串替换为另一个子字符串:
str.replace(old, new[, count]):
print('创帆云'.replace('帆','易')) 将字符串所有的'帆'字替换成'易'
#输出:创易云
其中replace的第3个参数,是指定替换多少次,如下:
print('创帆云创帆云'.replace('帆','易',1))
#输出:创易云创帆云 可以看到,只把第一个出现的汉字替换了
字符串组成
Python的str类型还具有一些用于分析字符串内容的方法。这些是str.isalpha, str.isdigit, str.isalnum, str.isspace。大小写可以用str.isupper、str.islower和str.istitle,下面分别讲述:
str.isalpha 验证给定字符串中的是否所有字符都是字母,如果是则返回True
print("Hello World".isalpha())
print("HelloWorld2".isalpha())
print("HelloWorld".isalpha())
#输出:
False #有空格
False #有数2
True
str.isupper, str.islower, str.istitle
这些方法验证给定字符串中的大小写
print("HeLLO WORLD".isupper())
print("HeLLO WORLD".islower())
print("Hello World".istitle())
#输出:
False
False
True #有关title函数,请参阅字符串那篇文章
str.isdecimal, str.isdigit, str.isnumeric
isdecimal 如果只有十进制字符,则返回True,否则为False
isdigit 所有字符都是数字,并且其中至少有一个字符,则返回True
isnumeric 如果只有数字字符,则返回True,否则为False 。
其输出矩阵如下:
str.isalnum
这是str.isalpha和str.isnumeric的组合,如果给定字符串中的所有字符都是字母或数字,那么它的计算结果就是True
"Hello2World".isalnum()
#True
"Hello World".isalnum()
#False 里面有空格
str.isspace
如果字符串只包含空白字符,则计算为True
print("trn".isspace())
#True,在python里上述都算空白
print(" ".isspace())
#True
print("".isspace())
#False 没有值不算空白
字符串包含关系
Python非常直观地检查一个字符串是否包含给定的子字符串。只需使用in操作符即可:
print('z' in 'zhou')
#True
list列表到字符串的转换
字符串可以用作分隔符,使用join()方法将列表字符连接成一个字符串。例如,可以创建一个字符串,其中列表中的每个元素用空格分隔:
" ".join(["once","upon","a","time"])
# once upon a time
#也可以用特定的字符串连接:
"---".join(["once", "upon", "a", "time"])
#once---upon---a---time
子字符串出现次数
str.count(sub[, start[, end]])
str.count返回一个整型数,表示子字符串在另一个字符串中出现的次数。可选参数start和end指示开始搜索和结束搜索的位置。默认情况下,将搜索整个字符串
s = "She sells seashells by the seashore."
s.count("sh") # 2 sh在字符串中出现了2次
s.count("seashells") # 1
字符串填充
Python提供了一些函数来对字符串进行赋值填充,使得文本之间更容易对齐
a = "hello world"
print(a.ljust(20,'X')) # hello worldXXXXXXXXX
print(a.rjust(20,'X')) # XXXXXXXXXhello world
判断首尾字符
为了在Python中判断给定字符串的开头和结尾,可以使用方法str.startswith()和str.endswith()
str.startswith(prefix[, start[, end]])
顾名思义,str.startswith用于判断给定字符串是否以前缀中的给定字符开头
s = "This is a test string"
s.startswith("Thi") # True
s.startswith("thi") # False 注意大小写不一样
s.startswith("is", 2) #从第2位开始判断(索引从0开始),返回 True
你还可以传一个元组作为参数:
s = "This is a test string"
print(s.startswith(('This', 'That')))
#返回True ,如果是多个值,则只要满足其中一个条件即返回True
str.endswith(prefix[, start[, end]])
判断是否以某个子字符串结尾,其用法与startswith完全一样
bytes字符串和unicode字符串转换
文件和网络消息的内容可以表示二进制bytes编码字符。通常需要将它们转换为unicode字符以便正确显示
通常,两都间的转换是通过 decode和encode两个函数完成的
s = b'xc2xa9 abc' # s是一个字节型字符串 ,而不是python3中默认的的UTF-8字符
s[0] # b'xc2' -
type(s)
# bytes
u = s.decode('utf-8')
# decode将字节型字符串转换为Unicode字符串(python3)
u[0]
#'u00a9' - Unicode字符“版权标志”(U+00A9)'
type(u) # str类型
u.encode('utf-8')
#b'xc2xa9 abc'
str.encode 会将utf-8字符串转换为二次制字节字符串
本文中代码已在python3云环境中调试通过,请勿转载,谢谢