正则表达式,就是从一段字符串中提取需要的字符串
需要引入的模块:re,常用的函数:re.findall(参数1,参数2,参数3)
参数1,表示用什么规则进行提取
参数2,表示从哪里提取。返回值是一个列表
参数3,re.I 表示不区分大小写,re.S 匹配多行中符合条件的值
1、. 通配符,表示匹配某个字符后面的任意一个字符
str1 ='aab1abb2ab'
print(re.findall('ab.',str1)) #会找出ab后有任意一个字符的字符
==>['ab1', 'abb']
2、? 通配符,表示匹配某个字符后面的0个或1个字符
str1 ='aab1abbbdef'
print(re.findall('ab?',str1)) #会找a后有0个、1个b的字符
==>['a', 'ab', 'ab']
3、* 通配符,表示匹配某个字符后面的若干个字符,也包括0个的情况
str1 ='aab1abb2abbb3'
print(re.findall('ab*',str1)) #会找a后有0个、1个、多个b的字符
==>['a', 'ab', 'abb', 'abbb']
str2='ab1abc2abcc3bc4'
print(re.findall('abc*',str2)) #会找ab后有0个、1个、多个c的字符
==>['ab', 'abc', 'abcc']
4、+ 通配符,表示匹配某个字符后面的1个或多个字符,不包括0个情况
str1 ='a1ab2abbb3'
print(re.findall('ab+',str1)) #找a后有1个、多个b的字符
==>['ab', 'abbb']
5、()表示只显示匹配到的值
str1 ='a1ab2abbb3'
print(re.findall('a(b+)',str1))
==>['b', 'bbb']
6、.*? 提取字符串两端之间的内容
特点:懒惰匹配,尽可能少的匹配,取前不取后
str1 = '我是咸鱼呀'
print(re.findall('是(.*?)呀',str1))
str2 = '咸鱼是我'
print(re.findall('(.*?)是',str2))
str3 = '我是咸鱼'
print(re.findall('是(.*?)',str3)) #彰显取前不取后的特点
==>['咸鱼']
==>['咸鱼']
==>['']
7、.* 提取字符串两端之间的内容
特点:贪婪匹配,尽可能多的匹配,前后都会匹配
str1 = '我是咸鱼呀'
print(re.findall('是(.*)呀',str1))
str2 = '咸鱼是我'
print(re.findall('(.*)是',str2))
str3 = '我是咸鱼'
print(re.findall('是(.*)',str3)) # 与.*?匹配的区别之处
==>['咸鱼']
==>['咸鱼']
==>['咸鱼']
8、\w{n} 表示匹配字母、数字、下划线,n表示匹配多少位
str1 = '1@ab#$2c_3__!@#'
print(re.findall('\w{2}',str1))
==>['ab', '2c', '_3', '__']
9、\W{n} 表示匹配非字母、非数字、非下划线,n表示匹配多少位
str1 = '1@ab#$2c_3__!@#'
print(re.findall('\W{2}',str1))
==>['#$', '!@']
10、\s 匹配空格、\t 、\n
str1='''@我是_
\t 咸鱼@
'''
print(re.findall('\s',str1))
==>['\n', '\t', ' ', '\n']
11、\S 匹配非空格、非\t 、非\n
str1='''@我是_
\t 咸鱼@
'''
print(re.findall('\S',str1))
['@', '我', '是', '_', '咸', '鱼', '@']
12、^ 以什么开头 $以什么结尾
list1 = ['a','1ab','abc','1a','1abc']
for one in list1:
if re.findall('^ab',one):
print('以ab开头')
elif re.findall('ab$',one):
print('以ab结尾')
else:
print('无关')
==>无关
==>以ab结尾
==>以ab开头
==>无关
==>无关