10.23 - 正则表达式

1.正则表达式语法

正则表达式是用来匹配或者描述字符串的工具

用途：
a.判断输入的字符串是否是邮箱/手机号码。是否是IP地址
b.提取满足条件的字符串
c.字符串替换

python中通过re模块中相应的方法来支持正则表达式的匹配、查找和替换功能

代码示例

from re import fullmatch
"""
fullmatch(正则表达式字符串，字符串) --> 判断正则表达式和字符串是否完全匹配
正则表达式：就是一个字符串，字符串中是正则表达式语法。r'正则表达式'
正则表达式中包含两个部分，一个是正则表达式对应的字符，二是普通字符
"""

# 1\. .（点）：匹配任意字符
"""
一个.只匹配一个任意字符
"""
# 匹配一个字符串，第一个是'a',第二个字符是是任意字符，最后一个字符是b
re_str = r'a.b'
result = fullmatch(re_str, 'a&b')
print(result)

# 匹配一个长度是4，第一个字符和最后一个字符分别是a，中间是两个任意字符传

re_str = r'a..b'
result = fullmatch(re_str, 'a&%b')
print(result)

# 2.\w:匹配字母数字下划线
"""
一个\w匹配字符串
"""
# 匹配一个第一个字符是数字字母或者下划线，后面三个字符是任意字符的字符串
re_str = r'\w...'
print(fullmatch(re_str, '_jss'))
print(fullmatch(re_str, '5jss'))

# 3.\s：匹配任意空白字符
"""
空白字符：空格、制表符、回车、等，都是如空白字符
一个\s匹配一个空白字符
"""
re_str = r'a\sb'
result = fullmatch(re_str, 'a\nb')
print(result)

# 4.\d:匹配数字字符
re_str = r'\d\d\d'
re_str = fullmatch(re_str, '185')
print(result)

# 5.\b:检测边界
"""
一个\b不会去匹配一个字符，而是是单纯的检测\b出现的位置是否是单词边界 
单词边界：字符串开始和结尾、空格、换行、标点符号等，可以将两个单词隔开的字符都是
"""
re_str = r'\babc'
result = fullmatch(re_str, 'abc')
print(result)
# 匹配 一个字符串前三位是abc，第四位是空白字符，后面是aaa,并且要求c是单词边界
re_str = r'abc\b.aaa'
result = fullmatch(re_str, 'abc,aaa')
print(result)

# 6.^：检测是否是字符串开头
re_str = r'^\d\d\d'  # 判断一个字符串是否是三个数字开头
result = fullmatch(re_str, '123')
print(result)

# 7.$：检测是否是字符串结尾
re_str = r'abc$'
result = fullmatch(re_str, 'abc')
print(result)

# 8.\W：匹配非字母、数字、下划线
re_str = '\Wabc'
result = fullmatch(re_str, '#abc')
print(result)

# 9.\S：匹配非空白字符
re_str = r'\S...'
result = fullmatch(re_str, 'wsda')
print(result)

# 10.\D：匹配非数字字符
re_str = r'\D\w\w\w'
result = fullmatch(re_str, 's_ad')
print(result)

# 11.\B：检测是否不是单词边界
re_str = r'adfc\Bsd'
result = fullmatch(re_str, 'adfcsd')
print(result)

# 12.[]：匹配中括号中出现的任意一个字符
"""
一个中括号匹配一个字符
[字符集] ---> 匹配一个字符，这字符是字符集中的任意一个字符
例如：[abc],[\d+]
[字符1-字符2] ---> 匹配一个字符，这个 字符是编码Unicode编码值在字符1到字符2中的任意字符
例如：[1-9] --> 数字1到9  [a-z] --> 小写字母 [A-Z] --> 大写字母
[\u0031-\u0039] --> 数字1-9(可以写编码值)
[\u4E00-\u9fa5] --> 匹配所有中文

注意：-在中括号中，如果放在两个字符之间表示范围
"""
re_str = r'asd[sd]d'
result = fullmatch(re_str, 'asddd')
print(result)

re_str = r'[1-4]\d\d\d'
result = fullmatch(re_str, '4635')
print(result)

re_str = r'[\u4E00-\u9fa5][\u4E00-\u9fa5][\u4E00-\u9fa5]'
result = fullmatch(re_str, '很深刻')
print(result)

re_str = r'[19-]'
result = fullmatch(re_str, '-')
print(result)

# 匹配一个字符，是字母、数字、下划线 、空白
re_str = r'[\w\s]'
result = fullmatch(re_str, '_')
print(result)

# 13.[^字符集]：匹配一个不在字符集中的任意字符
"""
注意：^必须放在中括号中的最前面才有效
"""
# 匹配一个四位的字符串，第一位不是abc中的任意一个，后面两位是任意字符
re_str = r'[^abc]..'
re_str = r'[^1-9]..'
result = fullmatch(re_str, '9as')
print(result)

运行结果

<_sre.SRE_Match object; span=(0, 3), match='a&b'>
<_sre.SRE_Match object; span=(0, 4), match='a&%b'>
<_sre.SRE_Match object; span=(0, 4), match='_jss'>
<_sre.SRE_Match object; span=(0, 4), match='5jss'>
<_sre.SRE_Match object; span=(0, 3), match='a\nb'>
<_sre.SRE_Match object; span=(0, 3), match='a\nb'>
<_sre.SRE_Match object; span=(0, 3), match='abc'>
<_sre.SRE_Match object; span=(0, 7), match='abc,aaa'>
<_sre.SRE_Match object; span=(0, 3), match='123'>
<_sre.SRE_Match object; span=(0, 3), match='abc'>
<_sre.SRE_Match object; span=(0, 4), match='#abc'>
<_sre.SRE_Match object; span=(0, 4), match='wsda'>
<_sre.SRE_Match object; span=(0, 4), match='s_ad'>
<_sre.SRE_Match object; span=(0, 6), match='adfcsd'>
<_sre.SRE_Match object; span=(0, 5), match='asddd'>
<_sre.SRE_Match object; span=(0, 4), match='4635'>
<_sre.SRE_Match object; span=(0, 3), match='很深刻'>
<_sre.SRE_Match object; span=(0, 1), match='-'>
<_sre.SRE_Match object; span=(0, 1), match='_'>
None

2.正则表达式次数相关符号

代码示例

from re import fullmatch
import re

# 1.*(匹配0次或者多次)
"""
字符* --> 字符出现0次或者多次
"""
# 匹配0位或者多位的数字字符串
re_str = r'\d*'
print(fullmatch(re_str, '9656'))
print(fullmatch(re_str, '965s6'))

# 用一个正则表达式来检测一个标识符是否符合要求：数字字母下划线组成，数字不开头(位数至少1位)
re_str = r'[a-zA-Z_]\w*'
print(fullmatch(re_str, 'aSAD65_'))

# 2.+(匹配一次或者多次)
# abc前面有一个或者多个数字的字符串
re_str = r'\d+abc'
print(fullmatch(re_str, '4abc'))

# 3.?（0次或者一次）

re_str = r'.+?123'
print(fullmatch(re_str, 'a123'))
print(re.findall(re_str, 'a123asda456123158123'))
print('-------------------------------------')

# 练习：写一个正则表达式，匹配所有的整数（123，-2334，+9...（可匹配），012，-023..不能匹配 ）
re_str = r'[-+]?[1-9]\d*'
print(fullmatch(re_str, '456'))
print(fullmatch(re_str, '+056'))

# 4.{}(指定次数)
"""
{N} --> 匹配N次
{M,N} --> 匹配M到N次
{M,} --> 至少匹配M次
{,N} --> 最多匹配N次
"""
re_str = r'\d{3}'
print(fullmatch(re_str, '123'))
re_str = r'\d{3,}'
print(fullmatch(re_str, '1234'))
re_str = r'\d{,2}'
print(fullmatch(re_str, '12'))
re_str = r'\w{6,16}'
print(fullmatch(re_str, '12_ad54'))

# 判断密码是否符合要求：密码是由数字和字母组成并且6-16位
re_str = r'[\da-zA-Z]{6,16}'
print(fullmatch(re_str, '12ad5465asd'))
"""
几种常用的非贪婪匹配模型：
*? 重复任意次，但尽可能少重复  
+? 重复1次或更多次，但尽可能少重复  
?? 重复0次或1次，但尽可能少重复  
{n,m}? 重复n到m次，但尽可能少重复  
{n,}? 重复n次以上，但尽可能少重复  
"""

运行结果

<_sre.SRE_Match object; span=(0, 4), match='9656'>
None
<_sre.SRE_Match object; span=(0, 7), match='aSAD65_'>
<_sre.SRE_Match object; span=(0, 4), match='4abc'>
<_sre.SRE_Match object; span=(0, 4), match='a123'>
['a123', 'asda456123', '158123']
-------------------------------------
<_sre.SRE_Match object; span=(0, 3), match='456'>
None
<_sre.SRE_Match object; span=(0, 3), match='123'>
<_sre.SRE_Match object; span=(0, 4), match='1234'>
<_sre.SRE_Match object; span=(0, 2), match='12'>
<_sre.SRE_Match object; span=(0, 7), match='12_ad54'>
<_sre.SRE_Match object; span=(0, 11), match='12ad5465asd'>

3.分支和分组

1.|分支

条件1|条件2 --> 先用条件1去匹配，如果匹配成功就匹配成功。如果条件1匹配失败，
用条件2去匹配。

注意：如果条件1匹配成功不会在匹配条件2

代码示例

re_str = r'[a-z]{3}|[A-Z]{3}'
print(re.fullmatch(re_str, 'abc'))

re_str = r'abc|d|aaa'
print(re.fullmatch(re_str, 'aaa'))

# 'abc' + W/H/Y
re_str = r'abc(W|H|Y)'
print(re.fullmatch(re_str, 'abcH'))

代码示例

re_str = r'[a-z]{3}|[A-Z]{3}'
print(re.fullmatch(re_str, 'abc'))

re_str = r'abc|d|aaa'
print(re.fullmatch(re_str, 'aaa'))

# 'abc' + W/H/Y
re_str = r'abc(W|H|Y)'
print(re.fullmatch(re_str, 'abcH'))

运行结果

<_sre.SRE_Match object; span=(0, 3), match='abc'>
<_sre.SRE_Match object; span=(0, 3), match='aaa'>
<_sre.SRE_Match object; span=(0, 4), match='abcH'>

2.()分组

a.组合(将括号中的内容作为一个整体进行操作)
b.捕获 --> 使用带括号的正则表达式匹配成功后,只获取括号中的内容
c.重复 --> 在正则表达式张可以通过\数字来重复前面()中匹配到的结果.数字代表前面第几个括号

代码示例

# a.组合
# 匹配一个字符串,以数字字母的组合出现3次
re_str = r'(\d[a-zA-Z]){3}'
print(re.fullmatch(re_str, '2h3j4k'))

re_str = r'(\d{3})abc'
print(re.fullmatch(re_str, '773abc'))

# b.捕获
# 找出字符串中符合表达式的字符串并返回一个列表
print(re.findall(re_str, 'euhasdkf55sfads546abc5dgs45s5_54'))

# c.重复
re_str = r'([a-z]{3})-(\d{2})\1\2'  # \1将前面括号里面的内容重复一遍 \2将前面第二个括号里面的内容重复一遍...
print(re.fullmatch(re_str, 'hsn-78hsn78'))

运行结果

<_sre.SRE_Match object; span=(0, 6), match='2h3j4k'>
<_sre.SRE_Match object; span=(0, 6), match='773abc'>
['546']
<_sre.SRE_Match object; span=(0, 11), match='hsn-78hsn78'>

3.转义符号

正则表达式中可以通过在特殊的符号前加\,来让特殊的符号没有意义
. --> 任意字符 \. --> 字符.
+ --> 匹配一次或者多次 \+ --> 字符+
 * ^ $等有特殊的功能

 注意:在中括号中有特殊功能的符号,只代表符号本身
      \不管在哪儿都需要转义
      -在[]外面没有特殊功能
      ()需要转义

代码示例

re_str = r'\d{2}\.\d{2}'
print(re.fullmatch(re_str, '12.32'))

re_str = r'\d\+\d'
print(re.fullmatch(re_str, '4+5'))

re_str = r'[\\]'
print(re.fullmatch(re_str, '\\'))

re_str = r'\(\\'
print(re.fullmatch(re_str, '(\\'))

re_str = r'(\d{3})\1([a-z])\1'
print(re.fullmatch(re_str, '456456j456'))

运行结果

<_sre.SRE_Match object; span=(0, 5), match='12.32'>
<_sre.SRE_Match object; span=(0, 3), match='4+5'>
<_sre.SRE_Match object; span=(0, 1), match='\\'>
<_sre.SRE_Match object; span=(0, 2), match='(\\'>
<_sre.SRE_Match object; span=(0, 10), match='456456j456'>

4.re模块中的函数

代码示例

import re

"""
1.compile
compile(正则表达式字符串) --> 将正则表达式字符串转换成正则表达式对象
"""
re_object = re.compile(r'\d+')
print(re_object)

print(re_object.fullmatch('4656'))

# 2.fullmatch和match
"""
fullmatch(正则表达式字符串, 需要匹配的字符串) --> 用正则表达式去完全匹配字符串(匹配整个字符串)
返回匹配对象

match(正则表达式字符串, 字符串)
--> 匹配字符串开头,返回匹配对象或者None
"""
result = re.fullmatch(r'\d([a-zA-Z]+)', '2hjsd')
print(result, type(result))
# a.span(group=0) --> 获取匹配成功的开始下标和结束下标(开区间)
print(result.span(1))
print(result.start(1))  # 获取匹配到的结果开始下标
print(result.end(1))   # 获取匹配到的结果结束下标
# b.group(下标=0) --> 获取匹配结果
"""
group()/group(0) --> 获取正则表达式完全匹配的结果
group(index>0) --> 获取正则表达式中第index个分组匹配到的结果
"""
print(result.group())
print(result.group(1))

# c.string --> 获取被匹配的原字符串
print(result.string)

# match
result = re.match(r'\d([a-zA-Z]+)123', '2hjsd123ABC')
print('======', result)

# 3.search
"""
search(正则表达式,字符串) --> 查找字符串中满足正则表达式的第一个字符串.返回值是匹配对象或者None
"""
result = re.search(r'(\d)[a-zA-Z]+', 'dffs6fd8fs')
print(result.group(0))
print(result.group(1))
print(result.string)

# 练习:使用search匹配出一个字符串中所有的数字字符串
# 'abc34hjha8923hjhasd98as59k' --> 匹配出34, 8923 , 98, 59
re_str = r'\d+'
str1 = 'abc34hjha8923hjhasd98as59k'
result = re.search(re_str, str1)
print('========')
while result:
    print(result)
    print(result.string)
    str1 = str1[result.end():]
    result = re.search(re_str, str1)

# 4.findall()
"""
findall(正则表达式, 字符串) --> 获取字符串中满足正则表达式的所有的字串,返回一个列表
注意:如果正则表达式中有分组,取值的时候只取分组中匹配到的结果
如果有多个分组,将会每个分组匹配到的结果作为一个元组的元素返回
"""
re_str = r'(\d+)k([a-z]+)'
str1 = 'abc34hjha8923khjhasd98as59k'
result = re.findall(re_str, str1)
print(result)

# 5.finditer
"""
finditer(正则表达式, 字符串) --> 获取所有满足正则条件的子串,返回值是迭代器,迭代器中的元素是匹配对象
"""
re_str = r'\d+'
str1 = 'abc34hjha8923khjhasd98as59k'
result = re.finditer(re_str, str1)
for item in result:
    print(item)

# result = str1.split('h')
# print(result)

# 6.split
"""
split(正则表达式, 字符串) --> 将字符串按照满足条件的字串进行分隔
"""
str1 = 'ahs1sssa8j-jkad892alkd55+jkad2'
re_str = r'[-+]'
result = re.split(re_str, str1)
print(result)

# 7.sub
"""
sub(正则表达式, repl, 字符串) --> 将字符串中满足正则表达式条件的字串替换成repl
返回替换后的字符串
"""
result = re.sub(r'\d+', '*', str1)
print(result)

result = re.sub(r'傻叉|逼|fuck|妈的|智\s*障', '*', '智  障')
print(result)

运行结果

re.compile('\\d+')
<_sre.SRE_Match object; span=(0, 4), match='4656'>
<_sre.SRE_Match object; span=(0, 5), match='2hjsd'> 
(1, 5)
1
5
2hjsd
hjsd
2hjsd
====== <_sre.SRE_Match object; span=(0, 8), match='2hjsd123'>
6fd
6
dffs6fd8fs
========
<_sre.SRE_Match object; span=(3, 5), match='34'>
abc34hjha8923hjhasd98as59k
<_sre.SRE_Match object; span=(4, 8), match='8923'>
hjha8923hjhasd98as59k
<_sre.SRE_Match object; span=(6, 8), match='98'>
hjhasd98as59k
<_sre.SRE_Match object; span=(2, 4), match='59'>
as59k
[('8923', 'hjhasd')]
<_sre.SRE_Match object; span=(3, 5), match='34'>
<_sre.SRE_Match object; span=(9, 13), match='8923'>
<_sre.SRE_Match object; span=(20, 22), match='98'>
<_sre.SRE_Match object; span=(24, 26), match='59'>
['ahs1sssa8j', 'jkad892alkd55', 'jkad2']
ahs*sssa*j-jkad*alkd*+jkad*
*

10.23 - 正则表达式

1.正则表达式语法

代码示例

运行结果

2.正则表达式次数相关符号

代码示例

运行结果

3.分支和分组

1.|分支

代码示例

代码示例

运行结果

2.()分组

代码示例

运行结果

3.转义符号

代码示例

运行结果

4.re模块中的函数

代码示例

运行结果

你可能感兴趣的:(10.23 - 正则表达式)