正则表达式

正则表达式是一种让字符串处理更简单的工具(本质是做字符串匹配的)

一、正则表达式的语法

fullmatch(正则表达式,字符串) - 让正则表达式和字符串进行完全匹配,如果匹配失败结果是None
js的正则:/正则表达式/
Python的正则:r'正则表达式'

from re import fullmatch,search
# 1)普通字符 - 表示字符本身
re_str= r'abc'
result = fullmatch(re_str,'abc')
print(result)

# 2).   -   匹配一个任意字符
re_str = r'.abc'
result = fullmatch(re_str,'sabc')
print(result)

#3)\w   -   匹配任意一个数字,字母或者下划线(针对ASCII码表有效)(平时不用)

#4)\d   -   匹配任意一个数字字符(\D 匹配非数字)
re_str = r'\d\d\d'
result = fullmatch(re_str,'126')
print(result)

#5)\s   -   匹配任意一个空白字符(\S 匹配非空字符)
re_str = r'\s\d..'
result = fullmatch(re_str,' 2sw')
print(result)

6)[字符集] - 匹配字符集中出现的任意字符

注意:一个[]只能匹配一个字符

a.

[abc123] 匹配a,b,c,1,2,3 中任意一个字符

b. 前面的字符编码值必须小于后面的字符编码
-如果不在两个字符的中间,就没有特殊功能

字符 含义
[a-z] 匹配从字符a到字符z之间的任意一个字符
[A-Z] 匹配任意一个大写字母
[a-zA-Z] 匹配任意一个字母
[0-9] 匹配任意一个数字字符
[\u4e00-\u9fa5] 匹配任意一个中文字符
[^字符集] 取不在字符集中任意一个字符
re_str = r'[abc123]123'
result = fullmatch(re_str,'a123')
print(result)

re_str = r'[\u4e00-\u9fa5]123'
result=fullmatch(re_str,'好123')
print(result)

re_str =r'1[3-9]\d\d\d\d\d\d\d\d\d'
result=fullmatch(re_str,'13648876224')
print(result)

re_str =r'[_A-Za-z0-9]abc'
result=fullmatch(re_str,'jabc')
print(result)

二、检测符号

1)\b - 检测是否是单词的边界

单词边界:字符串开头、字符串结尾、凡是能区分出两个不同单词的符号
注意:检测类符号不影响匹配的长度,只是在匹配成功的时候做进一步的检测

2)^ - 检测^所在的位置是否是字符串开头

re_str = r'^abc'
result = fullmatch(re_str,'abc')
print(result)

#3) $   -   检测$所在位置是否是字符串结尾
re_str = r'\d\d$'
print(search(re_str,'dsfsf23ffas34'))

三、匹配次数(左匹配)

字符 含义
* 匹配0次或多次
+ 至少一次
? 匹配0次或1次
#1)* - 匹配0次或多次
re_str = r'a*'
print(fullmatch(re_str,'aaa'))

#2) +   -   至少一次
re_str=r'a+'
print(fullmatch(re_str,'a'))

# 3)?   -   匹配0次或1次
re_str=r'\d?abc'
print(fullmatch(re_str,'1abc'))

#练习:写一个正则表达式可以匹配任意一个整数字符串
re_str = r'[+-]?\d+'
print(fullmatch(re_str,'1213'))
{} 含义
{N} 匹配n次
{M,N} 匹配M到N次
{M,} 匹配至少M次
{,N} 0到N次
re_str= r'\d{4}abc'
print(fullmatch(re_str,'1384abc'))

四、贪婪和非贪婪

在匹配次数不确定的情况下,匹配模式分为两种:贪婪和非贪婪

  • 贪婪:默认都是贪婪的(在能匹配到的前提下匹配次数尽可能多)
  • 非贪婪:(能匹配成功的前提下)在匹配次数不确定的时候,次数后面加?,匹配就是非贪婪
贪婪模式 非贪婪模式
* *?
+ +?
? ??
{M,N} {M,N}?
{M,} {M,}?
{,N} {,N}?
re_str=r'\d{2,}?'
print(search(re_str,'32352gfdgdg'))

你可能感兴趣的:(正则表达式)