正则表达式

1.什么是正则表达式
正则表达式是处理字符串的工具，通过不同的正则符号来描述字符串的规则

2.正则表达式：r'真正语法'

3.正则符号(正则表达式的语法)

1）普通字符：除了在正则中有特殊的功能和意义的符号以外都是普通字符
    a.普通字符代表字符本身
    .  -  匹配任意字符（一个.只能匹配一个字符）
    \w  -  匹配一个 数字、字母或者_（在ASCII中使用）
    \d  -  匹配任意一个数字字符   
    \s  -  匹配任意一个空白字符（回车，换行，空格，制表符(\t)）
    \D  -  匹配出数字外的任意字符
    \S  -  匹配一个非空白字符
    \大写字母  -  大写字符匹配与 \小写 的相反

    [字符集]  -  匹配字符集出现的任意一个字符（一个中括号只能匹配任意一个字符）
        [1-9]  -  匹配1-9中的任意字符（字符编码值递增）
        [a-zA-Z]  -  匹配任意一个字母
        [\u4e00-\u9fa5]  -  匹配任意一个中文
    [^字符集]  -  匹配不在字符集中的任意字符  
2）检测字符
    \b  -  检查是否是单词边界()
        单词边界：能够将两个单词隔开并且不会产生任何歧义的符号如：空白字符，标点符号，包括开头和结尾
        匹配规则：先去掉\b对字符串进行匹配，如果匹配成功再检查\b所在的位置是否在单词边界
    ^  -  检查^所在的位置是否是字符串开头
        注意^在中括号外面
    $  -  检查$所在的位置是否是字符串的结尾
3）控制次数的符号
    *  -  匹配0次或者多次
        1b2a*   -  1b2后面a出现0次或者多次        
        1b2\d*   -  1b2后面出现0个或者多个数字字符
    +  -  匹配1次或多次
    ？ -  匹配0次或1次
    {N} -  匹配N次
        a{3} - 匹配3个a
        \d{3} - 匹配三个数字
    {M，N}  -  匹配M到N次（至少M次，最多N次）
    {M，}  -  至少匹配M次
    {，N}  -  最多N次
    贪婪和非贪婪：
        在匹配次数不确定的时候，或出现贪婪和非贪婪两种情况；默认情况下都是贪婪的。
        什么是贪婪：在能够匹配成功的前提下，匹配次数尽可能多
        什么是非贪婪：在能够匹配成功的前提下，匹配次数尽可能少（在匹配次数后加问号）
4）分支
    正则1 | 正则2  -  先让正则1去匹配如果匹配成功就成功，匹配失败就让正则2区匹配

5）分组
    a.分组截取：方便后买面分段或者分情况去不同匹配结果
    b.分组重复：在正则中用\X来重复前面第X个分组的内容
    注意：\X前面必须有这个分组
    () - 将括号内的内容作为一个整体
        r'(\d{2}|[A-Z]{2})abc'      -     匹配一个字符后面是abc，前面是2个数字或2个字母
        r'([a-z]\d){3}'

6）转义
    a.加\
        在正则中有特殊功能和特殊意义的符号前加\，让这个符号的特殊功能和特殊意义消失
    b.加[]
        在[]中有特殊意思的符号：^放在开头；-放在两个符号之间；而.+?*$这些单独的符号在[]中就是符号本身

# 匹配一个字符串长度为8，前三个字符是abc，后三个字符是123，中间是两个任意字符
re_str = r'abc..123'
result = fullmatch(re_str, 'abcer123')
print(result)

# 匹配一个长度为4的字符串
re_str = r'\wabc'

# 匹配一个长度是5的字符串，前两个是任意数字，后面三个是任意字符
re_str = r'\d\d...'

# 匹配一个长度为4的字符，第一个字符是1或者3或者7
re_str = r'[137]...'

re_str = r'(\d{3})[a-z]{3}'
print(findall(re_str, '123sdsdf胜多负少的方式12sd1234sdsfd'))

re_str = r'(\d{3})[a-z]{3}\1'
print(fullmatch(re_str, '345hgf345'))

re模块

re模块是Python提供的，专门针对正则表达式相关的函数
1.字符串匹配
1）fullmatch(正则表达式，字符串) -> 让正则表达式和字符串完全匹配

2）match(正则表达式，字符串) -> 匹配字符串开头

以上两个方法的结果：失败就是None，匹配成功就会返回匹配对象
匹配对象：
a.获取匹配到的字符串
匹配对象.group() - 获取整个正则表达式匹配到的字符串
b.获取匹配到的字符串在原字符中的位置信息
匹配对象.span() -> 返回匹配结果在原字符串的下标范围[]
匹配对象.span(N) -> 返回第N个分组匹配到的结果在原字符串的下标范围[]
c.获取原字符串
匹配对象.string

3）search(正则表达式，字符串) - 在字符串中查到第一满足正则表达式的字串，如果找到了结果是匹配对象，否则是None

4）findall(正则表达式，字符串) - 获取字符串中所有满足正则表达式的字串；返回值是一个列表
注意：如果正则表达式中有分组，列表中的匹配结果只会有分组匹配的内容

5）finditer(正则表达式，字符串) - 获取字符串中所有满足正则表达式的字串:返回值是一个迭代器，元素是匹配对象

6）split(正则表达式，字符串) - 在字符串中满足正则表达式的字串做为切割点对字符进行切割；返回一个字符串列表

7）sub(正则表达式，字符串1，字符串2) - 将字符串2中所有满足正则表达式的字串替换成字符串1

正则表达式

正则表达式

re模块

你可能感兴趣的:(正则表达式)