python正则表达式 re模块的使用


正则表达式的元字符 摘自百度百科

import re

加载python的正则表达式模块re

print re.match("app", "app123").group()         #app
#print re.match("app", "123app").group()        #Err 从头匹配失败则终止
print re.search("app", "123app").group()        #app

match和search的区别 match从头匹配一旦匹配失败则结束 search整体匹配返回第一个匹配成功

r = "bat|bet|bit"
print re.match(r, "bat").group()                #bat
print re.match(r, "bit").group()                #bit
#print re.match(r, "He bit me!").group()        #Err 从头匹配失败则终止
print re.search(r, "He bit me!").group()        #bit

|符号 同时匹配多个

r = ".end"
print re.match(r, "bend").group()               #bend
#print re.match(r, "bbend").group()             #Err 只能匹配一个字符
#print re.match(r, "end").group()               #Err 少了也不行
#print re.match(r, "\nend").group()             #Err 不能匹配换行或空字符串
print re.search(r, "theend").group()            #eend 返回的是匹配到的部分

.符号 匹配任意单个字符 想匹配普通的点加转移符.

r = "[cr][23][dp][o2]"
print re.match(r, "c3po").group()               #c3po
print re.match(r, "c2do").group()               #c2do
#print re.match(r, "c5do").group()              #Err 5没有匹配到

[]符号 创建字符集合

r = "\w\w\w-\d\d\d"                             #\w匹配任意字母数字 \d匹配任意数字
r2 = "(\w\w\w)-(\d\d\d)"
print re.match(r, "abc-123").group()            #abc-123
#print re.match(r, "abc-123").group(1)          #Err 没有子组
#print re.match(r, "abc-123").group(2)          #Err 
print re.match(r, "abc-123").groups()           #()
print re.match(r2, "abc-123").group()           #abc-123
print re.match(r2, "abc-123").group(1)          #abc 返回对应子组
print re.match(r2, "abc-123").group(2)          #123
print re.match(r2, "abc-123").groups()          #('abc', '123') 以元组形式返回所有子组

使用括号()创建子组

r = "^the"
print re.search(r, "the end").group()           #the
#print re.search(r, "this is the end").group()  #Err ^限制了只能在开头匹配

^符号 表示从开头匹配

r = r"\bthe"                                    #前面加r表示不做转义处理
print re.search(r, "the end").group()           #the
print re.search(r, "this is the end").group()   #the
#print re.search(r, "this isthe end").group()   #Err the和前面的连在一起了 不是单词边界
print re.search(r"\Bthe", "this isthe end").group() #\B表示反义

\b 表示一个单词的边界

r = 'href="(.*?)"'
str = """
  • 百度
  • 搜狗
  • 360搜索 """ print re.findall(r, str) #['https://www.baidu.com/', 'https://www.sogou.com/', 'https://www.so.com/']
  • findall函数的使用 整体匹配 以列表方式返回所有匹配的子组(括号部分)

    print re.sub("BOY|GIRL", "HUMAN", "BOY and GIRL") #HUMAN and HUMAN
    

    sub函数 实现正则表达式匹配替换

    
    str = "2018/11/23  00:59                16 input.txt" #dir输出中的一行 按空格分割字符但是将文件大小和文件名放一起
    print re.split("\s\s+", str)                    #\s\s+表示至少有一个空格
    

    split函数 实现字符串的分割

    #print re.match("\bblow", "blow").group()       #Err \b在ascii中表示退格 冲突
    print re.match("\\bblow", "blow").group()       #blow 多加一个\
    print re.match(r"\bblow", "blow").group()       #前增加r表示不尽兴转义
    

    正则表达式ascii码冲突解决

    r = "x{2,3}"
    #print re.match(r, "x").group()                 #Err 
    print re.match(r, "xx").group()                 #xx
    print re.match(r, "xxx").group()                #xxx 优先匹配长的
    print re.match(r, "xxxx").group()               #xxx
    #print re.match(r, " xxxx").group()             #Err
    

    {}符号 指定出现次数

    print re.match("a.*b", "aabab").group()         #aabab 贪婪匹配 尽可能的长
    print re.match("a.*?b", "aabab").group()        #aab 非贪婪匹配 尽可能的短
    print re.search("a.*?b", "aabab").group()       #aab而不是ab 返回第一个最短的匹配
    print re.match(".*(\d+-\d+-\d+)", str).group(1) #9-6-10 +符号默认贪婪 导致数字匹配到加号
    print re.match(".*?(\d+-\d+-\d+)", str).group(1)#1458002539-6-10
    

    贪婪匹配和非贪婪匹配

    re.search(regex, str, re.S) #.的作用效果扩展到所有字符包括换行
    re.search(regex, str, re.I) #忽略大小写
    re.search(regex, str, re.S | re.I) #多标志位
    

    标志位

    你可能感兴趣的:(python)