正则表达式的元字符 摘自百度百科
import re
加载python的正则表达式模块re
print re.match("app", "app123").group() #app
#print re.match("app", "123app").group() #Err 从头匹配失败则终止
print re.search("app", "123app").group() #app
match和search的区别 match从头匹配一旦匹配失败则结束 search整体匹配返回第一个匹配成功
r = "bat|bet|bit"
print re.match(r, "bat").group() #bat
print re.match(r, "bit").group() #bit
#print re.match(r, "He bit me!").group() #Err 从头匹配失败则终止
print re.search(r, "He bit me!").group() #bit
|符号 同时匹配多个
r = ".end"
print re.match(r, "bend").group() #bend
#print re.match(r, "bbend").group() #Err 只能匹配一个字符
#print re.match(r, "end").group() #Err 少了也不行
#print re.match(r, "\nend").group() #Err 不能匹配换行或空字符串
print re.search(r, "theend").group() #eend 返回的是匹配到的部分
.符号 匹配任意单个字符 想匹配普通的点加转移符.
r = "[cr][23][dp][o2]"
print re.match(r, "c3po").group() #c3po
print re.match(r, "c2do").group() #c2do
#print re.match(r, "c5do").group() #Err 5没有匹配到
[]符号 创建字符集合
r = "\w\w\w-\d\d\d" #\w匹配任意字母数字 \d匹配任意数字
r2 = "(\w\w\w)-(\d\d\d)"
print re.match(r, "abc-123").group() #abc-123
#print re.match(r, "abc-123").group(1) #Err 没有子组
#print re.match(r, "abc-123").group(2) #Err
print re.match(r, "abc-123").groups() #()
print re.match(r2, "abc-123").group() #abc-123
print re.match(r2, "abc-123").group(1) #abc 返回对应子组
print re.match(r2, "abc-123").group(2) #123
print re.match(r2, "abc-123").groups() #('abc', '123') 以元组形式返回所有子组
使用括号()创建子组
r = "^the"
print re.search(r, "the end").group() #the
#print re.search(r, "this is the end").group() #Err ^限制了只能在开头匹配
^符号 表示从开头匹配
r = r"\bthe" #前面加r表示不做转义处理
print re.search(r, "the end").group() #the
print re.search(r, "this is the end").group() #the
#print re.search(r, "this isthe end").group() #Err the和前面的连在一起了 不是单词边界
print re.search(r"\Bthe", "this isthe end").group() #\B表示反义
\b 表示一个单词的边界
r = 'href="(.*?)"'
str = """
百度/li>
搜狗/li>
360搜索/li>
"""
print re.findall(r, str) #['https://www.baidu.com/', 'https://www.sogou.com/', 'https://www.so.com/']
findall函数的使用 整体匹配 以列表方式返回所有匹配的子组(括号部分)
print re.sub("BOY|GIRL", "HUMAN", "BOY and GIRL") #HUMAN and HUMAN
sub函数 实现正则表达式匹配替换
str = "2018/11/23 00:59 16 input.txt" #dir输出中的一行 按空格分割字符但是将文件大小和文件名放一起
print re.split("\s\s+", str) #\s\s+表示至少有一个空格
split函数 实现字符串的分割
#print re.match("\bblow", "blow").group() #Err \b在ascii中表示退格 冲突
print re.match("\\bblow", "blow").group() #blow 多加一个\
print re.match(r"\bblow", "blow").group() #前增加r表示不尽兴转义
正则表达式ascii码冲突解决
r = "x{2,3}"
#print re.match(r, "x").group() #Err
print re.match(r, "xx").group() #xx
print re.match(r, "xxx").group() #xxx 优先匹配长的
print re.match(r, "xxxx").group() #xxx
#print re.match(r, " xxxx").group() #Err
{}符号 指定出现次数
print re.match("a.*b", "aabab").group() #aabab 贪婪匹配 尽可能的长
print re.match("a.*?b", "aabab").group() #aab 非贪婪匹配 尽可能的短
print re.search("a.*?b", "aabab").group() #aab而不是ab 返回第一个最短的匹配
print re.match(".*(\d+-\d+-\d+)", str).group(1) #9-6-10 +符号默认贪婪 导致数字匹配到加号
print re.match(".*?(\d+-\d+-\d+)", str).group(1)#1458002539-6-10
贪婪匹配和非贪婪匹配
re.search(regex, str, re.S) #.的作用效果扩展到所有字符包括换行
re.search(regex, str, re.I) #忽略大小写
re.search(regex, str, re.S | re.I) #多标志位
标志位