30分钟带你入门python正则表达式

场景:

	*  字符的匹配
	*  爬虫中的使用
	*  手机号码,邮箱的匹配

python中使用正则表达式

re模块的使用

re模块是python中正则表达式的包

import re
# result = re.match(<正则表达式>, <要匹配的字符串>)
result = re.match('python', 'ipython is best')
if not result:
    print("no")
else:
    print(result.group(), result.groupdict(), result.start())
  1. 匹配单个字符

正则表达式匹配单个字符0-9 ,a-z, A-Z, 特殊字符

30分钟带你入门python正则表达式_第1张图片

# 匹配任意1个字符(除了\n)
print(re.match('.', "C").group())
print(re.match('t.o', 'two').group())
# 匹配[ ]中列举的字符
print(re.match('[hH]', 'Hello python').group())
print(re.match('[0123456789]Hello', '9Hello').group(), re.match('[0-9]Hello', '9Hello').group(), end=' ')
print('\n', re.match('[0-9a-zA-Z]', '0Aasddsa').group())
# 匹配数字,即0-9
print(re.match('\dHello', '9Hello').group())
  1. 匹配多个字符

正则表达式匹配多个字符对象 *,+,?,{m},{m,n}

30分钟带你入门python正则表达式_第2张图片

# * 匹配前一个字符出现0次或者无限次,即可有可无
print(re.match("[a-z]*", "hehe").group())
print(re.match('[A-Z][a-z]*', 'MnnnM').group())
# + 匹配前一个字符出现1次或者无限次,即至少有1次
print(re.match('[a-zA-Z_]+', 'hh').group())
# ? 匹配前一个字符出现1次或者0次,即要么有1次,要么没有
print(re.match("[1-9]?[0-9]", "7").group(), re.match('[0-9]?\d', '999').group())
# {m} 匹配前一个字符出现m次
print(re.match("[a-zA-Z0-9_]{6}", "12a3g45678").group())
print(re.match("[a-zA-Z0-9_]{2,9}", "12a3g45678").group())
# 匹配出163的邮箱地址,且@符号之前有4到20位,例如[email protected]
print(re.match('[0-9A-Za-z]{4,20}@163\.com', '[email protected]').group())  # 要匹配 '.'的时候要加转义字符\.
print(re.match('[0-9A-Za-z]{4,20}@163\.com', '[email protected]').group())
print(re.match('[\w]{4,20}@163\.com', '[email protected]').group())
  1. 匹配开头结尾

^:匹配字符串开头
$:匹配字符串结尾

print(re.match('[\w]{4,20}@163\.com$', '[email protected]').group())
print(re.match('^[\w]{4,20}@163\.com$', '[email protected]').group())
  1. 匹配分组
# | 匹配左右任意一个表达式,类似于or
print(re.match("[1-9]?\d$|100", "100").group())
print(re.match("[1-9]?\d$|100", "99").group())

# (ab) 将括号中字符作为一个分组
print(re.match("[\w]{4,20}@(163|126|qq)\.com$", '[email protected]').group())
print(re.match("[\w]{4,20}@(163|126|qq)\.com$", '[email protected]').group())
print(re.match("[\w]{4,20}@(163|126|qq)\.com$", '[email protected]').group())
print(re.match("([\w]{4,20})@(163|126|qq)\.com$", '[email protected]').group(1))
print(re.match("([\w]{4,20})@(163|126|qq)\.com$", '[email protected]').group(2))

# \num 引用分组num匹配到的字符串
html1 = '

sdasdas

'
html2 = '

sdasdas

'
print(re.match('<(\w+)>.*', html1).group()) print(re.match(r'<(\w*)>.*', html1).group()) # 原样输出 print(re.match('<(\w*)>.*', html1).group()) html3 = '

sdasdas

'
print(re.match(r"<(\w*)><(\w*)>.*", html3).group()) html4 = '

sdasdas

'
# (?P) 分组起别名 # (?P=name) 引用别名为name分组匹配到的字符串 print(re.match(r"<(?P\w*)><(?P\w*)>.*", html4).group())
  1. re模块的高级用法
# compile
print(re.compile(r"\d+").match("31231").group())

# search
print(re.search(r"\d+", "阅读次数111").group())
print(re.search(r"\d{4}", 'Microsoft Windows Server 2012 R2 Datacenter').group())

# findall 统计个数,并将匹配到的对象以列表的形式返回
print(re.findall(r"\d+", "python=999, c=7899, Go=999"))
print([i.group() for i in re.finditer(r"\d+", "阅读次数111")])

# sub 将匹配到的数据进行替换
print(re.sub(r"\d+", "999", "python=996"))

# split 根据匹配进行切割字符串,并返回一个列表
print(re.split(r"\d", "a9a"))
  1. 贪婪和非贪婪

Python里数量词默认是贪婪的(在少数语言里也可能是默认非贪婪),总是尝试匹配尽可能多的字符;
非贪婪则相反,总是尝试匹配尽可能少的字符。
在"*","?","+","{m,n}"后面加上?,使贪婪变成非贪婪。

你可能感兴趣的:(Python)