正则表达式知识点汇总

文章目录

    • 1 python中的用法
    • 2 匹配单个字符
    • 3 匹配多个字符
    • 4 匹配开头结尾
    • 5 匹配分组
    • 6 正则表达式re模块其他方法(也很有用)
    • 7 拓展知识

正则表达式是一种文本匹配模式的工具,它可以帮助我们在字符串中查找和处理符合特定模式的内容。这些模式由普通字符和特殊字符组成,用于描述我们想要匹配的文本规则。

1 python中的用法

在Python中需要通过正则表达式对字符串进行匹配的时候,可以使用一个模块,名字为re

格式:

	# coding=utf-8
	# 导入re模块
    import re

    # 使用match方法进行匹配操作
    result = re.match(正则表达式,要匹配的字符串)

    # 如果上一步匹配到数据的话,可以使用group方法来提取数据
    result.group()
	
	# 说明
	# re.match() 能够匹配出以xxx开头的字符串

2 匹配单个字符

字符 功能
. 匹配任意1个字符(除了\n)
[ ] 匹配[ ]中列举的字符
\d 匹配数字,即0-9
\D 匹配非数字,即不是数字
\s 匹配空白,即 空格,tab键
\S 匹配非空白
\w 匹配单词字符,即a-z、A-Z、0-9、_
\W 匹配非单词字符

举例:

import re

ret = re.match("h","hello Python") 
print(ret.group())
ret = re.match("[hH]","hello Python")
print(ret.group())
ret = re.match("[hH]","Hello Python")
print(ret.group())
ret = re.match("[hH]ello Python","Hello Python")
print(ret.group())

# 结果:
# h
# h
# H
# Hello Python

3 匹配多个字符

匹配多个字符的相关格式

字符 功能
* 匹配前一个字符出现0次或者无限次,即可有可无
+ 匹配前一个字符出现1次或者无限次,即至少有1次
? 匹配前一个字符出现1次或者0次,即要么有1次,要么没有
{m} 匹配前一个字符出现m次
{m,n} 匹配前一个字符出现从m到n次

示例

#coding=utf-8
import re

ret = re.match("[A-Z][a-z]*","M")
print(ret.group())
ret = re.match("[A-Z][a-z]*","MnnM")
print(ret.group())

运行结果:
M
Mnn

4 匹配开头结尾

字符 功能
^ 匹配字符串开头
$ 匹配字符串结尾

示例(匹配出163的邮箱地址,且@符号之前有4到20位,例如[email protected]):

email_list = ["[email protected]", "[email protected]", "[email protected]"]

for email in email_list:
    ret = re.match("[\w]{4,20}@163\.com$", email)
    # 在这段代码中,163\.com中的\是用来转义.的。在正则表达式中,.通常用来匹配除换行符外的任意字符,如果我们想要匹配真正的.,就需要使用\.来进行转义,表示匹配真正的点号字符。
    if ret:
        print("%s 是符合规定的邮件地址,匹配后的结果是:%s" % (email, ret.group()))
    else:
        print("%s 不符合要求" % email)
        
运行结果:
xiaoWang@163.com 是符合规定的邮件地址,匹配后的结果是:xiaoWang@163.com
xiaoWang@163.comheihei 不符合要求
.com.xiaowang@qq.com 不符合要求

5 匹配分组

字符 功能
| 匹配左右任意一个表达式
(ab) 将括号中字符作为一个分组
\num 引用分组num匹配到的字符串
(?P) 分组起别名
(?P=name) 引用别名为name分组匹配到的字符串

示例:

示例1:|

# 需求:匹配出0-100之间的数字
import re
ret = re.match("[1-9]?\d","8")
print(ret.group())  # 8(?给\d让步了,?匹不匹配都行,\d是强制匹配)
ret = re.match("[1-9]?\d","78")
print(ret.group())  # 78
# 不正确的情况
ret = re.match("[1-9]?\d","08")
print(ret.group())  # 0
# 修正之后的
ret = re.match("[1-9]?\d$","08")
if ret:
    print(ret.group())
else:
    print("不在0-100之间")
# 添加|
ret = re.match("[1-9]?\d$|100","8")
print(ret.group())  # 8
ret = re.match("[1-9]?\d$|100","78")
print(ret.group())  # 78
ret = re.match("[1-9]?\d$|100","08")
# print(ret.group())  # 不是0-100之间
ret = re.match("[1-9]?\d$|100","100")
print(ret.group())  # 100

示例2:()(一般跟|一起用)

#需求:匹配出163、126、qq邮箱

#coding=utf-8
import re
ret = re.match("\w{4,20}@163\.com", "[email protected]")
print(ret.group())  # [email protected]
ret = re.match("\w{4,20}@(163|126|qq)\.com", "[email protected]")
print(ret.group())  # [email protected]
ret = re.match("\w{4,20}@(163|126|qq)\.com", "[email protected]")
print(ret.group())  # [email protected]
ret = re.match("\w{4,20}@(163|126|qq)\.com", "[email protected]")
if ret:
    print(ret.group())
else:
    print("不是163、126、qq邮箱")  # 不是163、126、qq邮箱

# 提取区号和电话号码

>>> ret = re.match("([^-]*)-(\d+)","010-12345678")
>>> ret.group()
'010-12345678'
>>> ret.group(1)
'010'
>>> ret.group(2)
'12345678'
# 注意:
# ()分组有一个好处就是可以单独提取某一组
# 只要是'^'这个字符是在中括号'[ ]'中被使用的话就是表示字符类的否定,如果不是的话就是表示限定开头。
# 注意是直接在[]中使用,不包括在[]中嵌套使用

示例3:\num,前面已经分组了,可以用\序号来直接引用某一组的内容,但是注意匹配规则字符串前要加r变成元字符串(元字符串中的所有符号都会被看作是字符串,而不会看成其他的比如\转义字符)

import re

ret = re.match(r"([^-]*)-\1","010-010")
print(ret.group())
# # 能够完成对正确的字符串的匹配
# ret = re.match("<[a-zA-Z]*>\w*", "hh")
# print(ret.group())
# ret = re.match("<[a-zA-Z]*>\w*", "hh")
# print(ret.group())
ret = re.match(r"<([a-zA-Z]*)>\w*", "hh")
print(ret.group())

结果:
010-010
<html>hh</html>

示例5:(?P) (?P=name)给分组起别名以及引用别名匹配到的字符串

需求:匹配出

www.itcast.cn

import re

ret = re.match(r"<(?P\w*)><(?P\w*)>.*", "

www.itcast.cn

"
) ret.group() #

www.itcast.cn

ret = re.match(r"<(?P\w*)><(?P\w*)>.*", "

www.itcast.cn

"
) ret.group() # 报错。因为正则表达式中的模式不匹配输入的字符串

6 正则表达式re模块其他方法(也很有用)

前面已经了解了re模块的一个方法match,再回顾一下:match函数用于尝试从字符串的开头匹配一个正则表达式。如果匹配成功,则返回一个匹配对象;如果匹配失败,则返回None。
正则表达式还有很多其他方法也很常用,比如findall在爬虫里就很好用,下面介绍一下其他方法。

1.search:
re模块的search方法用于在字符串中查找并返回第一个匹配指定正则表达式模式的子字符串。

示例:

需求:匹配出文章阅读的次数

#coding=utf-8
import re
ret = re.search(r"\d+", "阅读次数为 9999")
ret.group()		# '9999'

2.findall:
findall函数用于在字符串中查找所有与给定正则表达式匹配的子串,并返回一个列表

需求:统计出python、c、c++相应文章阅读的次数

#coding=utf-8
import re
ret = re.findall(r"\d+", "python = 9999, c = 7890, c++ = 12345")
print(ret)

结果:
['9999', '7890', '12345']

3.sub:
sub函数用于在字符串中查找与正则表达式匹配的子串,并将其替换为指定的字符串。
用到三个参数,分别是:需要匹配的正则表达式,替换的字符串或替换函数,要搜索的字符串。
还可以再加一个参数是:count=0,是可选参数,用于指定最多替换的次数。0的时候表示全部替换。

# 需求:将匹配到的阅读次数加1
# 方法1:
#coding=utf-8
import re
ret = re.sub(r"\d+", '998', "python = 997")
print(ret)

运行结果:
python = 998

4.split:
split函数用于根据正则表达式将字符串分割为多个子串,并返回一个列表

# 需求:切割字符串“info:xiaoZhang 33 shandong”
#coding=utf-8
import re
ret = re.split(r":| ","info:xiaoZhang 33 shandong")
print(ret)

运行结果:
['info', 'xiaoZhang', '33', 'shandong']

7 拓展知识

贪婪和非贪婪

Python里数量词默认是贪婪的(在少数语言里也可能是默认非贪婪,比如正则的’?‘),总是尝试匹配尽可能多的字符;
非贪婪则相反,总是尝试匹配尽可能少的字符。
在"*“,”+“,”{m,n}“等符号后面加上非贪婪符号”?",使贪婪变成非贪婪。

import re
s="This is a number 234-235-22-423"
r=re.match(".+(\d+-\d+-\d+-\d+)",s)
print(r.group(1))
r=re.match(".+?(\d+-\d+-\d+-\d+)",s)
print(r.group(1))

结果:
4-235-22-423
234-235-22-423

r的作用

Python中字符串前面加上 r 表示原生字符串。
比如:如果是字符串"c:\\a"的话,\\会自动变成一个\,因为\在程序中是转义字符。而r"c:\\a"就没有这个困扰。字符串前面加个r的话,字符串里面的任何内容不会被更改。

你可能感兴趣的:(python爬虫,正则表达式,python)