python中正则的使用

1、元字符

.:除换行符以外的任意字符,re.S使.匹配包括换行的所有字符

[]:字符集,多个字符选一个,[^...]取反

():表示字符内的一个组

|:把字符做或操作

^:匹配字符串的开头

$:匹配字符串的结尾

?:匹配0或1个,非贪婪

+:匹配1到多个,默认贪婪模式

*:匹配0到多个,默认贪婪模式

{ n,m}:匹配 n 到 m 次由前面的正则表达式定义的片段,贪婪方式

\:转义符

import re

"""
斜杠\后面跟特殊字符取消特殊功能,例如\.
斜杠后面跟元字符添加特殊功能,例如:

\d  匹配任何十进制数;它相当于[0-9]
\D  匹配任何非十进制数;它相当于[^0-9]
\s  匹配任何空白字符;它相当于[\r\t\n\f\v]
\S  匹配任何非空白字符;相当于[^\r\t\n\f\v]
\w  匹配任何字母数字字符;相当于[A-Za-z0-9]
\W  匹配任何非字母数字字符;相当于[^A-Za-z0-9]
\b  匹配一个特殊字符边界 比如:空格 ,&,#等
"""

data1=re.findall("[\d]+","hello world 123 456")

print(data1)#['123', '456']

2、正则方法

import re

# 查找所有符合条件的对象
# re.findall() # 返回列表
# 查找第一个符合条件的匹配对象
s = re.search("\d+","a45bcd678")
print(s)
print(s.group())
"""
执行结果:
45
"""
# match同search,不过只在字符串开始处进行匹配
s = re.match("\d+","a45bcd678")
print(s)#None
#print(s.group())


# 正则分割split
ret = re.split('[ab]', 'abcd')
print(ret)#['', '', 'cd']


##正则替换
# \1代指第一个组匹配的内容  \2第二个组匹配的内容,思考如何能将所有的名字转大写替换
ret = re.sub("(hello )(.*?)(,)","\\1yuan\\3","hello python,hello world,hello re,")
print("ccc",ret)#ccc hello yuan,hello yuan,hello yuan,

# 编译再执行
obj=re.compile('\d{3}')
ret=obj.search('abc123ee45ff')
print(ret.group()) # 123

3、爬虫豆瓣网

import re

fp=open("chart","r")
result=""
for line in fp.readlines():
    result+=line

"""
爬虫豆瓣网   
先编译再执行

?P匹配
正则捕获组?P=pattern可以复用格式
"""
data2=re.compile('

你可能感兴趣的:(python,python,开发语言,后端)