python re模块学习--常用的正则符号

常用的正则符号:

  1. 英文状态的句号点 .
  2. 英文状态下的中括号 []
  3. 英文状态下的圆括号 ()
  4. 英文状态的大括号 {}
  5. 英文状态下的问号 ?
  6. 加号 +
  7. 星号 *
  8. 反斜杠 \

1、英文状态的句号点 . :指代除了换行符\n以外的任意字符。

import re
s = 'Life was like a box of chocolates, you never know what you are gonna get'
f1 = re.findall('chocol.....', s)
f2 = re.findall('chocol\n....', s) 
print(f1)
print(f2)

# f1输出结果: ['chocolates,']
# f2输出结果: []

2、英文状态下的中括号 []:中括号内的内容指代所需查找字符集合。

  • [0-9]:表示0123456789
  • [a-z]:表示小写的26个字母
  • [A-Z]:表示大写的26个字母
import re
s = '123456789chocolates123456789'
f = re.findall('o[clz]', s)  # [cl]表示'c'或者'l'或者'z' 
f1 = re.findall('[0-9]', s)  
f2 = re.findall('[a-z]', s)  
print(f)
print(f1)
print(f2)

# f输出结果: ['oc', 'ol']
# f1输出结果: ['1', '2', '3', '4', '5', '6', '7', '8', '9', '1', '2', '3', '4', '5', '6', '7', '8', '9']
# f2输出结果: ['c', 'h', 'o', 'c', 'o', 'l', 'a', 't', 'e', 's']

3、英文状态下的圆括号 ():圆括号内的内容就是别截取的内容。

import re
s = 'Life was like a box of chocolates, you never know what you are gonna get'
f = re.findall('choco(lates)', s)  # 输出圆括号内的内容
print(f)

# f输出结果: ['lates']

4、英文状态的大括号 {}:大括号内的内容表示匹配前一个字符特定的次数或范围。

  • {m}:匹配前一个字符m次;
  • {m,}:匹配前一个字符至少m次;
  • {,n}:匹配前一个字符至多n次;
  • {m,n}:匹配前一个字符m~n次;
import re
s = '123456789chocolates'
f = re.findall('1\d{3}', s)   # \d:代表0~9任一数字,{3}:指匹配大括号前一个字符3次
f1 = re.findall('1\d{3,}', s)   # {3,}:指匹配大括号前一个字符至少3次
f2 = re.findall('1\d{,5}', s)   # {3,5}:指匹配大括号前一个字符至多5次
f3 = re.findall('1\d{3,5}', s)   # {3,5}:指匹配大括号前一个字符至少3次,至多5次
print(f)
print(f1)
print(f2)
print(f3)

# f输出结果: ['1234']
# f1输出结果: ['123456789']
# f2输出结果: ['123456']
# f3输出结果: ['123456']

5、英文状态下的问号 ?:问号表示匹配问号前一个字符0次或1次。

import re
s = '123456789chocolates123456789'
f = re.findall('9.?', s)  
print(f)

# f输出结果: ['9c', '9']

6、加号 +:加号表示匹配前一个字符1次以上。

import re
s = '123456789chocolates123456789'
f = re.findall('o.+', s)
f1 = re.findall('[0-9]+', s)
f2 = re.findall('[a-z]+', s)
print(f)
print(f1)
print(f2)

# f输出结果:  ['ocolates123456789']
# f1输出结果: ['123456789', '123456789']
# f2输出结果: ['chocolates']

7、星号 * :星号表示匹配前一个字符0次以上。

import re
# 找出列表中含有‘chocolates'的所有元素
lis1 = ['123456789chocolates123456789', 'chocolates123','chocolates', '123456789']
lis2 = []
for s in lis1:
    lis2.extend(re.findall('[0-9]*chocolates', s))
print(lis2)

# lis2输出结果: ['123456789chocolates', 'chocolates', 'chocolates']

8、反斜杠 \ :是转义符,用于转换特定字符含义的符号。

  • \n:指代换行;
  • \t:指代Tab制表符;
  • \d:指代0~9中的任一数字;
  • \s:指代任意一种空白(如空格、Tab、换行等);
  • \S:指代任何非空白字符;
  • \w:指代字母、数字和下划线中的任意一种;
  • \.:指代句号点.本身;
import re
s = '123456789        chocolates         123456789'
f = re.sub('\s', '', s)  # 将s中所有空白替换为空
print(f)

# f输出结果:  123456789chocolates123456789

你可能感兴趣的:(python,python,正则表达式)