Python 正则表达式大总结与实战


作者:FrigidWinter

简介:主攻机器人与人工智能领域的理论研究和工程应用,业余丰富各种技术栈。主要涉足:【机器人(ROS)】【机器学习】【深度学习】【计算机视觉】

专栏

  • 《机器人原理与技术》
  • 《计算机视觉教程》
  • 《机器学习》
  • 《嵌入式系统》

目录

  • 1 什么是正则表达式?
  • 2 常用元字符
    • 2.1 []
    • 2.2 ^
    • 2.3 $
    • 2.4 \
    • 2.5 {m,n}
    • 2.6 *
    • 2.7 +
    • 2.8 ?
    • 2.9 .
    • 2.10 ()
  • 3 Python正则库re的使用
    • 3.1 字符串替换
    • 3.2 字符串分割
  • 4 常用正则转义字符表
  • 5 常用正则表达式
    • 5.1 数字校验正则
    • 5.2 字符校验正则
    • 5.3 特殊需求正则
  • 6 代码实战

1 什么是正则表达式?

正则表达式 用于字符串的动态模式匹配。应用正则表达式可以实现:

(1) 数据验证。例如测试输入字符是否符合电话号码、信用卡号、登录口令等特定模式。
(2) 文本筛查。例如提取、删除或替换文档中的特定文本。

因此正则表达式广泛应用于网络爬虫、文本处理等领域。

2 常用元字符

2.1 []

指定字符可选范围 ,其中“-”表示连续选择,[]内的元字符为普通字符,且为单独个体

示例

匹配小写字母和数字: "[a-z0-9]"
匹配a、^或d: "[a^d]"
除了a以外的都匹配: "[^a]"

2.2 ^

从行首开始往后匹配第一个符合模式的字符串

示例

"^abc"

2.3 $

从行末开始往前匹配第一个符合模式的字符串

示例

"abc$"

2.4 \

将下一个字符标记为特殊或原义字符

示例

匹配\n: "\\n"
匹配换行符: "\n"

2.5 {m,n}

定义匹配次数 。省略m表示0下限,省略n表示无穷上限。注意该元字符属于贪婪匹配,即在所有符合匹配规则的字符串中选择匹配次数大的字符串

示例

匹配两个字母: "[a-zA-Z]{2}"

2.6 *

匹配零次或多次,等价于(,)

2.7 +

匹配一次或多次,等价于(1,)

2.8 ?

匹配零次或一次,等价于(0,1),{m,n}?声明非贪婪匹配,即在所有符合匹配规则的字符串中选择匹配次数小的字符串

示例

string = "{ymd:'2018-01-01',tianqi:'晴',aqiInfo:'轻度污染'},\
           {ymd:'2018-01-02',tianqi:'阴~小雨',aqiInfo:'优'},\
           {ymd:'2018-01-03',tianqi:'小雨~中雨',aqiInfo:'优'},\
           {ymd:'2018-01-04',tianqi:'中雨~小雨',aqiInfo:'优'}"
print(re.findall(r"tianqi:'(.*?)'", string))

*?先进行贪婪匹配,再进行非贪婪匹配。

首先进行贪婪匹配,从第一个tianqi:'开始到最后一个’为止,其间的字符串均为匹配字符串,即

tianqi:'晴',aqiInfo:'轻度污染'},\
{ymd:'2018-01-02',tianqi:'阴~小雨',aqiInfo:'优'},\
{ymd:'2018-01-03',tianqi:'小雨~中雨',aqiInfo:'优'},\
{ymd:'2018-01-04',tianqi:'中雨~小雨',aqiInfo:'优'

接下来在贪婪匹配的结果中进行非贪婪匹配,即从第一个tianqi:'开始到最近一个’为止均为匹配字符串,即

[tianqi:'晴', tianqi:'阴~小雨', tianqi:'小雨~中雨', tianqi:'中雨~小雨']

最后用()进行匹配提取:

['晴', '阴~小雨', '小雨~中雨', '中雨~小雨']

2.9 .

匹配除换行符以外的任意字符

2.10 ()

匹配结果分组提取

3 Python正则库re的使用

3.1 字符串替换

re库提供的方法sub(reg, strReplace, str)subn(reg, strReplace, str)可将符合正则reg的字符串替换成strReplace,区别在于前者仅返回替换后的字符串而后者多返回一个替换次数。

3.2 字符串分割

re库提供的方法split(div, str)可将字符串以分隔符div为界进行分割,返回分割后的数组。

4 常用正则转义字符表

特殊字符 说明
\b 匹配单词边界。例如’er\b’可匹配"never"中的’er’但不能匹配"verb"中的’er’
\B 匹配非单词边界。例如’er\B’可匹配"verb"中的’er’,但不能匹配"never"中的’er’
\d 匹配数字字符,等价于[0-9]
\D 匹配非数字字符,等价于[^0-9]
\f 匹配换页符,等价于\x0c和\cL
\n 匹配换行符,等价于\x0a和\cJ
\r 匹配回车符,等价于\x0d和\cM
\s 匹配空白字符,包括空格、制表符、换页符等。等价于[ \f\n\r\t\v]
\S 匹配非空白字符,等价于[^ \f\n\r\t\v]
\t 匹配制表符,等价于\x09和\cI
\v 匹配一个垂直制表符,等价于\x0b和\cK
\w 匹配字母、数字、下划线,等价于[A-Za-z0-9_]
\W 匹配非字母、数字、下划线,等价于[^A-Za-z0-9_]

5 常用正则表达式

5.1 数字校验正则

  • 数字:^[0-9]*$
  • m-n位的数字:^\d{m,n}$
  • 正数、负数和小数:^(-|+)?\d+(.\d+)?$
  • 非负整数:^\d+$
  • 非正整数:^-[1-9]\d*|0$
  • 非负浮点数:^\d+(.\d+)?$
  • 非正浮点数:^((-\d+(.\d+)?)|(0+(.0+)?))$
  • 正浮点数:^[1-9]\d*.\d*|0.\d*[1-9]\d*$
  • 负浮点数:^-([1-9]\d*.\d*|0.\d*[1-9]\d*)$
  • 浮点数:^(-?\d+)(.\d+)?$

5.2 字符校验正则

  • 汉字:^[\u4e00-\u9fa5]{0,}$
  • 英文和数字:^[A-Za-z0-9]+$
  • 由26个英文字母组成的字符串:^[A-Za-z]+$
  • 由数字、26个英文字母或者下划线组成的字符串:^\w+$ 或 ^\w{3,20}$
  • 中文、英文、数字但不包括下划线等符号:^[\u4E00-\u9FA5A-Za-z0-9]+$
  • 禁止输入含有~的字符:[^~\x22]+

5.3 特殊需求正则

  • Email地址:^\w+([-+.]\w+)@\w+([-.]\w+).\w+([-.]\w+)*$
  • 域名:[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?
  • InternetURL:^http://([\w-]+.)+[\w-]+(/[\w-./?%&=]*)?$
  • 手机号码:^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$
  • 身份证号(15位、18位数字):^\d{15}|\d{18}$
  • 日期格式:^\d{4}-\d{1,2}-\d{1,2}
  • 空白行:\n\s*\r (可以用来删除空白行)
  • HTML:<(\S*?)[^>]>.?|<.*? />
  • 首尾空白字符:^\s*|\s*KaTeX parse error: Undefined control sequence: \s at position 4: 或(^\̲s̲*)|(\s*) (可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等)
  • 腾讯QQ号:[1-9][0-9]{4,}
  • 中国邮政编码:[1-9]\d{5}(?!\d)
  • IP地址:\d+.\d+.\d+.\d+

6 代码实战

import re

# 元字符[] ^ $的应用
print(re.findall("a[a-z0-9]c$","abcabca^caccaaca5c"))

# 元字符\的应用
print(re.findall(r'\n','abc\n'))

# 元字符{} * + ?的应用
print(re.findall(r'[a-z]{1,2}\d', 'a2b1cd2c12_'))
print(re.findall(r'[a-z]{1,2}?\d', 'a2b1cd2c12_'))
print(re.findall(r'[a-z]?\d', 'a2b1cd2c12_'))
print(re.findall(r'[a-z]*\d', 'a2b1cd2c12_'))
print(re.findall(r'[a-z]+\d', 'a2b1cd2c12_'))

# 元字符()的应用
string = "{ymd:'2018-01-01',tianqi:'晴',aqiInfo:'轻度污染'},\
            {ymd:'2018-01-02',tianqi:'阴~小雨',aqiInfo:'优'},\
           {ymd:'2018-01-03',tianqi:'小雨~中雨',aqiInfo:'优'},\
           {ymd:'2018-01-04',tianqi:'中雨~小雨',aqiInfo:'优'}"
print(re.findall(r"tianqi:'(.*?)'", string))

# 字符串替换
string = '据悉,这次发运的4台蒸汽冷凝罐属于国际热核聚变实验堆(ITER)项目的核二级压力设备,\
     先后完成了压力试验(Pressure Test)、真空试验(air)、氦气检漏试验、千斤顶试验、吊耳载荷试验、叠装试验等验收试验。'
print(re.sub(r"\(.*?\)|(.*?)", '', string))

# 字符串分割
string11 = '22| 101.6,2| 低区/7| 朝南 \
上海未来 - 浦东 - 金杨 - 2005年建'
split = re.split('[-|]', string11)

你可能感兴趣的:(Python进阶,python,正则表达式,开发语言)