正则表达式（笔记）

正则表达式

「正则表达式」（Regular Expression）是由普通字符（例如字符 a 到 z）以及特殊字符（称为元字符）组成的文字模式，通常被用来检索、替换那些匹配某个模式的文本。

语法规则

字符	描述
^	匹配一行的开头（巧记：尖头）
$	匹配一行的结尾（巧记：宝藏在尽头）
*	匹配前面的子表达式零次或多次（巧记：雪花飘零）。例如，zo*能匹配“z”、“zo”以及“zoo”。
+	匹配前面的子表达式一次或多次（巧记：+1梗）。例如，“zo+”能匹配“zo”以及“zoo”，但不能匹配“z”。
?	匹配前面的子表达式零次或一次（巧记：有木有）。例如，“do(es)?”可以匹配“do”或“does”中的“do”。
{n}	n是一个非负整数。匹配确定的n次。
{n,}	n是一个非负整数。至少匹配n次。
{n,m}	m和n均为非负整数，其中n<=m。最少匹配n次且最多匹配m次。
?	当该字符紧跟在任何一个其他限制符（,+,?，{n}，{n,}，{n,m}）后面时，匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串，而默认的贪婪模式*则尽可能多的匹配所搜索的字符串。例如，对于字符串“oooo”，“o+?”将匹配单个“o”，而“o+”将匹配所有“o”。
.	匹配除“\n”之外的任何单个字符（巧记：任何字符都可以看成一个点）
x竖y	匹配x或y
()	括号内的内容作为整体进行匹配，须为英文括号
[xyz]	匹配所包含的任意一个字符
[^xyz]	匹配未列出的任意字符
[a-z]	匹配指定范围内的任意字符
[^a-z]	匹配任何不在指定范围内的任意字符
\b	border，匹配一个单词边界，也就是指单词和空格间的位置。例如，“er\b”可以匹配“never”中的“er”，但不能匹配“verb”中的“er”。
\B	匹配非单词边界。“er\B”能匹配“verb”中的“er”，但不能匹配“never”中的“er”。
\d	digit，匹配一个数字字符。
\D	匹配一个非数字字符。
\f	form feed,匹配一个换页符。
\n	line feed，匹配一个换行符。
\r	carriage return，匹配一个回车符。
\s	space，匹配任何空白字符，包括空格、制表符、换页符等等。
\S	匹配任何非空白字符。
\t	tab，匹配一个制表符。
\v	vertical tab,匹配一个垂直制表符。
\w	word，匹配包括下划线的任何单词字符。等价于“[A-Za-z0-9_]”。
\W	匹配任何非单词字符。等价于“[^A-Za-z0-9_]”。
\	用于转义特殊字符+、*、$、^、?、竖、/、[]、()，或指定八进制、十六进制字符
(?=pattern)	正向肯定预查，例如，“A(?=1)”能匹配“A1”中的“A”，但不能匹配“A2”中的“A”。
(?<=pattern)	反向肯定预查，例如，“(?<=1)A”能匹配“1A”中的“A”，但不能匹配“2A”中的“A”。
(?!pattern)	正向否定预查，例如，“A(?!1)”能匹配“A2”中的“A”，但不能匹配“A1”中的“A”。
(?	反向肯定预查，例如，“(?<=1)A”能匹配“2A”中的“A”，但不能匹配“1A”中的“A”。

优先权

优先权	符号	描述
最高	\	转义符
高	( )、(?: )、(?= )、[ ]	圆括号、方括号
中	*、+、?、{n}、{n,}、{m,n}	限定符
低	^、$、中介字符	位置和顺序
最低	\|	“或”操作

常用实例

空行：\n\s*
网址（URL）：[a-zA-z]+://[^\s]*
IP地址：((2[0-4]\d|25[0-5]|[01]?\d\d?).){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)
电子邮件：\w+([-+.]\w+)@\w+([-.]\w+).\w+([-.]\w+)*
QQ号码：[1-9]\d{4,}
HTML标记(包含内容或自闭合)：<(.)(.)>.|<(.) />
密码(由数字/字母/标点符号组成，四种都必有，8位以上)：(?=^.{8,}
日期(年-月-日)：(\d{4}|\d{2})-((1[0-2])|(0?[1-9]))-(([12][0-9])|(3[01])|(0?[1-9])) ##匹配2017-01-27，2017-1-7
日期(月/日/年)：((1[0-2])|(0?[1-9]))/(([12][0-9])|(3[01])|(0?[1-9]))/(\d{4}|\d{2})
时间(小时:分钟, 24小时制)：((1|0?)[0-9]|2[0-3]):([0-5][0-9])
汉字(字符)：[\u4e00-\u9fa5]
中文及全角标点符号(字符)：[\u3000-\u301e\ufe10-\ufe19\ufe30-\ufe44\ufe50-\ufe6b\uff01-\uffee]
固定电话号码：(\d{4}-|\d{3}-)?(\d{8}|\d{7})
手机号码：1\d{10}
邮政编码：[1-9]\d{5}
大陆身份证号(15位或18位)：\d{15}(\d\d[0-9xX])?
非负整数(正整数或零)：\d+
正整数：[0-9][1-9][0-9]
负整数：-[0-9][1-9][0-9]
整数：-?\d+
小数：(-?\d+)(.\d+)?
不包含abc的单词：\b((?!abc)\w)+\b

注意事项

"回车"（carriage return）和"换行"（line feed）是来源机械英文打字机的。"车"指的是纸车,带着纸一起左右移动的模块，当开始打第一个字之前，要把纸车拉到一边，上紧弹簧。随着打字，弹簧把纸车拉回去，每当打完一行后，纸车就完全收回去了，所以叫回车。换行的概念就是，打字机左边有个"把手",往下扳动一下,纸会上移一行。
在某些情况下，\w也会匹配本地字符集，比如中文系统的中文，全角数字等，所以在明确要求是A～Z,a～z,0～9,_ 中的一个的时候，用[A-Za-z0-9_]，而不用\w
换页符的在终端的中的效果相当于*nix中clear命令。终端在输出‘\f’之后内容之前，会将整个终端屏幕清空空，然后在输出内容。给人的该觉是在clear命令后的输出字符串。
垂直制表符不常用。它的作用是让‘\v’后面的字符从下一行开始输出，且开始的列数为“\v”前一个字符所在列后面一列。

正则表达式-维基百科
Python正则表达式指南-AstralWind
正则表达式30分钟入门教程
微软的正则表达式教程
回车和换行的来源－阮一峰

正则表达式（笔记）

正则表达式

语法规则

优先权

常用实例

注意事项

相关文章

相关工具

你可能感兴趣的:(正则表达式（笔记）)