正则表达式(Regular expressions)本质上是一个微小的且高度专业化的编程语言,它被嵌入到高级语言中供程序员使用。正则表达式通过指定一些规则来描述那些你希望匹配的字符串集合,比如Email地址,IP地址。正则表达式的强大之处在于一些特殊符号的应用,特殊符号定义了字符集合、子组匹配、模式重复次数。
正则可看做一门DSL语言,用于解决很多场景下的字符串匹配、筛选问题。
可视化网站:https://www.debuggex.com/
不局限于某一种语言,但是在每种语言中有细微的差别。本文只讲Java。
模式修正符,实际上就是特殊的字母,可以一次使用一个,也可以连续使用多个。模式修正符是对整个正则表达式调优使用,是对正则表达式功能的扩展。正则表达式的公式:'/原子和元字符/模式修正符'
,其中正斜线为边界符。
模式修正符 | 说明 |
---|---|
i | 表示在和模式进行匹配进不区分大小写 |
m | 将模式视为多行,使用^和$表示任何一行都可以以正则表达式开始或结束 |
s | 如果没有使用这个模式修正符号,元字符中的"."默认不能表示换行符号,将字符串视为单行 |
x | 表示模式中的空白忽略不计 |
e | 正则表达式必须使用在preg_replace替换字符串的函数中时才可以使用 |
A | 以模式字符串开头,相当于元字符^ |
Z | 以模式字符串结尾,相当于元字符$ |
U | 正则表达式默认是贪婪匹配模式,使用该模式修正符可以取消贪婪模式 |
java.util.regex 包下,主要包括以下三个类:Pattern、Matcher、PatternSyntaxException。
Pattern类
Pattern对象是一个正则表达式的编译表示,没有公共构造方法。要创建一个Pattern对象,你必须首先调用其公共静态编译方法,它返回一个Pattern对象。该方法接受一个正则表达式作为它的第一个参数。
Matcher类
Matcher对象是对输入字符串进行解释和匹配操作的引擎,也没有公共构造方法。调用Pattern对象的matcher方法来获得一个Matcher对象。
PatternSyntaxException
非强制异常类,它表示一个正则表达式模式中的语法错误。
2、问题分析
正则表达式引擎分成两类,一类称为DFA(确定性有穷自动机),另一类称为NFA(非确定性有穷自动机)。两类引擎要顺利工作,都必须有一个正则式和一个文本串。DFA捏着文本串去比较正则式,看到一个子正则式,就把可能的匹配串全标注出来,然后再看正则式的下一个部分,根据新的匹配结果更新标注。NFA是捏着正则式去比文本,吃掉一个字符,就把它跟正则式比较,匹配就记下来,然后接着往下干。一旦不匹配,就把刚吃的这个字符吐出来,一个个的吐,直到回到上一次匹配的地方。
DFA与NFA机制上的不同带来5个影响:
在使用正则表达式的时候,底层是通过递归方式调用执行的,每一层的递归都会在栈线程的大小中占一定内存,如果递归的层次很多,就会报出stackOverFlowError异常。所以在使用正则的时候其实是有利有弊的。
Java程序中,每个线程都有自己的Stack Space。这个Stack Space不是来自Heap的分配。所以Stack Space的大小不会受到-Xmx和-Xms的影响,这2个JVM参数仅仅是影响Heap的大小。Stack Space用来做方法的递归调用时压入Stack Frame。所以当递归调用太深的时候,就有可能耗尽Stack Space,爆出StackOverflow的错误。Stack Space的大小随着OS,JVM以及环境变量的大小而发生变化。一般说来默认的大小是512K。在64位的系统中,这个Stack Space值会更大。一般说来,Stack Space为128K是够用的。这时你说需要做的就是观察。如果你的程序没有爆出StackOverflow的错误,可以使用-Xss来调整Stack Space的大小为128K。(eg:-Xss128K)
文章开头的问题可以简单理解为方法的嵌套调用层次太深,上层的方法栈一直得不到释放,导致栈空间不足。
下面我们要做的就是了解一些正则性能的优化点,规避这种深层次的递归调用。
3、Java 正则的一些优化点
3.1 Pattern.compile() 预编译表达式
如果在程序中多次使用同一个正则表达式,一定要用Pattern.compile()编译,代替直接使用Pattern.matches()。如果一次次对同一个正则表达式使用Pattern.matches(),例如在循环中,没有编译的正则表达式消耗比较大。因为matches()方法每次都会预编译使用的表达式。另外,记住你可以通过调用reset()方法对不同的输入字符串重复使用Matcher对象。
3.2 留意选择(Beware of alternation)
类似“(X|Y|Z)”的正则表达式有降低速度的坏名声,所以要多留心。首先,考虑选择的顺序,那么要将比较常用的选择项放在前面,因此它们可以较快被匹配。另外,尝试提取共用模式;例如将“(abcd|abef)”替换为“ab(cd|ef)”。后者匹配速度较快,因为NFA会尝试匹配ab,如果没有找到就不再尝试任何选择项。(在当前情况下,只有两个选择项。如果有很多选择项,速度将会有显著的提升。)选择的确会降低程序的速度。在我的测试中,表达式“.(abcd|efgh|ijkl).”要比调用String.indexOf()三次——每次针对表达式中的一个选项——慢三倍。
3.3 减少分组与嵌套
如果你实际并不需要获取一个分组内的文本,那么就使用非捕获分组。例如使用“(?:X)”代替“(X)”。
总结下来就是:减少分支选择、减少捕获嵌套、减少贪婪匹配
4、解决方案
4.1 临时工方案
try…catch…/增加-Xss,治标不治本,不推荐。
4.2 优化正则才是王道
4.2.1 语法层面优化
根据 3.2 提到的,这样优化下:final String TEST_REGEX = “([=+\s\p{P}A-Za-z0-9\u4E00-\u9FA5])+”;
经测试,JVM 参数不变的情况下,for 循环 100w 次直到 OOM 都不会再发生文章开头的栈溢出的问题。
4.2.2 业务逻辑层面优化
由于我不清楚作者的业务场景,不好做业务优化,总的原则是当你的正则太复杂时,可以考虑逻辑拆分,或者部分不走正则,如果把正则当做万能工具可能会得不偿失。
总结:在字符串查找与匹配领域,正则可以说几乎是“万能”的,但是许多场景下,它的代价不容小觑,如何写出高效率、可维护的正则或者怎么能避开正则都是值得咱们思考的问题。
\.
代替[.]
^ $ \b
加速定位a{2,4}
写成aa{0,2}
the|this 改成th(?:e|is)
http://tool.chinaz.com/regex
^[0-9]*$
^\d{n}$
^\d{n,}$
^\d{m,n}$
^(0|[1-9][0-9]*)$
^([1-9][0-9]*)+(.[0-9]{1,2})?$
^(-)?\d+(.\d{1,2})?$
^(-|+)?\d+(.\d+)?$
^[0-9]+(.[0-9]{2})?$
^[0-9]+(.[0-9]{1,3})?$
^[1-9]\d$ 或 ^([1-9][0-9]){1,3}$ 或 ^+?[1-9][0-9]*$
^-[1-9][]0-9"$ 或 ^-[1-9]\d$
^\d+$ 或 ^[1-9]\d*|0$
^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$
^\d+(.\d+)?$ 或 ^[1-9]\d.\d|0.\d[1-9]\d|0?.0+|0$
^((-\d+(.\d+)?)|(0+(.0+)?))$
或 ^(-([1-9]\d.\d|0.\d[1-9]\d))|0?.0+|0$
^[1-9]\d.\d|0.\d[1-9]\d$
或^(([0-9]+.[0-9][1-9][0-9])|([0-9][1-9][0-9].[0-9]+)|([0-9][1-9][0-9]))$
^-([1-9]\d.\d|0.\d[1-9]\d)$
或 ^(-(([0-9]+.[0-9][1-9][0-9])|([0-9][1-9][0-9].[0-9]+)|([0-9][1-9][0-9])))$
^(-?\d+)(.\d+)?$
或^-?([1-9]\d.\d|0.\d[1-9]\d|0?.0+|0)$
^[\u4e00-\u9fa5]{0,}$
^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$
^.{3,20}$
^[A-Za-z]+$
^\w+$ 或 ^\w{3,20}$
^[\u4E00-\u9FA5A-Za-z0-9_]+$
^%&',;=?$\"
等字符:[^%&',;=?$\x22]+
[^~\x22]+
^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$
[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?
[a-zA-z]+://[^\s] 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=])?$
^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$
^((\d{3,4}-)|\d{3.4}-)?\d{7,8}$
\d{3}-\d{8}|\d{4}-\d{7}
^\d{15}|\d{18}$
^([0-9]){7,18}(x|X)?$
或^\d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?$
^[a-zA-Z][a-zA-Z0-9_]{4,15}$
^[a-zA-Z]\w{5,17}$
^(?=.\d)(?=.[a-z])(?=.*[A-Z]).{8,10}$
^\d{4}-\d{1,2}-\d{1,2}
^(0?[1-9]|1[0-2])$
^((0?[1-9])|((1|2)[0-9])|30|31)$
^[0-9]+(.[0-9]{2})?$
^[0-9]+(.[0-9]{1,2})?$
^[0-9]{1,3}(,[0-9]{3})*(.[0-9]{1,2})?$
^([0-9]+|[0-9]{1,3}(,[0-9]{3})*)(.[0-9]{1,2})?$
^([a-zA-Z]+-?)+[a-zA-Z0-9]+\.[x|X][m|M][l|L]$
[^\x00-\xff]
(包括汉字在内,可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1))29 HTML标记:<(\S?)[^>]>.?\1>|<.? />
(这个仅仅能匹配部分,对于复杂的嵌套标记依旧无能为力)
30 行首尾空白字符:^\s|\s$或(^\s)|(\s$)
(可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等)
31 腾讯QQ号:[1-9][0-9]{4,}
(腾讯QQ号从10000开始)
中国邮政编码(6位数字):[1-9]\d{5}(?!\d)
IP地址:\d+.\d+.\d+.\d+
IP地址:((?:(?:25[0-5]|2[0-4]\d|[01]?\d?\d)\.){3}(?:25[0-5]|2[0-4]\d|[01]?\d?\d))
校验基本日期格式:
/^(\\d{1,4})(-|\\/)(\\d{1,2})\\2(\\d{1,2})$/;
校验密码强度
密码的强度必须是包含大小写字母和数字的组合,不能使用特殊字符,长度在8-10之间。
^(?=.*\\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$
由数字、26个英文字母或下划线组成的字符串
^\\w+$
校验身份证号码
15位:
^[1-9]\\d{7}((0\\d)|(1[0-2]))(([0|1|2]\\d)|3[0-1])\\d{3}$
18位:
^[1-9]\\d{5}[1-9]\\d{3}((0\\d)|(1[0-2]))(([0|1|2]\\d)|3[0-1])\\d{3}([0-9]|X)$
校验日期
“yyyy-mm-dd“ 格式的日期校验,已考虑平闰年。
^(?:(?!0000)[0-9]{4}-(?:(?:0[1-9]|1[0-2])-(?:0[1-9]|1[0-9]|2[0-8])|(?:0[13-9]|1[0-2])-(?:29|30)|(?:0[13578]|1[02])-31)|(?:[0-9]{2}(?:0[48]|[2468][048]|[13579][26])|(?:0[48]|[2468][048]|[13579][26])00)-02-29)$
校验金额,精确到2位小数:^[0-9]+(.[0-9]{2})?$
校验手机号(国内 13、14、15、18开头的手机号):^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\\d{8}$
判断IE的版本,用于浏览器版本兼容:^.*MSIE [5-8](?:\\.[0-9]+)?(?!.*Trident\\/[5-9]\\.0).*$
校验IPv4地址:\\b(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\\b
校验IP-v6地址:(([0-9a-fA-F]{1,4}:){7,7}[0-9a-fA-F]{1,4}|([0-9a-fA-F]{1,4}:){1,7}:|([0-9a-fA-F]{1,4}:){1,6}:[0-9a-fA-F]{1,4}|([0-9a-fA-F]{1,4}:){1,5}(:[0-9a-fA-F]{1,4}){1,2}|([0-9a-fA-F]{1,4}:){1,4}(:[0-9a-fA-F]{1,4}){1,3}|([0-9a-fA-F]{1,4}:){1,3}(:[0-9a-fA-F]{1,4}){1,4}|([0-9a-fA-F]{1,4}:){1,2}(:[0-9a-fA-F]{1,4}){1,5}|[0-9a-fA-F]{1,4}:((:[0-9a-fA-F]{1,4}){1,6})|:((:[0-9a-fA-F]{1,4}){1,7}|:)|fe80:(:[0-9a-fA-F]{0,4}){0,4}%[0-9a-zA-Z]{1,}|::(ffff(:0{1,4}){0,1}:){0,1}((25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])\\.){3,3}(25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])|([0-9a-fA-F]{1,4}:){1,4}:((25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])\\.){3,3}(25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9]))
检查URL的前缀
区分HTTPS和HTTP,通过下面的表达式可以取出一个url的前缀然后再逻辑判断。
if (!s.match(/^[a-zA-Z]+:\\/\\//)) {
s = 'http://' + s;
}
^(f|ht){1}(tp|tps):\\/\\/([\\w-]+\\.)+[\\w-]+(\\/[\\w- ./?%&=]*)?
^([a-zA-Z]\\:|\\\\)\\\\([^\\\\]+\\\\)*[^\\/:*?"<>|]+\\.txt(l)?$
\\#([a-fA-F]|[0-9]){3,6}
\\< *[img][^\\>]*[src] *= *[\\"\\']{0,1}([^\\"\\'\\ >]*)
(]*)(href="https?://)((?!(?:(?:www\\.)?'.implode('|(?:www\\.)?', $follow_list).'))[^"]+)"((?!.*\\brel=)[^>]*)(?:[^>]*)>
^\\s*[a-zA-Z\\-]+\\s*[:]{1}\\s[a-zA-Z0-9\\s.#]+[;]{1}
\\s]+))?)+\\s*|\\s*)/?>
^(0|86|17951)?(13[0-9]|15[012356789]|17[0-9]|18[0-9]|14[57])[0-9]{8}$
^0?1[34578]\d{9}$
Eclipse批量删除代码中的注释
ctrl+f 在 find栏输入/\*{1,2}[\s\S]*?\*/
正则表达式
勾选 regular项,点 replace all;Eclipse可以查找项目,查找工作集,查找工作空间,还可以按选中查找。
模式修正符使用介绍
20个正则表达式
65条最常用正则表达式
Java 正则表达式 StackOverflowError 问题及其优化
1-9 ↩︎
0-9 ↩︎