Java学习之正则表达式

正则表达式(Regular expressions)本质上是一个微小的且高度专业化的编程语言,它被嵌入到高级语言中供程序员使用。正则表达式通过指定一些规则来描述那些你希望匹配的字符串集合,比如Email地址,IP地址。正则表达式的强大之处在于一些特殊符号的应用,特殊符号定义了字符集合、子组匹配、模式重复次数。

正则可看做一门DSL语言,用于解决很多场景下的字符串匹配、筛选问题。

基本概念

可视化网站:https://www.debuggex.com/

不局限于某一种语言,但是在每种语言中有细微的差别。本文只讲Java。

模式修正符

模式修正符,实际上就是特殊的字母,可以一次使用一个,也可以连续使用多个。模式修正符是对整个正则表达式调优使用,是对正则表达式功能的扩展。正则表达式的公式:'/原子和元字符/模式修正符',其中正斜线为边界符。

模式修正符 说明
i 表示在和模式进行匹配进不区分大小写
m 将模式视为多行,使用^和$表示任何一行都可以以正则表达式开始或结束
s 如果没有使用这个模式修正符号,元字符中的"."默认不能表示换行符号,将字符串视为单行
x 表示模式中的空白忽略不计
e 正则表达式必须使用在preg_replace替换字符串的函数中时才可以使用
A 以模式字符串开头,相当于元字符^
Z 以模式字符串结尾,相当于元字符$
U 正则表达式默认是贪婪匹配模式,使用该模式修正符可以取消贪婪模式

Java API

java.util.regex 包下,主要包括以下三个类:Pattern、Matcher、PatternSyntaxException。
Pattern类
Pattern对象是一个正则表达式的编译表示,没有公共构造方法。要创建一个Pattern对象,你必须首先调用其公共静态编译方法,它返回一个Pattern对象。该方法接受一个正则表达式作为它的第一个参数。
Matcher类
Matcher对象是对输入字符串进行解释和匹配操作的引擎,也没有公共构造方法。调用Pattern对象的matcher方法来获得一个Matcher对象。
PatternSyntaxException
非强制异常类,它表示一个正则表达式模式中的语法错误。

StackOverflowError

2、问题分析
正则表达式引擎分成两类,一类称为DFA(确定性有穷自动机),另一类称为NFA(非确定性有穷自动机)。两类引擎要顺利工作,都必须有一个正则式和一个文本串。DFA捏着文本串去比较正则式,看到一个子正则式,就把可能的匹配串全标注出来,然后再看正则式的下一个部分,根据新的匹配结果更新标注。NFA是捏着正则式去比文本,吃掉一个字符,就把它跟正则式比较,匹配就记下来,然后接着往下干。一旦不匹配,就把刚吃的这个字符吐出来,一个个的吐,直到回到上一次匹配的地方。
DFA与NFA机制上的不同带来5个影响:

  1. DFA 对于文本串里的每一个字符只需扫描一次,比较快,但特性较少;NFA要翻来覆去吃字符、吐字符,速度慢,但是特性丰富,所以反而应用广泛,当今主要的正则表达式引擎,如Perl、Ruby、Python的re模块、Java和.NET的regex库,都是NFA的。
  2. 只有NFA才支持lazy和backreference等特性;
  3. NFA急于邀功请赏,所以最左子正则式优先匹配成功,因此偶尔会错过最佳匹配结果;DFA则是“最长的左子正则式优先匹配成功”。
  4. NFA缺省采用greedy量词;
  5. NFA可能会陷入递归调用的陷阱而表现得性能极差。

在使用正则表达式的时候,底层是通过递归方式调用执行的,每一层的递归都会在栈线程的大小中占一定内存,如果递归的层次很多,就会报出stackOverFlowError异常。所以在使用正则的时候其实是有利有弊的。

Java程序中,每个线程都有自己的Stack Space。这个Stack Space不是来自Heap的分配。所以Stack Space的大小不会受到-Xmx和-Xms的影响,这2个JVM参数仅仅是影响Heap的大小。Stack Space用来做方法的递归调用时压入Stack Frame。所以当递归调用太深的时候,就有可能耗尽Stack Space,爆出StackOverflow的错误。Stack Space的大小随着OS,JVM以及环境变量的大小而发生变化。一般说来默认的大小是512K。在64位的系统中,这个Stack Space值会更大。一般说来,Stack Space为128K是够用的。这时你说需要做的就是观察。如果你的程序没有爆出StackOverflow的错误,可以使用-Xss来调整Stack Space的大小为128K。(eg:-Xss128K)

文章开头的问题可以简单理解为方法的嵌套调用层次太深,上层的方法栈一直得不到释放,导致栈空间不足。

下面我们要做的就是了解一些正则性能的优化点,规避这种深层次的递归调用。

3、Java 正则的一些优化点
3.1 Pattern.compile() 预编译表达式
如果在程序中多次使用同一个正则表达式,一定要用Pattern.compile()编译,代替直接使用Pattern.matches()。如果一次次对同一个正则表达式使用Pattern.matches(),例如在循环中,没有编译的正则表达式消耗比较大。因为matches()方法每次都会预编译使用的表达式。另外,记住你可以通过调用reset()方法对不同的输入字符串重复使用Matcher对象。

3.2 留意选择(Beware of alternation)
类似“(X|Y|Z)”的正则表达式有降低速度的坏名声,所以要多留心。首先,考虑选择的顺序,那么要将比较常用的选择项放在前面,因此它们可以较快被匹配。另外,尝试提取共用模式;例如将“(abcd|abef)”替换为“ab(cd|ef)”。后者匹配速度较快,因为NFA会尝试匹配ab,如果没有找到就不再尝试任何选择项。(在当前情况下,只有两个选择项。如果有很多选择项,速度将会有显著的提升。)选择的确会降低程序的速度。在我的测试中,表达式“.(abcd|efgh|ijkl).”要比调用String.indexOf()三次——每次针对表达式中的一个选项——慢三倍。

3.3 减少分组与嵌套
如果你实际并不需要获取一个分组内的文本,那么就使用非捕获分组。例如使用“(?:X)”代替“(X)”。
总结下来就是:减少分支选择、减少捕获嵌套、减少贪婪匹配
4、解决方案
4.1 临时工方案
try…catch…/增加-Xss,治标不治本,不推荐。
4.2 优化正则才是王道
4.2.1 语法层面优化
根据 3.2 提到的,这样优化下:final String TEST_REGEX = “([=+\s\p{P}A-Za-z0-9\u4E00-\u9FA5])+”;
经测试,JVM 参数不变的情况下,for 循环 100w 次直到 OOM 都不会再发生文章开头的栈溢出的问题。
4.2.2 业务逻辑层面优化
由于我不清楚作者的业务场景,不好做业务优化,总的原则是当你的正则太复杂时,可以考虑逻辑拆分,或者部分不走正则,如果把正则当做万能工具可能会得不偿失。
总结:在字符串查找与匹配领域,正则可以说几乎是“万能”的,但是许多场景下,它的代价不容小觑,如何写出高效率、可维护的正则或者怎么能避开正则都是值得咱们思考的问题。

NFA引擎正则性能优化Tips

  1. 优先选择最左端的匹配结果
  2. 标准量词优先匹配
    比如’.[0-9][0-9]‘ 来匹配字符串”abcd12efghijklmnopqrstuvw”,这时候的匹配方式是‘.’先匹配了整行,但是不能满足之后的两个数字的匹配,所以‘.*’就退还一个字符‘w’,还是无法匹配,继续退还一个‘v’,循环退还字符到‘2’发现匹配了一个,但是还是无法匹配两个数字,所以继续退还‘1’
  3. 谨慎使用捕获性括号(),选择使用非捕获性括号(?:expression)
    捕获性括号需要消耗一部分内存
  4. 使用字符组代替分支(替换)条件
    例如用[a-d] 代替 a|b|c|d避免不必要的回溯
  5. 不要滥用字符组(单个字符时不要用字符组)
    \.代替[.]
  6. 使用锚点^ $ \b加速定位
  7. 从两次中提取必须元素
    a{2,4}写成aa{0,2}
  8. 提取多选结构开头的相同字符
    the|this 改成th(?:e|is)
  9. 选择字符串中最常出现的字符串放到分支最前面
  10. 能懒则懒,不要贪婪
    在 * + {m,n}后面加上问好?就会变成非贪婪模式
    总结:引用CFC4N大牛的一句话 滥用. 点号 * 星号 +加号 ()括号 是不环保,不负责任的做法 !
  11. 简单字符串处理应避免使用正则表达式

在线工具

http://tool.chinaz.com/regex

实例

校验数字

  • 数字:^[0-9]*$
  • n位的数字:^\d{n}$
  • 至少n位的数字:^\d{n,}$
  • m-n位的数字:^\d{m,n}$
  • 零和非零开头的数字:^(0|[1-9][0-9]*)$
  • 非零开头的最多带两位小数的数字:^([1-9][0-9]*)+(.[0-9]{1,2})?$
  • 带1-2位小数的正数或负数:^(-)?\d+(.\d{1,2})?$
  • 正数、负数、和小数:^(-|+)?\d+(.\d+)?$
  • 有两位小数的正实数:^[0-9]+(.[0-9]{2})?$
  • 有1~3位小数的正实数:^[0-9]+(.[0-9]{1,3})?$
  • 非零的正整数:^[1-9]\d$ 或 ^([1-9][0-9]){1,3}$ 或 ^+?[1-9][0-9]*$
  • 非零的负整数:^-[1-9][]0-9"$ 或 ^-[1-9]\d$
  • 非负整数:^\d+$ 或 ^[1-9]\d*|0$
  • 非正整数:^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$
  • 非负浮点数:^\d+(.\d+)?$ 或 ^[1-9]\d.\d|0.\d[1-9]\d|0?.0+|0$
  • 非正浮点数:^((-\d+(.\d+)?)|(0+(.0+)?))$^(-([1-9]\d.\d|0.\d[1-9]\d))|0?.0+|0$
  • 正浮点数:^[1-9]\d.\d|0.\d[1-9]\d$^(([0-9]+.[0-9][1-9][0-9])|([0-9][1-9][0-9].[0-9]+)|([0-9][1-9][0-9]))$
  • 负浮点数:^-([1-9]\d.\d|0.\d[1-9]\d)$^(-(([0-9]+.[0-9][1-9][0-9])|([0-9][1-9][0-9].[0-9]+)|([0-9][1-9][0-9])))$
  • 浮点数:^(-?\d+)(.\d+)?$^-?([1-9]\d.\d|0.\d[1-9]\d|0?.0+|0)$

校验字符

  • 汉字:^[\u4e00-\u9fa5]{0,}$
  • 英文和数字:^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$
  • 长度为3-20的所有字符:^.{3,20}$
  • 由26个英文字母组成的字符串:^[A-Za-z]+$
  • 由数字、26个英文字母或者下划线组成的字符串:^\w+$ 或 ^\w{3,20}$
  • 中文、英文、数字包括下划线:^[\u4E00-\u9FA5A-Za-z0-9_]+$
  • 可以输入含有^%&',;=?$\"等字符:[^%&',;=?$\x22]+
  • 禁止输入含有~的字符:[^~\x22]+

特殊需求表达式

  • Email地址:^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$
    2 域名:[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?
    3 Internet URL:[a-zA-z]+://[^\s] 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=])?$
    4 手机号码:^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$
    5 电话号码(区号有三位和四位两种,中间是连字符-,后面跟着七位或者8位;还有两种没有区号):^((\d{3,4}-)|\d{3.4}-)?\d{7,8}$
    6 国内电话号码(只考虑两种形式4-7&3-8):\d{3}-\d{8}|\d{4}-\d{7}
    7 身份证号(15位、18位数字):^\d{15}|\d{18}$
    8 短身份证号码(数字、字母x结尾):^([0-9]){7,18}(x|X)?$^\d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?$
    9 帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
    10 密码(以字母开头,长度在6~18之间,只能包含字母、数字和下划线):^[a-zA-Z]\w{5,17}$
    11 强密码(必须包含大小写字母和数字的组合,不能使用特殊字符,长度在8-10之间):^(?=.\d)(?=.[a-z])(?=.*[A-Z]).{8,10}$
    12 日期格式:^\d{4}-\d{1,2}-\d{1,2}
    13 一年的12个月(01~09和10~12):^(0?[1-9]|1[0-2])$
    14 一个月的31天(01~09和1~31):^((0?[1-9])|((1|2)[0-9])|30|31)$
    15 钱的输入格式:
    16 1.有四种钱的表示形式我们可以接受:“10000.00” 和 “10,000.00”, 和没有 “分” 的 “10000” 和 “10,000”:1[0-9]$
    17 2.这表示任意一个不以0开头的数字,但是,这也意味着一个字符"0"不通过,所以我们采用下面的形式:^(0|[1-9][0-9]
    )$
    18 3.一个0或者一个不以0开头的数字.我们还可以允许开头有一个负号:^(0|-?[1-9][0-9])$
    19 4.这表示一个0或者一个可能为负的开头不为0的数字.让用户以0开头好了.把负号的也去掉,因为钱总不能是负的吧.下面我们要加的是说明可能的小数部分:2+(.[0-9]+)?$
    20 5. 小数点后面至少应该有1位数,所以"10."是不通过的,但是 “10” 和 “10.2” 是通过的:^[0-9]+(.[0-9]{2})?$
    21 6.这样我们规定小数点后面必须有两位,如果你认为太苛刻了,可以这样:^[0-9]+(.[0-9]{1,2})?$
    22 7.这样就允许用户只写一位小数.下面我们该考虑数字中的逗号了,我们可以这样:^[0-9]{1,3}(,[0-9]{3})*(.[0-9]{1,2})?$
    23 8.1到3个数字,后面跟着任意个逗号+3个数字,逗号成为可选,而不是必须:^([0-9]+|[0-9]{1,3}(,[0-9]{3})*)(.[0-9]{1,2})?$
    24 "+“可以用”
    "替代如果你觉得空字符串也可以接受的话;最后别忘了在用函数时去掉去掉那个反斜杠。
  • xml文件:^([a-zA-Z]+-?)+[a-zA-Z0-9]+\.[x|X][m|M][l|L]$
    27 双字节字符:[^\x00-\xff] (包括汉字在内,可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1))

29 HTML标记:<(\S?)[^>]>.?|<.? /> (这个仅仅能匹配部分,对于复杂的嵌套标记依旧无能为力)
30 行首尾空白字符:^\s|\s$或(^\s)|(\s$)(可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等)
31 腾讯QQ号:[1-9][0-9]{4,} (腾讯QQ号从10000开始)

  • 中国邮政编码(6位数字):[1-9]\d{5}(?!\d)

  • IP地址:\d+.\d+.\d+.\d+

  • IP地址:((?:(?:25[0-5]|2[0-4]\d|[01]?\d?\d)\.){3}(?:25[0-5]|2[0-4]\d|[01]?\d?\d))

  • 校验基本日期格式:
    /^(\\d{1,4})(-|\\/)(\\d{1,2})\\2(\\d{1,2})$/;

  • 校验密码强度
    密码的强度必须是包含大小写字母和数字的组合,不能使用特殊字符,长度在8-10之间。
    ^(?=.*\\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$

  • 由数字、26个英文字母或下划线组成的字符串
    ^\\w+$

  • 校验身份证号码
    15位:
    ^[1-9]\\d{7}((0\\d)|(1[0-2]))(([0|1|2]\\d)|3[0-1])\\d{3}$
    18位:
    ^[1-9]\\d{5}[1-9]\\d{3}((0\\d)|(1[0-2]))(([0|1|2]\\d)|3[0-1])\\d{3}([0-9]|X)$

  • 校验日期
    “yyyy-mm-dd“ 格式的日期校验,已考虑平闰年。
    ^(?:(?!0000)[0-9]{4}-(?:(?:0[1-9]|1[0-2])-(?:0[1-9]|1[0-9]|2[0-8])|(?:0[13-9]|1[0-2])-(?:29|30)|(?:0[13578]|1[02])-31)|(?:[0-9]{2}(?:0[48]|[2468][048]|[13579][26])|(?:0[48]|[2468][048]|[13579][26])00)-02-29)$

  • 校验金额,精确到2位小数:^[0-9]+(.[0-9]{2})?$

  • 校验手机号(国内 13、14、15、18开头的手机号):^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\\d{8}$

  • 判断IE的版本,用于浏览器版本兼容:^.*MSIE [5-8](?:\\.[0-9]+)?(?!.*Trident\\/[5-9]\\.0).*$

  • 校验IPv4地址:\\b(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\\b

  • 校验IP-v6地址:(([0-9a-fA-F]{1,4}:){7,7}[0-9a-fA-F]{1,4}|([0-9a-fA-F]{1,4}:){1,7}:|([0-9a-fA-F]{1,4}:){1,6}:[0-9a-fA-F]{1,4}|([0-9a-fA-F]{1,4}:){1,5}(:[0-9a-fA-F]{1,4}){1,2}|([0-9a-fA-F]{1,4}:){1,4}(:[0-9a-fA-F]{1,4}){1,3}|([0-9a-fA-F]{1,4}:){1,3}(:[0-9a-fA-F]{1,4}){1,4}|([0-9a-fA-F]{1,4}:){1,2}(:[0-9a-fA-F]{1,4}){1,5}|[0-9a-fA-F]{1,4}:((:[0-9a-fA-F]{1,4}){1,6})|:((:[0-9a-fA-F]{1,4}){1,7}|:)|fe80:(:[0-9a-fA-F]{0,4}){0,4}%[0-9a-zA-Z]{1,}|::(ffff(:0{1,4}){0,1}:){0,1}((25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])\\.){3,3}(25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])|([0-9a-fA-F]{1,4}:){1,4}:((25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])\\.){3,3}(25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9]))

  • 检查URL的前缀
    区分HTTPS和HTTP,通过下面的表达式可以取出一个url的前缀然后再逻辑判断。

if (!s.match(/^[a-zA-Z]+:\\/\\//)) {
    s = 'http://' + s;
}
  • 提取URL链接:^(f|ht){1}(tp|tps):\\/\\/([\\w-]+\\.)+[\\w-]+(\\/[\\w- ./?%&=]*)?
  • 文件路径及扩展名校验:^([a-zA-Z]\\:|\\\\)\\\\([^\\\\]+\\\\)*[^\\/:*?"<>|]+\\.txt(l)?$
  • 提取网页中的颜色代码Color Hex Codes:\\#([a-fA-F]|[0-9]){3,6}
  • 提取网页图片:\\< *[img][^\\>]*[src] *= *[\\"\\']{0,1}([^\\"\\'\\ >]*)
  • 提取html页面超链接
    (]*)(href="https?://)((?!(?:(?:www\\.)?'.implode('|(?:www\\.)?', $follow_list).'))[^"]+)"((?!.*\\brel=)[^>]*)(?:[^>]*)>
  • 精炼CSS,搜索相同属性值的CSS
    ^\\s*[a-zA-Z\\-]+\\s*[:]{1}\\s[a-zA-Z0-9\\s.#]+[;]{1}
  • 抽取HMTL注释:
  • 匹配HTML标签:\\s]+))?)+\\s*|\\s*)/?>
  • 手机号校验:^(0|86|17951)?(13[0-9]|15[012356789]|17[0-9]|18[0-9]|14[57])[0-9]{8}$
  • 手机正则匹配:^0?1[34578]\d{9}$

其他小技巧

Eclipse批量删除代码中的注释
ctrl+f 在 find栏输入/\*{1,2}[\s\S]*?\*/正则表达式
勾选 regular项,点 replace all;Eclipse可以查找项目,查找工作集,查找工作空间,还可以按选中查找。

参考

模式修正符使用介绍
20个正则表达式
65条最常用正则表达式
Java 正则表达式 StackOverflowError 问题及其优化


  1. 1-9 ↩︎

  2. 0-9 ↩︎

你可能感兴趣的:(理论,正则表达式)