正则表达式回溯导致CPU飙高,贪婪、勉强、独占模式

本来以为正则表达式是个非常轻的东西,不会出什么幺蛾子,昨天看一个公众号的技术文章,因为正则表达式的使用不当,竟然导致CPU飙到100%

主要原因是回溯

什么是回溯

假如现在待匹配的字符串是:1111a

正则表达式为:[\d,a]+a

此时对[\d,a]是默认的贪婪模式,匹配的大致流程:
第一个字符1是否满足[\d,a],满足
第二个字符1是否满足[\d,a],满足
…..
最后一个字符a是否满足[\d,a],满足
后面没有字符匹配正则表达式最后的a了,匹配失败,!!回溯!!
回到最后一个字符,匹配正则表达式的a,匹配成功(此处如果匹配失败,会继续回到倒数第二个字符去匹配,依次类推,所以如果字符串很长,会出现回溯很多)

如果是非贪婪模式(勉强模式):[\d,a]+?a
首先第一个字符匹配[\d,a],因为是非贪婪的,所以第二个字符就开始匹配a,匹配失败,再用第二个字符匹配[\d,a],依次类推

独占模式:[\d,a]++a

以前都没听过或者使用过这个模式,挺新鲜的,它其实就是不会回溯的贪婪模式,回头看贪婪模式的步骤,如果是独占模式,在倒数第二步匹配失败的时候,就会直接返回匹配失败,不会再回溯去尝试,所以其实是个很实用很高效的模式

你可能感兴趣的:(Java,正则表达式,独占模式)