正则表达式的运行原理详解(NFA引擎)

正则表达式 NFA 引擎是大多主流语言使用的引擎,它以表达式为主导,更符合开发的逻辑。
理解 NFA 引擎的运行规则,是十分重要的。
我们先看一个例子:
比如下边的这行字符串

The dragging belly indicates your cat is too fat

使用这个正则来匹配的结果应该是什么呢:

fat|cat|belly|your

我们知道“或”字符表示多选分支,而且是从左到右进行匹配。那么最终结果是 fat 吗?
我们在 notepad++ 中进行一下匹配尝试:

正则表达式的运行原理详解(NFA引擎)_第1张图片

我们发现测试的结果,是 belly ,为什么不是最左边的 fat 呢。下面说一下正则表达式的匹配原理:
如图所示的例子,表示了正则表达式匹配的整个过程:

比如我们的字符串是

hellothere,happyhippo

正则表达式为

h(ello|appy)hippo

首先说一下回溯的概念:一个最简单的比方就是,我们打游戏的时候,都会有个存档点,或者叫检查点,在这里游戏会进行存档,如果在之后某时刻任务失败或者角色死亡了,我们可以从这个存档点重新开始尝试。正则中的回溯,也是这个原理。
我们开始看匹配的整个过程。
1. 开始匹配时,首先从字符串的第一个字符开始匹配,也就是 h ,正则中第一位也是 h ,继续;
2. 正则中多选分支 ello 和 appy 从左边的 ello 开始匹配,(会保留 appy 的状态,待失败返回检查点进行回溯)发现可以匹配上,继续向后匹配,正则的下一位是 h,而字符串下一位是 t ,匹配失败;此时进行回溯到 appy 的分支进行尝试,当然 appy 是没有办法匹配 ello 的,在 h 的下一位尝试就直接失败了;
3. 然后分支都走完了,没有成功的匹配。这时候,会在待匹配字符串中,后移一位,进行尝试,也就是从 e 处,继续刚刚的匹配过程。当然,我们发现,e 是没办法匹配正则的第一位 h 的。以此过程继续往复,l l o t h e r e , 一直到这个逗号处,都是无法匹配正则的;
4. 逗号失败之后,我们看到剩余的字符串是 happyhippo, 也就是下一位是 h ,可以匹配正则中的第一位 h ,然后尝试 ello 分支,显然失败要回溯到 appy,这里是可以匹配的,继续匹配 hippo,发现也是满足的。匹配成功,正则表达式匹配到了 happyhippo 子串,匹配结束。

这个过程我们明白了之后,我们再看开始的例子。我们要知道正则表达式匹配是一个一个字符作为开始进行尝试的。如果匹配失败,就往后一个字符重新整个尝试流程。
所以在 The dragging belly 这里,前边每个字符作为开始,都会尝试所有的 fat|cat|belly|your 分支,当然直到 belly 前边的空格都是匹配失败的。直到遇到 belly 的字符 b 开始时,尝试到 belly 分支,发现匹配成功。匹配结束。
NFA引擎,匹配的结果总是最靠左的第一个子串。

你可能感兴趣的:(正则表达式)