Boost正则表达式教程

 regex_match

    regex_match算法用来测试一个字符串是否完全匹配正则式。让我们来看一下regex_match的使用:

 if (regex_match(str, m, re))

{

    ...

}

    str是一个字符串,可以是string,wstring,char *或者wchar_t *

    m是match_results,它通过引用传入参数,来保存匹配的结果,m要和str的类型匹配,可以是smatch,wsmatch,cmatch或wcmatch,用来分别对应string,wstring,char *或者wchar_t*的str.

    re就是正则表达式了,一般来说是regex或wregex.

    str,m,re的类型如下:



     函数的返回值表示字符串是否完全匹配正则表达式,当返回true的时候,m保存了匹配的结果;返回false,m未定义。

    下面让我们来看一下,当函数返回true的时候,m是怎么样的。

    m.size() == re.mark_count()

    还记得re.mark_count()返回的是什么吗?在上一篇中说的是re.mark_count()返回的时正则式的“组数”,并没有详细解释。这里我要详细解释一下。

    其实,这个“组数”在boost的regex中叫做sub-expression.sub-expression就是在正则式中使用小括号括起来的一部分,正则式本身是一个sub-expression,所以re.mark_count()等于小括号对数+1.

    m.prefix()和m.suffix()

    这两个返回的是sub_match类型(相当于一个迭代器组)。在regex_match算法中,这两个返回的sub_match都是空的,他们的值如下:(sub_match继承于pair,所以有first和second成员哦)

    m.prefix()。first == str.begin()

    m.prefix()。second == str.begin()

    m.prefix()。matched == false

    m.suffix()。first == str.end()

    m.suffix()。second == str.end()

    m.suffix()。matched == false

    因为regex_match是完全匹配,即整个字符串和正则式匹配,所以前缀和后缀都是空的。

    m[0]

    返回第0个匹配的,由于regex_match是完全匹配,所以

    m[0].first == str.begin()

    m[0].second == str.end()

    m[0].matched == true

    m[n] , n

    返回第n个匹配的sub-expression.

    m[n].matched 表示第n个sub-expression是否在字符串中存在。整个regex匹配,但是sub_exp可能匹配的是空的,例如“(a*)”就有可以匹配空。

    m[n].first和m[n].second 表示匹配的范围。如果匹配空的话,都为str.end()。

    根据我的测试,m[1],m[2],……,m[n]的顺序是按照正则式的左小括号的顺序来的,例如对于正则式“((a)bc)d(efg)”,如果匹配了一个字符串的话(字符串只可能是“abcdefg”),则

    m[0] == “abcdefg”  (sub_match重载了==运算符使得可以和一个字符串比较)

    m[1] == “abc”

    m[2] == “a”

    m[3] == “efg”

    regex_match的其它用法



    regex_search

    regex_search的用法基本上和regex_match一样。

 if (regex_search(str, m, re))

{

    ...

}

    regex_search不要求str完全匹配re,只要str中的一个字串匹配re就可以了。所以,m.prefix()和m.suffix()不一定为空。

    regex_search是从左往右匹配,而且尽量匹配长的字串。

你可能感兴趣的:(boost)