C语言中使用正则表达式

有四个函数:

        int regcomp (regex_t *compiled, const char *pattern, int cflags)

        参数1:  结构体  --- 编译(字符串---结构体)存储正则表达式

        参数2:     正则表达式串。

        参数3:     标志位:  

                1. 扩展正则:REG_EXTENDED 

                2. 忽略大小写:REG_ICASE 

                3. 识别换行符:REG_NEWLINE   ---> ^ $ 

                4. 指定是否存储匹配结果:REG_NOSUB  --->  regexec函数参3取0值,并且参4取NULL


        返回值:成功0;失败错误号


    int regexec (regex_t *compiled, char *string, size_t nmatch, regmatch_t matchptr[], int eflags)

        参数1: regcomp编译后传出的 结构体

        参数2: 待用正则表达式 进行匹配的字符串

        参数3: 数组大小

        参数4: 用来存储返回结果的数组

        参数5: 标志位:

                1. REG_NOTBOL 使^无效

                2. REG_NOTEOL 使$无效

        返回值:成功0;失败错误号
        
        regmatch_t 是一个结构体数据类型,在regex.h中定义:
    typedef struct {
        regoff_t rm_so;
        regoff_t rm_eo;
    } regmatch_t;
    成员rm_so 存放匹配文本串在目标串中的开始位置,rm_eo 存放结束位置。通常我们以数组的形式定义一组这样的结构。因为往往我们的正则表达式中还包含子正则表达式。数组0单元存放主正则表达式位置,后边的单元依次存放子正则表达式位置。
    
    在regexec 中第三个参数是这个结构体的数组,里面有两个成员,一个是字符串开始,一个是结束

    当我们使用完编译好的正则表达式后,或者要重新编译其他正则表达式的时候,我们可以用这个函数清空compiled指向的regex_t结构体的内容,请记住,如果是重新编译的话,一定要先清空regex_t结构体。
    void regfree (regex_t *compiled)  ---> 释放结构体。


    size_t regerror (int errcode, regex_t *compiled, char *buffer, size_t length)

    errcode     是由regcomp 和 regexec 函数返回的错误代号。
    compiled     是已经用regcomp函数编译好的正则表达式,这个值可以为NULL。
    buffer         指向用来存放错误信息的字符串的内存空间。
    length         指明buffer的长度,如果这个错误信息的长度大于这个值,则regerror 函数会自动截断超出的字符串,但他仍然会返回完整的字符串的长度。所以我们可以用如下的方法先得到错误字符串的长度。
    例如: size_t length = regerror (errcode, compiled, NULL, 0);

#include 
	#include 
	#include 

	int main(int argc, char ** argv)
	{
		if (argc != 3) {
			printf("Usage: %s RegexString Text\n", argv[0]);
			return 1;
		}
		const char * pregexstr = argv[1];
		const char * ptext = argv[2];
		regex_t oregex;
		int nerrcode = 0;
		char szerrmsg[1024] = {0};
		size_t unerrmsglen = 0;
		if ((nerrcode = regcomp(&oregex, pregexstr, REG_EXTENDED|REG_NOSUB)) == 0) {
			if ((nerrcode = regexec(&oregex, ptext, 0, NULL, 0)) == 0)	{
				printf("%s matches %s\n", ptext, pregexstr);
				regfree(&oregex);
				return 0;
			}
		}
		unerrmsglen = regerror(nerrcode, &oregex, szerrmsg, sizeof(szerrmsg));
		unerrmsglen = unerrmsglen < sizeof(szerrmsg) ? unerrmsglen : sizeof(szerrmsg) - 1;
		szerrmsg[unerrmsglen] = '\0';
		printf("ErrMsg: %s\n", szerrmsg);
		regfree(&oregex);

		return 1;
	}
	匹配网址:
	./a.out "http:\/\/www\..*\.com" "http://www.taobao.com"
	匹配邮箱:
	./a.out "^[a-zA-Z0-9]+@[a-zA-Z0-9]+.[a-zA-Z0-9]+" "[email protected]"
	./a.out "\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*" "[email protected]"
	注:\w匹配一个字符,包含下划线

 

你可能感兴趣的:(Shell,Linux)