ATS中用到的sscanf高级用法说明

ATS使用sscanf函数主要用来解析配置文件,或者提取出要用到的数据类型的值,比较方便,大家可以使用SourceInsight来搜索sscanf用到的地方,这里补充一些sscanf的知识,方便自己更深入地理解源码。

正则表达式与sscanf

在c/C++中,如果不想动用pcre这类正则表达式库,直接可以使sscanf就可以搞定的事情,还是使用sscanf就好。另外,sscanf支持正则表达式,可以完成很多看似无法完成的事情。

基础知识

名称:
sscanf() - 从一个字符串中读进与指定格式相符的数据.
函数原型:
Int  sscanf( string str, string fmt, mixed var1, mixed var2 ... );
int  scanf( const char *format [,argument]... );

说明:
sscanf与scanf类似,都是用于输入的,只是后者以屏幕(stdin)为输入源,前者以固定字符串为输入源。
其中的format可以是一个或多个{%[*] [width] [size]type | ' ' | '\t' | '\n' | 非%符号}

format-type中有%[]这样的type field。 如果读取的字符串,不是以空格来分隔的话,就可以使用%[]
  %[]类似于一个正则表达式 。[a-z]表示读取a-z的所有字符,[^a-z]表示读取除a-z以外的所有字符。

注:
1、 * 亦可用于格式中, (即 %*d 和 %*s) 加了星号 (*) 表示跳过此数据不读入. (也就是不把此数据读入参数中)
2、{a|b|c}表示a,b,c中选一,[d],表示可以有d也可以没有d。
3、width表示读取宽度。
4、参数的size: 常用的有hh表示单字节size,h表示2字节 size,其他详见man sscanf或msdn
5、type :这就很多了,就是%s,%d之类。

6、个人认为正则表达式略显复杂,还是使用sscanf方便,搞不定再用正则表达式

控制字符说明 
%c  一个单一的字符 
%d  一个十进制整数 
%i  一个整数 
%e, %f, %g 一个浮点数 
%o  一个八进制数 
%s  一个字符串 
%x  一个十六进制数 
%p  一个指针 
%n  一个等于读取字符数量的整数 
%u  一个无符号整数 
%[]  一个字符集 
%%  一个精度符


6、
特别的:%*[width] [{h | l | I64 | L}]type 表示满足该条件的被过滤掉,不会向目标参数中写入值

支持集合操作:
  %[a-z] 表示匹配a到z中任意字符,贪婪性(尽可能多的匹配)
  %[aB'] 匹配a、B、'中一员,贪婪性
  %[^a] 匹配非a的任意字符,贪婪性
  是不是感觉眼熟了啊,不错,这和正则表达式很相似,而且仍然支持过滤,即可以有%*[a-z].如:
char sztime1[16] = "", sztime2[16] = "";
sscanf("2006:03:18 - 2006:04:18", "%s - %s", sztime1, sztime2);
sscanf("2006:03:18-2006:04:18", "%[0-9,:]-%[0-9,:]", sztime1, sztime2);

下面是一些功能的演示代码

//gcc -g sscanf_demo.c -o sscanf_demo
#include <stdlib.h>
#include <stdio.h>
#include <string.h>

int main(int argc, char* argv[]){
    char buf[512] = {0};
    //1.常见用法,遇到空格就停止
    sscanf("123456 asdf", "%s", buf);
    printf("%s\n", buf);

    //2.获取指定长度字符串
    sscanf("123456 asdf", "%4s", buf);
    printf("%s\n", buf);

    //3.取得指定字符为止的字符串
    sscanf("123456 asdf", "%[^ ]", buf);
    printf("%s\n", buf);

    //4.仅取指定字符集的字符串
    sscanf("123456ABCasdf", "%[1-9a-z]", buf);
    printf("%s\n", buf);

    sscanf("123456abcdedfBCDEFxyz", "%[^A-Z]", buf);
    printf("%s\n", buf);

    //5.获取指定间隔符之间的字符
    sscanf("iios/12DDWDFF@12", "%*[^/]/%[^@]", buf);
    printf("%s\n", buf);

    sscanf("aaaAAA", "%[a-z]", buf);
    printf("%s\n", buf);

    sscanf("AAAaaaBBB", "%[^a-z]", buf);
    printf("%s\n", buf);

    sscanf("AAAaaaBBB", "%*[A-Z]%[a-z]", buf);
    printf("%s\n", buf);

    memset(buf,'0', sizeof(buf));
    sscanf("AAAaaaBBB", "%[a-z]", buf);
    printf("%s\n", buf);

    sscanf("AAAaaaBC=", "%*[A-Z]%*[a-z]%[^a-z=]", buf);
    printf("%s\n", buf);

    int k=0;
    sscanf("AAA123BBB456", "%*[^0-9]%i", &k);
    printf("%d\n", k);

    sscanf("hello, world", "%*s%s", buf);
    printf("%s\n", buf);

    char sztime1[16] = {0};
    char sztime2[16] = {0};
    sscanf("2006:03:18-2009:04:18", "%[0-9:,]-%[0-9:,]", sztime1, sztime2);
    printf("[%s], [%s]\n", sztime1, sztime2);
    sscanf("2006:03:18 - 2009:04:18", "%s - %s", sztime1, sztime2);
    printf("[%s]||[%s]\n", sztime1, sztime2);

    //6.指定宽度字符串
    unsigned char m[6] = {0};
    int n = 0;
    n = sscanf("010203040506", "%2hhx%2hhx%2hhx%2hhx%2hhx%2hhx", &m[0], &m[1], &m[2], &m[3], &m[4], &m[5]);
    printf("2hhx: %d:%02x%02x%02x%02x%02x%02x\n", n, m[0], m[1], m[2], m[3], m[4],m[5]);

    //提取日志中的指定字段
    char pattern[] = "%s -- %s %*[\"]%s %1000[^\"]\" %d %d %*[\"]%1000[^\"]\" %*[\"]%1000[^\"] %*[\"]%s %d";
    char src[] = "58.56.110.98 -- 1264348800 \"GET http://www.xxxxxxx.cc/web/validate/captcha.php?cid=134&3307 HTTP/1.0\" 404 534 \"-\" \"Trend Micro WTP Add-On 1.2.1046\" TCP_MISS:FIRST_UP_PARENT 13";
    char ip[16] = {0}, tm[16] = {0}, url[1024] = {0}, cache[32] = {0}, buf1[1000] = {0}, buf2[1000] = {0}, buf3[1000] = {0};
    int status, len, result;
    sscanf(src, pattern, ip, tm, url, buf1, &status, &len, buf2, buf3, cache, &result);
    printf("%s|%s|%s|%s, %d|%d|%d\n", ip, tm, url, cache, status, len, result);

    //提取url中的指定字段
    char protocol[8] = {0};
    int port, chn, type;
    sscanf("http://192.168.1.253:6500/12/1", "%[^://]%*c%*c%*c%[^:]%*c%d%*c%d%*c%d", protocol, ip, &port, &chn, &type);
    printf("%s|%s, %d|%d|%d\n", protocol, ip, port, chn, type);

    //提取人名姓氏
    char first_name[16] = {0}, last_name[16] = {0};
    sscanf("Tao\nYunxing", "%[^\n]%*c%s", first_name, last_name);
    printf("%s %s\n", first_name, last_name);

    char user_name[32] = {0}, host[16] = {0};
    sscanf("[email protected]", "%[^@]%*c%s", user_name, host);
    printf("%s || %s\n", user_name, host);

    return 0;
}

参考文献

[1].http://www.cnblogs.com/hnrainll/archive/2011/05/05/2037735.html

[2].http://blog.csdn.net/jackyvan/article/details/5349724

[3].http://blog.csdn.net/kenby/article/details/4051018

[4].http://blog.csdn.net/huangxy10/article/details/8117870

你可能感兴趣的:(sscanf,ats)