【C/C++】点滴基础知识(EOF,sscanf)

 EOF

 学习C语言的时候,遇到的一个问题就是EOF。

 它是end of file的缩写,表示"文字流"(stream)的结尾。这里的"文字流",可以是文件(file),也可以是标准输入(stdin)。

【C/C++】点滴基础知识(EOF,sscanf)_第1张图片

比如,下面这段代码就表示,如果不是文件结尾,就把文件的内容复制到屏幕上。

int c;
while ((c = fgetc(fp)) != EOF) 
{
          putchar (c);
}

很自然地,我就以为,每个文件的结尾处,有一个叫做EOF的特殊字符,读取到这个字符,操作系统就认为文件结束了。

但是,后来发现,EOF不是特殊字符,而是一个定义在头文件stdio.h的常量,一般等于-1

#define  EOF  (-1)

于是,我就困惑了。

如果EOF是一个特殊字符,那么假定每个文本文件的结尾都有一个EOF(也就是-1),还是可以做到的,因为文本对应的ASCII码都是正值,不可能有负值。但是,二进制文件怎么办呢?怎么处理文件内部包含的-1呢?

这个问题让我想了很久,后来查了资料才知道,在Linux系统之中,EOF根本不是一个字符,而是当系统读取到文件结尾,所返回的一个信号值(也就是-1)。至于系统怎么知道文件的结尾,资料上说是通过比较文件的长度。

所以,处理文件可以写成下面这样:

int c;
while ((c = fgetc(fp)) != EOF) 
{
        do something
}

这样写有一个问题。fgetc()不仅是遇到文件结尾时返回EOF,而且当发生错误时,也会返回EOF。因此,C语言又提供了feof()函数,用来保证确实是到了文件结尾。上面的代码feof()版本的写法就是

int c;
while (!feof(fp)) 
{
    c = fgetc(fp);
    do something;
}

但是,这样写也有问题。fgetc()读取文件的最后一个字符以后,C语言的feof()函数依然返回0,表明没有到达文件结尾;只有当fgetc()向后再读取一个字符(即越过最后一个字符),feof()才会返回一个非零值,表示到达文件结尾。

所以,按照上面这样写法,如果一个文件含有n个字符,那么while循环的内部操作会运行n+1次。所以,最保险的写法是像下面这样:

int c = fgetc(fp);
while (c != EOF) 
{
    do something;
    c = fgetc(fp);
}
if (feof(fp)) 
{
      printf("\n End of file reached.");
} else 
{
      printf("\n Something went wrong.");
}

除了表示文件结尾,EOF还可以表示标准输入的结尾。

int c;
while ((c = getchar()) != EOF)
{
      putchar(c);
}

但是,标准输入与文件不一样,无法事先知道输入的长度,必须手动输入一个字符,表示到达EOF。

Linux中,在新的一行的开头,按下Ctrl-D,就代表EOF(如果在一行的中间按下Ctrl-D,则表示输出"标准输入"的缓存区,所以这时必须按两次Ctrl-D);Windows中,Ctrl-Z表示EOF。(顺便提一句,Linux中按下Ctrl-Z,表示将该进程中断,在后台挂起,用fg命令可以重新切回到前台;按下Ctrl-C表示终止该进程。)

那么,如果真的想输入Ctrl-D怎么办?这时必须先按下Ctrl-V,然后就可以输入Ctrl-D,系统就不会认为这是EOF信号。Ctrl-V表示按"字面含义"解读下一个输入,要是想按"字面含义"输入Ctrl-V,连续输入两次就行了。

sscanf(格式化输入)


    头文件 #include <cstring>
    定义函数 int sscanf (const char *str,const char * format,........);
    函数说明 
    sscanf()会将参数str的字符串根据参数format字符串来转换并格式化数据。格式转换形式请参考scanf()。转换后的结果存于对应的参数内。
    返回值 成功则返回参数数目,失败则返回-1,错误原因存于errno中。 返回0表示失败    否则,表示正确格式化数据的个数    例如:sscanf(str,"%d%d%s", &i,&i2, &s);    如果三个变成都读入成功会返回3。    如果只读入了第一个整数到i则会返回1。证明无法从str读入第二个整数。  
    范例 

#include <cstring>
#include <cstdio>
int main()
{
    int i;
    unsigned int j;
    char input[ ]="10 0x1b aaaaaaaa bbbbbbbb";
    char s[5];
    sscanf(input,"%d %x %5[a-z] %*s %f",&i,&j,s,s);
    printf("%d %d %s ",i,j,s);
    return 0;
}

  执行 10 27 aaaaa

  sscanf(stringBuf.c_str(), "%20[^#]#%20[^ ]",......)语句中""中的内容含义为:

 “%[  ]”符号用于声明字符串,它比“%s”更具体,可以用于设置读取的样式。例如“%[a-z]”只读取小写字母,读到其它字符就结束。注意,方括号中如果有“^”,代表一直读到某字符为止。例如:

“%[^#]”:读取字符串,一直到出现“#”号为止。

   %20[^#]”:读取20个字节的字符串,出现“#”号时结束。

   所以,“%20[^#]#%20[^ ]”的意义就是,

   读取两个20字节大小的字符串,第一个字符串可以用#结束,第二个字符串可以用回车符结束。

   它们的具体阐述,参见MSDN:“scanf Type Field Characters”章节,和“scanf Width Specification”章节。

***********************************************************************************************************************

  大家都知道sscanf是一个很好用的函数,利用它可以从字符串中取出整数、浮点数和字符串等等。它的使用方法简单,特别   对于整数和浮点数来说。但新手可能并不知道处理字符串时的一些高级用法,这里做个简要说明吧。

  1. 常见用法。

      以下是引用片段:

char str[512]={0};
sscanf("123456","%s",str);
printf("str=%s",str);

  2. 取指定长度的字符串。如在下例中,取最大长度为4字节的字符串。

      以下是引用片段:

sscanf("123456","%4s",str);
printf("str=%s",str);

  3. 取到指定字符为止的字符串。如在下例中,取遇到空格为止字符串。

      以下是引用片段:

 sscanf("123456abcdedf","%[^]",str);
printf("str=%s",str);

  4. 取仅包含指定字符集的字符串。如在下例中,取仅包含1到9和小写字母的字符串。

      以下是引用片段:
  sscanf("123456abcdedfBCDEF","%[1-9a-z]",str);
  printf("str=%s",str);

  5. 取到指定字符集为止的字符串。如在下例中,取遇到大写字母为止的字符串。

      以下是引用片段:
  sscanf("123456abcdedfBCDEF","%[^A-Z]",str);
  printf("str=%s",str);

***********************************************************************************************************************

 名称: sscanf() - 从一个字符串中读进与指定格式相符的数据. 
 语法: int sscanf( string str, string fmt, mixed var1, mixed var2 ... );

 整数 sscanf( 字符串 str, 字符串 fmt, 混合 var1, 混合 var2 ... );

 用法: 以指定的格式 fmt 去解读字符串 str. fmt 中除了 %d 和 %s 以外, 亦可包含其他的字符串作为格式. 每一个 %d 或 %s  都对应一个参数, 按顺序为 var1, var2 ... %d 读入一个整数到参数中, 而 %s 读入一个字符串. * 亦可用于格式中, (即 %*d 和  %*s) 加了星号 (*) 表示跳过此数据不读入. (也就是不把此数据读入参数中) LPC 的 sscanf() 与 C 的 sscanf() 虽然相似, 但仍  有不同之处. LPC 的 sscanf() 不需要 (也不可) 提供变量的内存位址给 sscanf(), 只需要给予变量的名字. 另一个不同点是,        LPC 的 sscanf() 对于: sscanf( str, "%s %s", str1, str2 ); 的语法, 将会把 str 中的第一个英文单字 (即第一个空白字符以前的  内容) 读入 str1, 后面其余的内容读入 str2.

 sscanf() 会返回符合格式的 %d 和 %s 总数.

 以前曾经编写过这样的小程序:一个文本文件,每行是一条记录,每条记录中包含多个字段,每个字段之间以某种定界符   分开,举例如下:

 Notebook,IBM,ThinkPad X32,6,12000

(各字段以逗号分隔,内容依次是:物品名称,生产厂家,型号,数量,价格)

如果要对这样的一行记录进行处理,提取出各个字段,怎么做比较好呢?

我以前的做法是在一个循环中用strtok函数每次取一个字段,然后将内容保存到一个字符串数组中。这样做虽然可行,但我总感觉写出的代码有些啰嗦。

最近看到一段代码,用C的标准库函数sscanf,处理这样的数据,只需一行就可以了。我把代码整理了一下,去掉了无关的部分,核心部分如下:

float price;
int quantity;
char category[21], name[21];
char vendor[21], sku[21];
char buf[201];
fp = fopen(filename, "r");
fgets(buf, 200, fp);
sscanf(buf,"%20[^#]#%20[^#]#%f#%i#%20[^#]#%20[^/n]",name, sku, &price, &quantity, category, vendor);

下面简单做些解说:

%20[^#]# 最多读入20个字符,直到遇见定界符#,但不包含定界符
%f# 读入一个浮点数,直到遇见定界符#
%i# 读入一个整数,直到遇见定界符#
%20[^/n] 最多读入20个字符,忽略行尾的回车符

是不是很简洁明了呢?

#include <stdio.h>

int main()
{
	char log[]="<14>2002-11-11 12:12:12 11.22.33.44 3 3 aaaa aaaaaa";
	//char log[]="<1>2002-11-11 12:12:12 11.22.33.44 3 aaaa aaaaaa";
	char test[]="<1111> 22";
	char log2[200];
	char str1[20];
	char str2[20];
	char str3[20];
	char str4[20];
	char str5[20];
	char str6[20];
	char str7[20];
	int a1,a2,a3,a4,a5,a6;
	sscanf(log,"<%d>%s %s %s %d %d %s",&a1,str2,str3,str4,&a5,&a6,str7);
	printf("%d\n",a1);
	printf("%s\n",str2);
	printf("%s\n",str3);
	printf("%s\n",str4);
	printf("%d\n",a5);
	printf("%d\n",a6);
	printf("%s\n",str7);
	sscanf(test,"<%d> %d",&a5,&a6);
	printf("%d\n",a5);
	printf("%d\n",a6);
	sscanf(log,"<%[^>]>%[^ ] %[^ ] %[^ ] %[^ ] %[^ ] %[^$]",str1,str2,str3,str4,str5,str6,str7);
	printf("%s\n",str1);
	printf("%s\n",str2);
	printf("%s\n",str3);
	printf("%s\n",str4);
	printf("%s\n",str5);
	printf("%s\n",str6);
	printf("%s\n",str7);
	return 0;
}

const char *str = "drw-rw-rw- 1 user group 0 Oct 28 2003 -====流行音乐专用FTP=====-";
上面是源串,我要分别得到 drw-rw-rw-,group,-====流行音乐专用FTP=====- 字段
注意:因为这几个字段的值会变化,所以我要用格式化输入,分别存入下面的a b c中,高手帮忙!
下面这个是我没成功的尝试

http://community.csdn.net/Expert/topic/4192/4192979.xml?temp=.2922632
可以通过字符数组输出一个字符串!~

今天看到一个奇怪的scanf。其实这只是用了正则表达式。sscanf(user, "%127[^:]:%127[^ ]", user_name, password);

"%127[^:]:%127[^ ]",是正则表达式用scanf或者printf,可以在%后面跟%d,%s等东西,也可以跟一个正则表达式。

这里,127表示最多可以接受127个字符,[^:]是正则表达式,表示非":",到":"结束后面,%127[^ ],同样,其中[^ ]是正则表达式,表示非" ",到" "结束。所以,如果user是"wpc:123456"的字符串,那么经过上面的sscanf后,user_name是wpc,而password是123456



你可能感兴趣的:(cc++,eof,sscanf)