汉字统计

HDU~2030

汉字统计

Problem Description
统计给定文本文件中汉字的个数。

 

Input
输入文件首先包含一个整数n,表示测试实例的个数,然后是n段文本。

 

Output
对于每一段文本,输出其中的汉字的个数,每个测试实例的输出占一行。

[Hint:]从汉字机内码的特点考虑~
Sample Input
   
   
   
   
2 WaHaHa! WaHaHa! 今年过节不说话要说只说普通话WaHaHa! WaHaHa! 马上就要期末考试了Are you ready?

 

Sample Output
   
   
   
   
14 9

代码:

#include<stdio.h>
#include<string.h>
#define MAX 1
char str[MAX];
int main()
{
    int n,i,j,count,len;
    scanf("%d",&n);
    getchar();
    for(i=0;i<n;i++){
        gets(str);
        len=strlen(str);
        count=0;
        for(j=0;j<len;j++)
            if(str[j]<0) {count++;j++;}//一个汉字占两个字节,所以跳过下一个字节
        printf("%d\n",count);
    }
    return 0;
}    

注:此题考查汉字的机内码。

参考百度资料:

汉字在计算机内部其内码是唯一的。因为汉字处理 系统 要保证中西文的兼容,当系统中同时存在 ASCII码 和汉字 国标码 时,将会产生二义性。例如:有两个字节的内容为30H和21H,它既可表示汉字“啊”的 国标码 ,又可表示西文“0”和“!”的ASCII码。为此,汉字机内码应对 国标码 加以适当处理和变换。
国标码 的机内码为二 字节 长的代码,它是在相应 国标码 的每个字节最高位上加“1”,即
汉字机内码= 汉字国标码 +8080H
例如,上述“啊”字的 国标码 是3021H,其汉字机内码则是B0A1H。
汉字机内码的基础是 汉字国标码
机内码:为了避免ASCII码和 国标码 同时使用时产生二义性问题,大部分汉字 系统 都采用将国标码每个 字节 高位置1作为汉字机内码。这样既解决了汉字机内码与西文机内码之间的二义性,又使汉字机内码与 国标码 具有极简单的对应关系。
汉字机内码、 国标码 区位码 三者之间的关系为:区位码(十进制)的两个字节分别转换为十六进制后加2020H得到对应的国标码;机内码是汉字交换码(国标码)两个字节的最高位分别加1,即汉字交换码(国标码)的两个字节分别加80H得到对应的机内码;区位码(十进制)的两个字节分别转换为十六进制后加A0H得到对应的机内码。
举例:机内码位BEDF,求 区位码
有两种解法:1.BEDFH-A0A0H=1E3FH=3063D;
2.BEDFH-8080H=3E5FH( 国标码 ),3E5FH-2020H=1E3FH=3063D.

因此,在C中汉字每个字节的最高位为1,由于字符是char形(有符号的),因以汉字的机内码为负数。
而且,此题发现一个很奇怪的现象,在全局数据区溢出没有关系,不知道是怎么回事……

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

你可能感兴趣的:(汉字统计)