1109 综合实验:文件操作与字符处理 【SCAU 模拟哈希 清一流的算法思路】

Description
在当前目录中存在文件名为"case1.in"(其中case后为数字1,不是字母l,写错提交后会判错)的文本文件,
其内容为一篇英文文章(以EOF作为结束标志)。现要求读取该文本文件内容,统计文章中每个单词出现的次数,
并输出出现次数最多的前5个单词及其出现次数(按出现次数由多到少的顺序输出,次数相同时按字典顺序输出,
不足5个单词时,按序输出全部单词)。程序中注意如下细节:
(1) 空格、标点符号与回车符起到分隔单词的作用。
(2) 文章一行的末尾可能有连字符,出现连字符时,该行最末的字符串与下行最先出现的字符串构一个单词;
(3) 名词缩写算一个单词;
(4) 数字不算单词;
(5) 单词不区分大小写;
(6) 输出时单词全使用小写;

#include “stdio.h”
#include “math.h”
#include “string.h”
#include “stdlib.h”


main()
{
_______________________
}

输入格式
文件case1.in中一篇英文文章,包含多段文字,单词数不超过10000,每个单词不超过20个字符

输出格式
按题意输出答案

输入样例
(如case1.in内容如下)
I am a student. My school is SCAU. It is a beau-
tiful university. I like it.

输出样例
a 2
i 2
is 2
it 2
am 1

拿到这个题,其实要解决的问题只有三个。
1.怎么分割单词
2.怎么解决连接符的问题
3.怎么计数

针对以上三个问题,我给出我的方案:
1.对于分割单词,不知大家还记不记得OJ上的一道统计一句话中的单词个数那个题,用一个flag变量记录有没有遇到过字母,遇到了置为1,否则为0,什么时候要分割一个单词呢?就是当前遍历到的字符不是字母了,而这时候flag又是1,说明前面的字母串被当前的字符(可能是空格逗号之类的)给分割了,这时候前面那一串字母就算一个单词

2.怎么解决连接符的问题呢?因为我们是顺着上面分割单词的思路来的,当连接符在行的末尾时,再遇到一个回车是不能当做分割单词的记号的。所以我们遇到连接符号的时候,再用一个变量flag1记录一下,如果当前flag1为真代表前面遇到了连接符,这时候就要分类讨论了:1)当前字符不是回车,那么这个连接符就是连了个寂寞,直接把前面那一串字母分割掉就行了如t-t-t-t这种,算4个t。2)当前字符是回车,那么就不要分割,而且还要把flag1置为0,代表我这个字符之后连接符的限制就没有了。这里就解决了连接符的问题。

3.怎么计数嘞?这是我这个算法的核心了,我开一个二维数组words_num[][],用来存字符串,比如words_num[i]就代表是第i个不同于其他的字符串。我每次分割完字符,就去words_num里面找之前有没有出现过这个字符串,出现的话,我用val[i]记录这个出现位置这个字符串出现过的次数。没有在这个words_num里面找到呢?那就说明这个字符串是全新的,没出现过的,那就在数组尾部添加这个字符串即可。

PS:最后统计五个最多的时候,没必要排序,你只要五个,那就求五次最大值即可,每一次找完就把最大值置为0,然后找次大的就行了

最后不懂的见代码注释

#include "stdio.h"
#include "math.h"
#include "string.h"
#include "stdlib.h"

char words_num[10000+5][20+5];  //words_num二维数组,用来存放各个单词words_num[i]表示第i个字符串
int val[10000+5];       //val用来表示前面的第i个字符串出现了多少次
int len = -1;   //len用来表示不同单词的个数-1,初始化为-1。

void map_str(char str[])     //哈希_字符串函数(自己瞎命名的),用来搜索str字符串在words_num里的位置,找不到就在其尾部插入
{
    int i;
    for( i=0; i<=len; i++)
    {

        if(strcmp(str,words_num[i])==0)     //就是上面说的
        {
            val[i]++;           //找到的haul对应位置计数器++
            return;     //找到了就溜了
        }
    }
    len++;
    strcpy(words_num[len],str);     //找不到就插入尾部
    val[len]++;
}

void init()         //初始化函数
{
    FILE *fp;
    char ch;
    char word[80];
    if((fp = fopen("case1.in","r"))==NULL)
        return ;
    int pos = 0;
    int flag = 0;       //flag用来表示有没有遇到字母
    int flag1 = 0;      //flag1用来表示有没有遇到连接符号
    while((ch=fgetc(fp))!=EOF)
    {

        if(flag1&&ch!='\n'&&flag)       //如果前面已经遇到了连接符号而且当前字符不是回车(也就是说不是结尾的话),同时前面已经可以组成单词了
        {                               
            word[pos] = '\0';               //那么就把这个字符串丢进哈希_字符串函数里面匹配对应的位置,去找这个单词有没有出现过
            map_str(word);
            flag= 0 ;               //然后更新一下flag,下同
            pos = 0;
            flag1 = 0;

        }
        if ('A'<=ch && ch<='Z')     //注意这个if和前面那个if不能写成if-else,这两者存在交集,自己想想
        {
            ch = ch + 32;           //转化为小写,存起来
            word[pos++] = ch;
            flag = 1;
            flag1=0;
        }
        else if(ch>='a'&&ch<='z')       //同上
        {
            word[pos++] = ch;
            flag = 1;
            flag1=0;
        }
        else if(ch=='-')        //连接符号出现时,标记
        {
            if(flag)
                flag1 =1;
            continue;
        }
        else if((flag&&!flag1))     //如果当前不是字母也不在连接符的限制范围之内,那么就说明前面的已经可以当做一个单词了(这样写的好处就是当前字符为回车的时候,只有前面没有连接符限制的情况才能分割单词)
        {
            word[pos] = '\0';           //是个单词就丢进去map一下
            map_str(word);
            flag= 0 ;
            pos = 0;
        }
        if(ch=='\n'&&flag1)     //当前是回车的话更新一下flag1,说明到此连接符的限制结束了
        {
            flag1 = 0;
        }
    }
    fclose(fp);
}
int main()
{
    memset(val,0,sizeof(val));
    memset(words_num,0,sizeof(words_num));
    init();
    int  n = 5;
    int i;
    while(n--)      //因为只要前五个最大的,那就好办了,压根不需要排序,取五次最大值最快了。
    {
        int obj=0;
        int maxone = -1;
        for( i=0; i<=len; i++)
        {
            if(val[i]>maxone||(val[i]==maxone&&strcmp(words_num[i],words_num[obj])<0))//按出现次数排序,相同则按字典序升序
            {
                obj = i;
                maxone = val[i];
            }
        }
        printf("%s ",words_num[obj]);
        printf("%d\n",maxone);
        val[obj] = 0;       //用完就把最大的置为0,找次大的。
    }
    return 0;
}

你可能感兴趣的:(SCAU,题解,练习题)