文本检索算法

纯C语言实现。

这个函数的功能是检索文件中的单词,并定位到那一行,并输出出现数目。

算法感觉难度不是特别大,但我这个算法效率并不高,准备以后写个效率更高的。

函数的第二个参数可以删除,在这里并没有什么用。

void word_count(FILE *file,int *line_no,char *word)   //统计单词所在行及其所在行数的数目
{
 int word_num=0;   //记录单词的数目
 int line_num=0;   //统计行号
 int i=0,j=0;   //用于循环控制
 int k=0;
 int word_sum=0;   //记录单词总数
 char line[LINESIZE]; //存储一行的单词
 char temp[WORDSIZE]; //存储一行中要比较的单词
 
 fseek( file , 0 , SEEK_SET );  //因为可能多次调用该函数,每次都将指针定位到文件头部
 while(fgets(line,LINESIZE,file))
 {
  for(i=0;i<=strlen(line);i++)
  {
   if(line[i]==' '||line[i]==','||line[i]==' .'||line[i]=='\n'||line[i]=='\0') 
   {
    for(;j     {
     if((line[j]>='a'&&line[j]<='z')||(line[j]>='A'&&line[j]<='Z'))  //文本中出现的特殊字符的过滤
     {
      if(line[j]>='A'&&line[j]<='Z')   //忽略大小写,大写和小写都视作相同单词
       temp[k++]=line[j]+32;
      else
       temp[k++]=line[j];
     }
    }
    temp[k]='\0';
    j=i+1;
    k=0;
    if(strcmp(word,temp)==0)   //比较单词是否相同
     word_num++;
   }
  }
  j=0;
  line_num++;
  
  word_sum+=word_num;
  if(word_num!=0)
   printf("%s出现行号%d,出现次数为%d\n%s",word,line_num,word_num,line);
  word_num=0;
 }
 printf("%s总数为%d\n",word,word_sum);
}

你可能感兴趣的:(编程)