c++ 统计英文文本中每个单词的词频并且按照词频对每行排序

前几天写了Apriori算法之后效率很差,在网上查了很多资料,另外的最大模式挖掘算法一般有FP-Growth 和 Ecalt 算法,这两种效率比较高而FP-Growth算法构建FP-Tree的过程非常复杂,后来在网上找到了另外一种效率更优化且结构更简单的算法,那就是北大邓志鸿老师的PPV算法,看了论文以后觉得这确实是一个好的算法,因此打算加以实现。在实现的第一步就卡住了。在构造PPV-TREE/ FP-TREE 的第一步都是要统计每个事务的频度并且对项集中按照频度进行排序,虽然只是简单的两句话,可是当实现的时候就没有说的这么简单了。我也用了一天的时间来实现这第一步。。。。。确实有些事不动手不知道难。在如何实现的问题上也经过了很多的思考,最初打算用map 来实现,后来为了锻炼下就改用了Trie树的方式,如果数据大最好的方式应该是map/reduce的成名函数 wordCount。好了下面直接上代码.

[cpp]  view plain copy
  1. #ifndef TRIE_H  
  2. #define TRIE_H  
  3.   
  4. #include   
  5.   
  6. class trie{  
  7.       
  8.     public:  
  9.         trie(std::string fname,char spl):filename(fname), sp(spl),root(NULL){}  
  10.         ~trie();  
  11.         void insert(std::string);  
  12.         int search(std::string);  
  13.         void openfile();  
  14.         std::string getFname();  
  15.         char getsp();  
  16.     private:  
  17.         struct node{  
  18.             char key;  
  19.             int count;  
  20.             node();  
  21.             node *child[26];  
  22.         };  
  23.         node *root;  
  24.         std::ifstream in;  
  25.         std::string filename;  
  26.         char sp;  
  27. };  
  28. #endif //end tire define  


[cpp]  view plain copy
  1. #include   
  2. #include   
  3. #include "trie.h"  
  4.   
  5. using namespace std;  
  6.   
  7. trie::node::node()  
  8. {  
  9.     count = 0;  
  10.     for(int i = 0; i<26; ++i)  
  11.         child[i] = NULL;  
  12. }  
  13.   
  14.   
  15. trie::~trie()  
  16. {  
  17.     if(in)  
  18.         in.close();  
  19.     delete root;  
  20. }  
  21.   
  22. void trie::openfile()  
  23. {  
  24.     in.open(filename.c_str());  
  25.     string line;  
  26.     assert(in != NULL);  
  27.   
  28.     while(getline(in, line)){  
  29.         string tmp;  
  30.   
  31.         while(line.find(sp) != -1)  
  32.         {  
  33.             tmp = line.substr(0,line.find(sp));  
  34.             insert(tmp);  
  35.             line = line.substr(line.find(sp)+1, line.size()-1);  
  36.         }     
  37.     }  
  38.   
  39.     insert(line);  
  40. }  
  41.   
  42. //trie 树的插入过程,排除含有非英文字母的单词,并且统计单词出现的频度  
  43. void trie::insert(string word){  
  44.     if(root == NULL)  
  45.     {  
  46.         root =new node;  
  47.     }  
  48.       
  49.     int index;  
  50.     node *loc = root;  
  51.     int pos = 0;   
  52.     while(loc != NULL && word[pos] != '\0')  
  53.     {  
  54.         if(word[pos] >='A' && word[pos] <= 'Z')  
  55.             index = word[pos] - 'A';  
  56.         else if(word[pos]>= 'a' && word[pos]<='z')  
  57.             index = word[pos] - 'a';  
  58.         else   
  59.             return;  
  60.           
  61.         if(loc->child[index] == NULL)  
  62.         {  
  63.             loc->child[index] = new node;  
  64.         }  
  65.         ++pos;  
  66.         loc =loc->child[index];  
  67.     }  
  68.   
  69.     ++(loc->count);  
  70. }  
  71.   
  72. string trie::getFname()  
  73. {  
  74.     return filename;  
  75. }  
  76.   
  77. char trie::getsp()  
  78. {  
  79.     return sp;  
  80. }  
  81.   
  82. //查找某个单词出现的频度,如果不存在返回-1  
  83. int trie::search(string word)  
  84. {  
  85.     node *loc = root;  
  86.     assert(root != NULL);  
  87.     int index = 0;  
  88.   
  89.     while(loc && word[index] != '\0')  
  90.     {  
  91.         int pos;  
  92.         if(word[index]>='A' && word[index]<='Z')  
  93.             pos = word[index] - 'A';  
  94.         else if(word[index]>='a' && word[index]<='z')  
  95.             pos = word[index] - 'a';  
  96.         else   
  97.             return  -1;  
  98.         loc = loc->child[pos];  
  99.         ++index;  
  100.     }  
  101.   
  102.     if(loc ==NULL)  
  103.         return -1;  
  104.   
  105.     return loc->count;  
  106. }  

[cpp]  view plain copy
  1. #ifndef SORT_DATA  
  2. #define SORT_DATA  
  3. #include "trie.h"  
  4. #include   
  5. #include   
  6.   
  7. class sort_data{  
  8.     public:  
  9.         sort_data(trie *itree, int sup):tree(itree),support(sup){filename = itree->getFname(); split = itree->getsp();}  
  10.         ~sort_data();  
  11.         void openfile();  
  12.         void count_data();  
  13.     private:      
  14.         void sorts();  
  15.         int partion(int *a, int *b,int begin, int end);  
  16.         void quicksort(int *a, int *b, int begin,int end);  
  17.         std::vector spl;  
  18.         trie *tree;  
  19.         std::string filename;  
  20.         std::ifstream in;  
  21.         std::ofstream out;  
  22.         int support;  
  23.         char split;  
  24. };  
  25. #endif //end define  

[cpp]  view plain copy
  1. // 整体功能是对一个文本中单词进行词频统计,并且对该文本的每行进行排序,如果有相同单词则合并为一个  
  2. // 如果有两个单词词频相同那么按照字典序进行排序。输出文件名称为输入文件名字+你定义的support  
  3. #include "sort_data.h"  
  4. #include "trie.h"  
  5. #include   
  6. #include   
  7. #include   
  8. #include   
  9.   
  10. using namespace std;  
  11.   
  12. sort_data::~sort_data()  
  13. {  
  14.     in.close();  
  15.     out.close();  
  16. //  delete tree;  
  17. }  
  18.   
  19. void sort_data::openfile()  
  20. {  
  21.     in.open(filename.c_str());    
  22.     assert(in != NULL);  
  23.       
  24.     stringstream ss;  
  25.     ss<
  26.   
  27.     string tmp = filename + ss.str();  
  28.   
  29.     out.open(tmp.c_str());  
  30. }  
  31.   
  32. //将文本的每一行进行拆分,将每个单词放到vector spl 中  
  33. void sort_data::count_data()  
  34. {  
  35.     string line;  
  36.   
  37.     while(getline(in,line))  
  38.     {  
  39.         spl.clear();  
  40.         string tmp;  
  41.   
  42.         while(line.find(split) != -1)  
  43.         {  
  44.             tmp = line.substr(0,line.find(split));  
  45.             spl.push_back(tmp);  
  46.             line = line.substr(line.find(split)+1,line.size()-1);  
  47.         }  
  48.           
  49.         spl.push_back(line);  
  50.         sorts();  
  51.     }  
  52. }  
  53.   
  54. //对排序后的单词进行去重和按照字典序排列的过程,使用了map  
  55. void sort_data::sorts()  
  56. {  
  57.     int n = spl.size();  
  58.     int a[n];  
  59.     int tmp = 0;  
  60.   
  61.     for(int i = 0;i
  62.     {  
  63.         if(tree->search(spl[i])>=support)  
  64.         {  
  65.             a[tmp] = i;  
  66.             ++tmp;  
  67.         }  
  68.     }  
  69.       
  70.     int b[tmp];  
  71.     int c[tmp];  
  72.       
  73.     for(int k = 0; k
  74.     {  
  75.         c[k] = k;     
  76.     }  
  77.   
  78.     for(int j = 0; j
  79.     {  
  80.         int in = a[j];  
  81.         b[j] = tree->search(spl[in]);  
  82.     }  
  83.     quicksort(b,c,0,tmp-1);  
  84.   
  85.     for(int i = 0; i
  86.     {  
  87.        int j = c[i];  
  88.          j = a[j];  
  89.     }  
  90.   
  91.     mapint> qop;  
  92.     string line;  
  93.     int cp = 0;  
  94.     if(tmp == 1)  
  95.     {  
  96.         int i = a[0];  
  97.         line = spl[i]+'\n';  
  98.     }  
  99.       
  100.     else{  
  101.     while(cp
  102.         int i;  
  103.         if(cp+1 == tmp)  
  104.         {  
  105.             i = c[cp];  
  106.             i = a[i];  
  107.             line =line +spl[i]+'\n';  
  108.             break;  
  109.         }  
  110.   
  111.         if(b[cp]>b[cp+1])  
  112.         {  
  113.             i = c[cp];  
  114.             i = a[i];  
  115.             line = line+spl[i]+' ';  
  116.             ++cp;  
  117.         }  
  118.   
  119.         else  
  120.         {  
  121.             while(cp+1 != tmp && (b[cp] == b[cp+1]))  
  122.             {  
  123.                 i = c[cp];  
  124.                 i = a[i];  
  125.                 string s = spl[i];  
  126.                 ++qop[s];  
  127.                 ++cp;  
  128.             }  
  129.              i = c[cp];  
  130.              i = a[i];  
  131.              string s =spl[i];  
  132.              ++qop[s];  
  133.              ++cp;  
  134.             for(mapint>::iterator it = qop.begin(); it != qop.end(); ++it)  
  135.             {  
  136.                 line = line+it->first+' ';  
  137.             }  
  138.             qop.clear();  
  139.         }  
  140.     }  
  141.     line = line + '\n';  
  142.     }  
  143.       
  144.     out<
  145.     out<
  146. }  
  147.   
  148. //对每一行出现次数大于support的单词进行排序过程,a为词频数组,b为伴随数组  
  149. int sort_data::partion(int *a,int *b,int begin, int end)  
  150. {  
  151.     int index = a[end];  
  152.     int start = begin;  
  153.     for(int i = begin; i
  154.     {  
  155.         if(a[i]>= index)  
  156.         {  
  157.             swap(a[start],a[i]);  
  158.             swap(b[start],b[i]);  
  159.             ++start;  
  160.         }  
  161.     }  
  162.     swap(a[start],a[end]);  
  163.     swap(b[start],b[end]);  
  164.     return start;  
  165. }  
  166.   
  167. void sort_data::quicksort(int *a,int *b,int begin,int end)  
  168. {  
  169.     if(begin
  170.     {  
  171.         int i = partion(a,b,begin,end);  
  172.   
  173.         quicksort(a,b,begin,i-1);  
  174.         quicksort(a,b,i+1,end);  
  175.     }  
  176. }  

[cpp]  view plain copy
  1. #include "trie.h"  
  2. #include   
  3. #include "sort_data.h"  
  4.   
  5. using namespace std;  
  6.   
  7. int main()  
  8. {  
  9.     trie tr("in.txt"' ');  
  10.   
  11.     tr.openfile();  
  12.     cout<"balancing")<
  13.   
  14.     sort_data sort(&tr, 5);  
  15.   
  16.     sort.openfile();  
  17.     sort.count_data();  
  18.     return 0;  
  19. }  

你可能感兴趣的:(编程)