Xiaoting_Cheng

C++实现基于概率论的分类方法--朴素贝叶斯分类

【机器学习实战】：C++实现基于概率论的分类方法--朴素贝叶斯分类（Naive Bayes Classifier）

转载自：机器学习实战

朴素贝叶斯分类算法是机器学习中十分经典而且应用十分广泛的算法，下面将逐步学习和说明。

一、条件概率：

条件概率是概率论中的一个重要实用的概念。所考虑的是事件A已经发生的条件下事件B发生到概率。

（一）条件概率定义设A，B是两个事件，且P(A)>0，称： P(B|A) = P(AB) / P(A) ; 为在事件A发生的条件下事件B发生的条件概率。

（二）乘法定理设P(A) > 0 ，则有 P(AB) = P(B|A) * P(A) ; 此式成为乘法公式；

（三）全概率公式和贝叶斯公式

样本空间划分定义：假设S为试验E的样本空间，B1,B2,B3..Bn为E的一组事件。若：

(i)

(ii)

则称B1,B2,B3...Bn为样本空间S的一个划分。若B1,B2,...,Bn是样本空间的一个划分，那么，对每次试验，事件B1,B2,B3...Bn中必有一个且仅有一个发生。

定理设试验E的样本空间为S，A为E的事件，B1,B2,...Bn为S的一个划分，且P(Bi)>0（i=1,2,...n），则：

P(A) = P(A|B1)*P(B1) + P(A|B2)*P(B2)+...+P(A|Bn)*P(Bn). 此式成为全概率公式。

在很多实际问题中P(A)不易直接求得，但是却容易找到S的一个划分B1,B2,...Bn，且P(Bi)和P(A|Bi)或为已知，或容易求得，那么就可以全概率公式求得P(A)。

定理设试验E的样本空间为S，A为E的事件，B1,B2,...,Bn为S的一个划分，且P(A)>0，P(Bi)>0 (i=1,2,...,n)，则

此式成为贝叶斯公式。

二、基于贝叶斯决策分类的分类方法：

在数据较少的情况下仍然有效，可以处理多类别问题；

缺点：对于输入数据的准备方式较为敏感；

使用数据类型：标称性数据；

朴素贝叶斯是贝叶斯决策理论的一部分，所以讲述朴素贝叶斯分类之前有必要了解贝叶斯决策理论。我们之所以称之为“朴素”，是因为整个形式化过程只做最原始，最简单的假设。

假设我们有一个数据集，它由两类数据组成，数据分布：

图 1：两个参数已知的概率分布，参数决定分布形状。

我们现在用p1(x,y)表示数据点(x,y)属于类别1（图中用圆点表示的类别）的概率，用p2(x,y)表示数据点(x,y)属于类别2（图中用三角形表示的类别）的概率，那么对于一个新数据点(x,y)，可以用下面的规则来判断它的类别：

· 如果p1(x,y) > p2(x,y) ，那么类别为1。

· 如果p1(x,y) < p2(x,y) ，那么类别为2。

也就是说，我们也选择搞概率对应的类别。这就是贝叶斯决策理论的核心思想，即选择具有最高概率的决策。

三、朴素贝叶斯的一般过程：

（1）收集数据：可以使用任何方法。

（2）准备数据：需要数值型或者布尔型数据。

（3）分析数据：有大量特征时，绘制特征作用不大，此时使用直方图效果更好。

（4）训练算法：计算不同的独立特征的条件概率。

（5）测试算法：计算错误率。

（6）使用算法：一个常见的朴素贝叶斯应用是文档分类。可以在任意的分类场景中使用朴素贝叶斯分类器，不一定非要是文本。

四、文本分类：

要从文本中获取特征，需要先拆分文本。具体如何做？这里的特征是来自文本的词条（token），一个词条是字符的任意组合。可以把词条想象为单词，也可以使用非单词词条，如URL、IP地址或者任意其他字符串。

以在线社区的留言板为例。为了不影响社区的发展，我们要屏蔽侮辱性的言论，所以要构建一个快速过滤器，如果某条留言使用了负面或者侮辱性的语言，那么就该留言标识为内容不当。过滤这类内容是一个很常见的需求。对此问题建立两个类别，侮辱性和非侮辱性，使用1和0分别表示。

下面将用 C++ 来设计数据结构和算法。

4.1 准备数据：从文本中构建词向量

把文本看成单词向量或者词条向量，也就是说将句子转换为向量。考虑出现在所有文档中的所有单词，再决定将哪些词纳入词汇表或者说所要的词汇集合，然后必须要将每一篇文档转换为在词汇表上的向量，为什么要这么做，不着急，先往下看。

4-1：词表到向量的转换函数：

/*
 * code list 4-1 : transfer func from docs list to vocabulary list
 * */

#include
#include
#include
#include
#include
#include
#include
#include
#include
using namespace std;

string posting_list[6][10]={
  {"my","dog","has","flea","problems","help","please","null"},
  {"maybe","not","take","him","to","dog","park","stupid","null"},
  {"my","dalmation","is","so","cute","I","love","him","null"},
  {"stop","posting","stupid","worthless","garbage","null"},
  {"mr","licks","ate","my","steak","how","to","stop","him","null"},
  {"quit","buying","worthless","dog","food","stupid","null"}
};
int class_vec[6] = {0,1,0,1,0,1};   //1 is abusive ,0 not

class NaiveBayes
{
  private:
    vector< vector<string> > list_of_posts;  //词条向量 
    vector<int> list_classes;
    map<string,int>  my_vocab_list;  //单词列表 
    int *return_vec;

  public:
    NaiveBayes()
    { 
            //posting_list --> list_of_posts 
      vector<string> vec;
      for(int i=0;i<6;i++)
      {
        vec.clear();
        for(int j=0;posting_list[i][j]!="null";j++)
        {
          vec.push_back( posting_list[i][j] );
        }
        list_of_posts.push_back( vec );
      }
            
            //class_vec --> list_classes
      for(int i=0;i<sizeof(class_vec)/sizeof(class_vec[0]);i++)
      {
        list_classes.push_back( class_vec[i] );
      }
    }

    void create_vocab_list()
    {
      vector< vector<string> > :: iterator it = list_of_posts.begin();
      int index = 1;
      while( it!=list_of_posts.end() )
      {
        vector<string> vec = *it;

        vector<string> :: iterator tmp_it = vec.begin();

        while( tmp_it!=vec.end() )
        {
          if( my_vocab_list[*tmp_it] == 0 )
          {
            my_vocab_list[*tmp_it] = index++; //index is the location of the vocabulary
          }
          tmp_it++;
        }
        it++;
      }
      
       map<string,int>::const_iterator itt = my_vocab_list.begin();
       while( itt!=my_vocab_list.end() )
       {
       cout<first<<" "<second<<"   ";
       itt++;
       }
       
    }//create_vocab_list

    //set some one doc to vec with 0 and 1.
    void set_of_words_to_vec(int idx)
    {
      cout<<"set of words to vec begin the document id is : "<      int len = my_vocab_list.size()+1;
      return_vec = new int[ len ](); //pay attention to the difference between "new int[len]". initalize all the element to zero.
      fill(return_vec,return_vec+len,0);
      for(int i=0;i        cout<" ";
      for( int i=0;posting_list[idx][i]!="null";i++ )
      {
        int pos = my_vocab_list[ posting_list[idx][i] ];
        if( pos != 0 )
        {
          return_vec[pos] = 1;
        }
      }
      cout<    }//set_of_words_to_vec
  
    void print()
    {
      cout<<"print the return_vec begin :"<      int len = my_vocab_list.size()+1;
      cout<<"len = "<      for(int i=0;i      {
        cout<" ";
      }
      cout<      delete [] return_vec;
    }//print()
};

int main()
{
  NaiveBayes nb;
  nb.create_vocab_list();
  nb.set_of_words_to_vec(5);
  nb.print();
  system("pause") ;
  return 0;
}

分析：

·NaiveBayes() ：构造函数做了两方面的工作，其一，初始化了词条切分后的文档集合list_of_posts，即将posting_list转换为list_of_posts，其中list_of_posts中的每一个分量就是一个文档，这些文档来自斑点犬爱好者留言板；其二，用class_vec去初始化类的私有成员变量list_classes，它是类别标签的集合，分为两类，侮辱性和非侮辱性。这些文本的类别由人工标注，这些标注信息用于训练程序以便自动检测侮辱性留言。

·create_vocab_list() ：创建一个包含在所有文档中出现的不重复词的列表。定义私有成员变量map my_vocab_list; key是代表单词，value则代表单词在my_vocab_list中的位置（下标）。

·set_of_words_to_vec(int idx) ：该函数的输入参数为某个文档的下标值idx，得到了return_vec，即下标为idx的文档向量，向量的每个元素为1或者0，分别表示词汇表中的单词在输入文档中是否出现。首先根据词表长度获得文档向量长度，并用STL中的fill将其元素都设为0；遍历下标为idx的文档中所有单词，得到在词汇表my_vocab_list中的位置pos，然后根据pos将return_vec中对应的值设置为1。该函数使用词汇表或者想要检查的所有单词作为输入，一旦给定一篇文档（斑点犬网站上的一条留言），该文档就会被转换为词向量。

·print() ：打印得到的文档向量return_vec。

结果：

4.2：训练算法：从词向量计算概率：

前面介绍了如何将一组单词转换为一组数字，接下来看如何使用这些数字来计算概率。现在已经知道一个词是否出现在一篇文档中，也知道该文档所属的类别。那么我们将对某个文档转换成为文档向量W后进行分类，实际上就是计算在W的条件下，类别为Ci的概率。

p(Ci | W) = p( W | Ci ) / p( W ); W ：就是需要分类的词向量；

我们将使用上述公式，对于每个类计算该值，然后比较这两个概率值的大小。如何计算？

p(Ci)：首先可以通过类别i（侮辱性留言或非侮辱性留言）中文档数除以总的文档数来计算概率p(Ci)。

该函数的伪代码如下：

计算每个类别中的文档数目：
对每篇训练文档：
  对每个类别：
    如果词条出现文档中-->增加该词条的计数值
    增加所有词条的计数值
  对每个类别：
    对每个词条：
      将该词条的数目除以总词条数目得到条件概率
  返回每个类别的条件概率

4-2：朴素贝叶斯分类器训练函数：

/*
 * code list 4-1 : transfer func from docs list to vocabulary list
 * add code list 4-2 : training func on Naive Bayes Classifier
 * */


#include
#include
#include
#include
#include
#include
#include
#include
#include
using namespace std;


string posting_list[6][10]={
  {"my","dog","has","flea","problems","help","please","null"},
  {"maybe","not","take","him","to","dog","park","stupid","null"},
  {"my","dalmation","is","so","cute","I","love","him","null"},
  {"stop","posting","stupid","worthless","garbage","null"},
  {"mr","licks","ate","my","steak","how","to","stop","him","null"},
  {"quit","buying","worthless","dog","food","stupid","null"}
};
int class_vec[6] = {0,1,0,1,0,1};   //1 is abusive ,0 not


class NaiveBayes
{
  private:
    vector< vector<string> > list_of_posts;
    vector<int> list_classes;
    map<string,int>  my_vocab_list;
    int *return_vec;
    vector< vector<int> > train_mat;


  public:
    NaiveBayes()
    {
      vector<string> vec;
      for(int i=0;i<6;i++)
      {
        vec.clear();
        for(int j=0;posting_list[i][j]!="null";j++)
        {
          vec.push_back( posting_list[i][j] );
        }
        list_of_posts.push_back( vec );
      }

      for(int i=0;i<sizeof(class_vec)/sizeof(class_vec[0]);i++)
      {
        list_classes.push_back( class_vec[i] );
      }

    }

    void create_vocab_list()
    {
      vector< vector<string> > :: iterator it = list_of_posts.begin();
      int index = 1;
      while( it!=list_of_posts.end() )
      {
        //vector vec( *it.begin(),*it.end() );
        vector<string> vec = *it;

        vector<string> :: iterator tmp_it = vec.begin();

        while( tmp_it!=vec.end() )
        {
          //cout<<*tmp_it<<" ";
          if( my_vocab_list[*tmp_it] == 0 )
          {
            my_vocab_list[*tmp_it] = index++; //index is the location of the vovabulary
          }
          tmp_it++;
        }
        it++;
      }

    }//create_vocab_list

    //set some one word to vec with 0 and 1.
    void set_of_words_to_vec(int idx)
    {
      cout<<"set of words to vec begin the document id is : "<      int len = my_vocab_list.size()+1;
      return_vec = new int[ len ](); //pay attention to the difference between "new int[len]". initalize all the element to zero.
      fill(return_vec,return_vec+len,0);
      for(int i=0;i        cout<" ";
      for( int i=0;posting_list[idx][i]!="null";i++ )
      {
        //cout<
        int pos = my_vocab_list[ posting_list[idx][i] ];
        if( pos != 0 )
        {
          return_vec[pos] = 1;
        }
      }
      cout<    }//set_of_words_to_vec

    void get_train_matrix()
    {
      cout<<"get train matrix begin : "<      train_mat.clear();
      for(int i=0;i<6;i++)
      {
        set_of_words_to_vec(i);
        vector<int> vec( return_vec , return_vec + my_vocab_list.size()+1 );
        train_mat.push_back(vec);
        delete []return_vec;
      }
    }//get train matrix

    void print()
    {
      cout<<"print the train matrix begin : "<      vector< vector<int> > :: iterator it = train_mat.begin();
      while(it!=train_mat.end())
      {
        vector<int> vec = *it;
        vector<int> :: iterator itt = vec.begin();
        while( itt!=vec.end())
        {
          cout<<*itt<<" ";
          itt++;
        }
        cout<        it++;
      }

    }//print()

    void train_NB0()
    {
      int num_train_docs = train_mat.size();//sizeof(posting_lists)/sizeof(posting_lists[0]);
      cout<<"num_train_docs = "<      int num_words = train_mat[0].size() - 1 ;
      /* calculatr the sum of the abusive classes */	
      int sum = accumulate(list_classes.begin(),list_classes.end(),0); //C++ STL accumulate() 
      cout<<"sum = "<      float p_abusive = (float)sum/(float)num_train_docs;
      cout<<"p_abusive = "<      vector<float> p0vect(train_mat[0].size(),0); //the frequency of each word in non-absusive docs
      vector<float> p1vect(train_mat[0].size(),0); //the frequency of each word in abusive docs
      printf("p0num.size() = %d , p1num.size() = %d\n",p0vect.size(),p1vect.size());
      float p0Denom = 0.0; //the total number of words in non-abusive docs
      float p1Denom = 0.0; //the total number of words in abusive docs

      /* calculate the p0num,p1num,p0Denom,p1Denom */
      for(int i=0;i      {
        if(list_classes[i] == 1)  //abusive doc
        {
          for(int j=0;j          {
            p1vect[j] += train_mat[i][j];
            if(train_mat[i][j]==1)			
              p1Denom++;
          }
        }
        else   //non-abusive doc
        {
          for(int j=0;j          {
            p0vect[j] += train_mat[i][j];
            if(train_mat[i][j]==1)			
              p0Denom++;
          }
        }
      }
      
      for(int i=0;i      {
        p0vect[i] = p0vect[i]/p0Denom;
        p1vect[i] = p1vect[i]/p1Denom;
      }
      
      cout<<"print the p0vect values : ";
      for(int i=0;i        cout<" ";
      cout<<"\nprint the p1vect values : ";
      for(int i=0;i        cout<" ";
      cout<    }


};

int main()
{
  NaiveBayes nb;
  nb.create_vocab_list();
  nb.get_train_matrix();
  nb.print();
  nb.train_NB0();
  system("pause") ;
  return 0;
}

分析：

代码中和4-1的代码相比，4-2增加了私有成员变量train_mat和公有成员函数train_NB0。其中：

train_mat：文档矩阵。是由0,1组成的词向量矩阵，单个向量是一个文档转换成为和my_vocab_list等长的[0,1]数组。

train_NB0 ：朴素贝叶斯分类器训练函数。

首先，计算文档属于侮辱性文档（class=1）的概率：p_abusive，即P(1)。因为这是一个二类分类问题，所以可以通过1-P(1)得到P(0)。对于多于两类的分类问题，则需要对代码稍加修改。

计算P(Wi | C0)和 P(Wi | C1)，需要初始化程序中的分子变量 p0vect/ p1vect 和分母变量p0Denom/p1Denom。在for循环中，要遍历训练集train_mat中的所有文档。每次某个词语（侮辱性或非侮辱性）在某一文档中出现，则该词在向量 p0vect或 p1vect对应的位置数值加一，而且在所有的文档中，该文档的总次数 p0Denom或 p1Denom 也相应加1。对于两个类别都需要进行同样的计算处理。最后，对每个元素除以该类别中的总次数。

结果：

4.3：测试算法：根据现实情况修改分类器

利用贝叶斯分类器对文档进行分类时，要计算多个概率乘积以获得文档属于某个类别的概率，即计算 p(W0|1) p(W1|1) p(W2|1)。

问题一：如果其中的一个概率值为0，那么最后的乘积也为0。为降低这种影响，可以将所有词的出现数初始化1，并将分母初始化为2.

p0vect.resize(train_mat[0].size(),1);//the frequency of each word in non-absusive docs
p1vect.resize(train_mat[0].size(),1);//the frequency of each word in abusive docs
float p0Denom = 2.0; //the total number of words in non-abusive docs
float p1Denom = 2.0; //the total number of words in abusive docs

问题二： 下溢出。这是由于太多很小的数相乘造成的。当计算乘积 p(W0|Ci)p(W1|Ci)p(W2|Ci)....p(Wn|Ci)时，由于大部分因子都非常小，所以程序会下溢出或者得到不正确答案。在代数中有ln(a*b) = ln(a) + ln(b)，于是通过对数可以避免下溢出或者浮点数舍入导致的错误。同时，采用自然对数进行处理不会有任何损失。自然ln不会影响函数的单调性。

p0vect[i] = log(p0vect[i]/p0Denom);
p1vect[i] = log(p1vect[i]/p1Denom);

万事俱备，已经可以开始构建完整的分类器了。

4-3：朴素贝叶斯分类函数：

/*
 * code list 4-1 : transfer func from docs list to vocabulary list
 * code list 4-2 : training func on Naive Bayes Classifier
 * add code list 4-3 : naive bayes classify function
 * */

#include
#include
#include
#include
#include
#include
#include
#include
#include
#include
using namespace std;


string posting_list[6][10]={
  {"my","dog","has","flea","problems","help","please","null"},
  {"maybe","not","take","him","to","dog","park","stupid","null"},
  {"my","dalmation","is","so","cute","I","love","him","null"},
  {"stop","posting","stupid","worthless","garbage","null"},
  {"mr","licks","ate","my","steak","how","to","stop","him","null"},
  {"quit","buying","worthless","dog","food","stupid","null"}
};
int class_vec[6] = {0,1,0,1,0,1};   //1 is abusive ,0 not


class NaiveBayes
{
  private:
    vector< vector<string> > list_of_posts;
    vector<int> list_classes;
    map<string,int>  my_vocab_list;
    int *return_vec;
    vector< vector<int> > train_mat;
    vector<float> p0vect;
    vector<float> p1vect;
    float p_abusive;


  public:
    NaiveBayes()
    {
      vector<string> vec;
      for(int i=0;i<6;i++)
      {
        vec.clear();
        for(int j=0;posting_list[i][j]!="null";j++)
        {
          vec.push_back( posting_list[i][j] );
        }
        list_of_posts.push_back( vec );
      }

      for(int i=0;i<sizeof(class_vec)/sizeof(class_vec[0]);i++)
      {
        list_classes.push_back( class_vec[i] );
      }

    }

    void create_vocab_list()
    {
      vector< vector<string> > :: iterator it = list_of_posts.begin();
      int index = 1;
      while( it!=list_of_posts.end() )
      {
        //vector vec( *it.begin(),*it.end() );
        vector<string> vec = *it;

        vector<string> :: iterator tmp_it = vec.begin();

        while( tmp_it!=vec.end() )
        {
          //cout<<*tmp_it<<" ";
          if( my_vocab_list[*tmp_it] == 0 )
          {
            my_vocab_list[*tmp_it] = index++; //index is the location of the vovabulary
          }
          tmp_it++;
        }
        it++;
      }

    }//create_vocab_list

    //set some one word to vec with 0 and 1.
    void set_of_words_to_vec(int idx)
    {
      cout<<"set of words to vec begin the document id is : "<      int len = my_vocab_list.size()+1;
      return_vec = new int[ len ](); //pay attention to the difference between "new int[len]". initalize all the element to zero.
      fill(return_vec,return_vec+len,0);
      for(int i=0;i        cout<" ";
      for( int i=0;posting_list[idx][i]!="null";i++ )
      {
        //cout<
        int pos = my_vocab_list[ posting_list[idx][i] ];
        if( pos != 0 )
        {
          return_vec[pos] = 1;
        }
      }
      cout<    }//set_of_words_to_vec

    void get_train_matrix()
    {
      cout<<"get train matrix begin : "<      train_mat.clear();
      for(int i=0;i<6;i++)
      {
        set_of_words_to_vec(i);
        vector<int> vec( return_vec , return_vec + my_vocab_list.size()+1 );
        train_mat.push_back(vec);
        delete []return_vec;
      }
    }//get train matrix

    void print()
    {
      cout<<"print the train matrix begin : "<      vector< vector<int> > :: iterator it = train_mat.begin();
      while(it!=train_mat.end())
      {
        vector<int> vec = *it;
        vector<int> :: iterator itt = vec.begin();
        while( itt!=vec.end())
        {
          cout<<*itt<<" ";
          itt++;
        }
        cout<        it++;
      }

    }//print()

    void train_NB0()
    {
      int num_train_docs = train_mat.size();//sizeof(posting_lists)/sizeof(posting_lists[0]);
      cout<<"num_train_docs = "<      int num_words = train_mat[0].size() - 1 ;
      /* calculatr the sum of the abusive classes */	
      int sum = accumulate(list_classes.begin(),list_classes.end(),0);
      
      cout<<"sum = "<      //float p_abusive = (float)sum/(float)num_train_docs;
      p_abusive =  (float)sum/(float)num_train_docs;
      cout<<"p_abusive = "<      //vector p0vect(train_mat[0].size(),1); //the frequency of each word in non-absusive docs
      p0vect.resize(train_mat[0].size(),1);
      //vector p1vect(train_mat[0].size(),1); //the frequency of each word in abusive docs
      p1vect.resize(train_mat[0].size(),1);
      printf("p0num.size() = %d , p1num.size() = %d\n",p0vect.size(),p1vect.size());
      float p0Denom = 2.0; //the total number of words in non-abusive docs
      float p1Denom = 2.0; //the total number of words in abusive docs

      /* calculate the p0num,p1num,p0Denom,p1Denom */
      for(int i=0;i      {
        if(list_classes[i] == 1)  //abusive doc
        {
          for(int j=0;j          {
            p1vect[j] += train_mat[i][j];
            if(train_mat[i][j]==1)			
              p1Denom++;
          }
        }
        else   //non-abusive doc
        {
          for(int j=0;j          {
            p0vect[j] += train_mat[i][j];
            if(train_mat[i][j]==1)			
              p0Denom++;
          }
        }
      }
      
      for(int i=0;i      {
        p0vect[i] = log(p0vect[i]/p0Denom);
        p1vect[i] = log(p1vect[i]/p1Denom);
      }
      
      cout<<"print the p0vect values : "<      for(int i=0;i        cout<" ";
      cout<<"\nprint the p1vect values : "<      for(int i=0;i        cout<" ";
      cout<    }

    int classify_NB( string *doc_to_classify )
    {
      return_vec = new int[ my_vocab_list.size()+1 ]();
      for(int i=0;doc_to_classify[i]!="null";i++)
      {
        int pos = my_vocab_list[ doc_to_classify[i] ];
        if( pos!=0 )
        {
          return_vec[ pos ] = 1;
        }
      }//for

      for(int i=0;i1;i++)
        cout<" ";
      cout<      float p1 = inner_product( p1vect.begin()+1,p1vect.end(),return_vec+1,0 ) + log(p_abusive);
      float p0 = inner_product( p0vect.begin()+1,p0vect.end(),return_vec+1,0 ) + log(1-p_abusive);

      cout<<"p1 = "<      cout<<"p0 = "<      if( p1>p0 )
      {
        return 1;
      }
      else
      {
        return 0;
      }
    }

};

int main()
{
  NaiveBayes nb;
  nb.create_vocab_list();
  //nb.set_of_words_to_vec(5);
  nb.get_train_matrix();
  nb.print();
  nb.train_NB0();

  string doc1_to_classify[] = {"love","my","dalmation","null"}; 
  string doc2_to_classify[] = {"stupid","garbage","null"};
    cout<<"doc1 classified as : "<cout<<"doc2 classified as : "<  return 0;
}

结果：

可以看到doc1:{"love","my","dalmation","null"};被分为0类（not abusive）; doc2:{"stupid","garbage","null"}被分为1类（abusive）。分类正确！

五、示例：使用朴素贝叶斯过滤垃圾邮件：

在这个例子中，我们将了解朴素贝叶斯的一个最著名的应用：电子邮件垃圾过滤。首先看一下如何使用通用框架来解决问题：

（1）收集数据：提供文本文件；

（2）准备数据：将文本文件解析成词条向量；

（3）分析数据：检查词条确保解析的正确性；

（4）训练算法：使用我们之前建立的train_NB()函数；

（5）测试算法：使用classifyNB()，并且构建一个新的测试函数来计算文档集的错误率；

（6）使用算法：构建一个完整的程序对一组文档进行分类，将错分的文档输出到屏幕上。

5.1：切分文本：

首先我们将写一个python程序textParse.py来对所有的email文件进行解析，正常的邮件放在/email/ham/下，垃圾邮件放在/email/spam/下，将ham下每个文件解析完成后放在/email/hamParse/下，将spam下每个文件解析完成后放在/email/spamParse/下，email共享文件链接：http://yunpan.cn/Q4fXnTtGudGA9 。

代码textParse.py：

#!/usr/bin/env python

def textParse(bigString):
  import re
  listOfTokens = re.split(r'\W*',bigString)
  return [tok.lower() for tok in listOfTokens if len(tok) > 2 ]

def spamTest():
  for i in range(1,26):
    wordList = textParse( open('./email/ham/%d.txt' % i).read() )
    fp = open( './email/hamParse/%d.dat' % i , 'w')
    for item in wordList:
      fp.write(item+' ')		
    wordList = textParse( open('./email/spam/%d.txt' % i).read() )
    fp = open( './email/spamParse/%d.dat' % i , 'w')
    for item in wordList:
      fp.write(item+' ')		

spamTest()

分析： 上面的python代码就是读入文本数据，然后切分，得到词向量，然后将词向量中的词都转换成小写，并把长度大于2的提取出来，写入文本文件中去。文本解析是一个相当复杂的过程，可以根据自己的情况自行修改。

5.2：测试算法：使用朴素贝叶斯进行交叉验证

完整代码NB3.cc：

/*
 * code list 4-1 : transfer func from docs list to vocabulary list
 * code list 4-2 : training func on Naive Bayes Classifier
 * code list 4-3 : naive bayes classify function
 * add code list 4-4 : naive bayes bag-of-word model
 * add code list 4-5 : text parse : textParse.py and spam email test function : get_error_rate()
 * */

#include
#include
#include
#include
#include
#include
#include
#include
#include
#include
#include
#include
#include
#include
using namespace std;

class NaiveBayes
{
  private:
    vector< vector<string> > list_of_docs;
    vector<int> list_classes;
    map<string,int>  my_vocab_list;
    int *return_vec;
    vector< vector<int> > train_mat;
    vector<float> p0vect;
    vector<float> p1vect;
    float p_abusive;
    ifstream fin;
    ofstream fout;
    int test_data_num;

  public:
    NaiveBayes()
    {
      cout<<"please input the num of test data which should be less than 24 : "<      cin>>test_data_num;
      vector<string> vec;
      string word;
      string filename;
      char buf[3];
      string buf_str;
      for(int i=test_data_num+1;i<=25;i++)
      {
        sprintf(buf,"%d",i);  //convert digit to string
        vec.clear();
        buf_str = buf;
        filename = "./email/hamParse/"+buf_str+".dat";
        //cout<<"filename : "<
        fin.open( filename.c_str() );
        if(!fin)
        {
          cerr<<"open the file "<" error"<          exit(1);
        }
        while(fin>>word)
        {
          vec.push_back(word);
        }
        list_of_docs.push_back( vec );
        list_classes.push_back(0);
        filename.clear();
        fin.close();
      }

      for(int i=test_data_num+1;i<=25;i++)
      {
        sprintf(buf,"%d",i);
        vec.clear();
        buf_str = buf;
        filename =	"./email/spamParse/"+buf_str+".dat";
        //cout<<"filename : "<
        fin.open( filename.c_str() );
        if(!fin)
        {
          cerr<<"open the file "<" error"<        }
        while(fin>>word)
        {
          vec.push_back(word);
        }
        list_of_docs.push_back( vec );
        list_classes.push_back(1);
        filename.clear();
        fin.close();
      }

    }

    ~NaiveBayes()
    {
      fin.close();
      fout.close();
      list_of_docs.clear();
      list_classes.clear();
      my_vocab_list.clear();
      train_mat.clear();
      //delete [] return_vec;
      p0vect.clear();
      p1vect.clear();
    }


    void create_vocab_list()
    {
      vector< vector<string> > :: iterator it = list_of_docs.begin();
      int index = 1;
      while( it!=list_of_docs.end() )
      {
        //vector vec( *it.begin(),*it.end() );
        vector<string> vec = *it;

        vector<string> :: iterator tmp_it = vec.begin();

        while( tmp_it!=vec.end() )
        {
          //cout<<*tmp_it<<" ";
          if( my_vocab_list[*tmp_it] == 0 )
          {
            my_vocab_list[*tmp_it] = index++; //index is the location of the vovabulary
          }
          tmp_it++;
        }
        it++;
      }
  
    }//create_vocab_list

    //set some one word to vec with 0 and 1.
    void beg_of_words_to_vec(int idx)
    {
      //cout<<"set of words to vec begin the document id is : "<
      int len = my_vocab_list.size()+1;
      return_vec = new int[ len ](); //pay attention to the difference between "new int[len]". initalize all the element to zero.
      fill(return_vec,return_vec+len,0);
      vector< vector<string> >:: iterator it = list_of_docs.begin() + idx - 1  ;
      vector<string> vec  = *it;
      vector<string> :: iterator itt = vec.begin();
      int pos = 0 ;
      while( itt!=vec.end() )
      {
  //			cout<<*itt<<" ";
        pos = my_vocab_list[ *itt ];
        if(pos!=0)
        {
          return_vec[pos] += 1;
        }
        itt++;
      }
    }//beg_of_words_to_vec

    void get_train_matrix()
    {
      cout<<"get train matrix begin : "<      train_mat.clear();
      for(int i=1;i<=list_of_docs.size();i++)
      {
        beg_of_words_to_vec(i);
        vector<int> vec( return_vec , return_vec + my_vocab_list.size()+1 );
        train_mat.push_back(vec);
        delete []return_vec;
      }
    }//get train matrix

    void print()
    {
      cout<<"print the train matrix begin : "<      vector< vector<int> > :: iterator it = train_mat.begin();
      while(it!=train_mat.end())
      {
        vector<int> vec = *it;
        vector<int> :: iterator itt = vec.begin();
        while( itt!=vec.end())
        {
          cout<<*itt<<" ";
          itt++;
        }
        cout<        it++;
      }

    }//print()

    void train_NB0()
    {
      int num_train_docs = train_mat.size();//sizeof(docs_lists)/sizeof(docs_lists[0]);
      cout<<"num_train_docs = "<      int num_words = train_mat[0].size() - 1 ;
      /* calculatr the sum of the abusive classes */	
      int sum = accumulate(list_classes.begin(),list_classes.end(),0);
      cout<<"sum = "<      //float p_abusive = (float)sum/(float)num_train_docs;
      p_abusive =  (float)sum/(float)num_train_docs;
      cout<<"p_abusive = "<      //vector p0vect(train_mat[0].size(),1); //the frequency of each word in non-absusive docs
      p0vect.resize(train_mat[0].size(),1);
      //vector p1vect(train_mat[0].size(),1); //the frequency of each word in abusive docs
      p1vect.resize(train_mat[0].size(),1);
      printf("p0num.size() = %d , p1num.size() = %d\n",p0vect.size(),p1vect.size());
      float p0Denom = 2.0; //the total number of words in non-abusive docs
      float p1Denom = 2.0; //the total number of words in abusive docs

      /* calculate the p0num,p1num,p0Denom,p1Denom */
      for(int i=0;i      {
        if(list_classes[i] == 1)  //abusive doc
        {
          for(int j=0;j          {
            p1vect[j] += train_mat[i][j];
            if(train_mat[i][j]==1)			
              p1Denom++;
          }
        }
        else   //non-abusive doc
        {
          for(int j=0;j          {
            p0vect[j] += train_mat[i][j];
            if(train_mat[i][j]==1)			
              p0Denom++;
          }
        }
      }

      for(int i=0;i      {
        p0vect[i] = log(p0vect[i]/p0Denom);
        p1vect[i] = log(p1vect[i]/p1Denom);
      }

      cout<    }

    int classify_NB(const char  *filename )
    {
      return_vec = new int[ my_vocab_list.size()+1 ]();
      
      fin.open(filename);
      if(!fin)
      {
        cerr<<"fail to open the file "<        exit(1);
      }
      string word;
      while(fin>>word)
      {
        int pos = my_vocab_list[ word ];
        if( pos!=0 )
        {
          return_vec[ pos ] += 1;
        }
      }
      fin.close();

      cout<      float p1 = inner_product( p1vect.begin()+1,p1vect.end(),return_vec+1,0 ) + log(p_abusive);
      float p0 = inner_product( p0vect.begin()+1,p0vect.end(),return_vec+1,0 ) + log(1-p_abusive);

      cout<<"p1 = "<"  "<<"p0 = "<      if( p1>p0 )
      {
        return 1;
      }
      else
      {
        return 0;
      }
    }
  
    void get_error_rate()
    {
      string filename ;
      char buf[3];
      string buf_str;
      int error_count = 0;
      for(int i=1;i<=test_data_num;i++)	
      {
        sprintf(buf,"%d",i);
        buf_str = buf;
        filename = "./email/hamParse/"+buf_str+".dat";
        if( classify_NB( filename.c_str() ) != 0 )
        {
          error_count++;
        }
        
        filename = "./email/spamParse/"+buf_str+".dat";
        if( classify_NB( filename.c_str() ) != 1 )
        {
          error_count++;
        }
      }		
      cout<<"the error rate is : "<<(float)error_count/(float)(2*test_data_num)<    }
};

int main()
{
  NaiveBayes nb;
  nb.create_vocab_list();
  //nb.beg_of_words_to_vec(5);
  //nb.beg_of_words_to_vec(30);
  nb.get_train_matrix();
  //nb.print();
  nb.train_NB0();

  char  doc1_to_classify[] = "./email/hamParse/1.dat";
  char  doc2_to_classify[] = "./email/spamParse/1.dat";
  cout<<"doc1 classified as : "<  cout<<"doc2 classified as : "<  
  nb.get_error_rate();
  return 0;
}

makefile：

target:
  ./textParse.py
  g++ NB3.cc
  ./a.out

clean:
  rm ./email/spamParse/*  ./email/hamParse/*   a.out

代码中增加了get_error_rate()函数测试分类函数的错误率。email中ham和spam下分别有25个文本文件，我们定义了成员变量test_data_num，那么我们就将ham/spam下第1~test_data_num的邮件当做测试集，第test_data_num+1~25的邮件当做训练集。这种随机选择数据的一部分作为训练集，而剩余部分作为测试集的过程称为留存交叉验证。那么在构造函数中就将第test_data_num+1~25的数据来初始化list_of_doc，进一步通过create_vocab_list()和get_train_matrix()得到train_mat，再通过训练函数train_NB0()得到p0vect和p1vect，通过classify_NB()对文本进行分类，get_error_rate()测试分类函数的错误率。

下面展示一个在test_data_num = 7情况下的结果：

错误率在7%左右。经过测试随着test_data_num的增加错误率会减小，知道test_data_num=12的时候降为4%。之后又会随着test_data_num的增加而上升。

如果还有问题可以留言进行交流，谢谢！

你可能感兴趣的:(算法,c语言,朴素贝叶斯分类)

C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
LeetCode算法题：电话号码的字母组合吱屋猪_ 算法 leetcode java
题目描述：给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意1不对应任何字母。2->"abc"3->"def"4->"ghi"5->"jkl"6->"mno"7->"pqrs"8->"tuv"9->"wxyz"例如，给定digits="23"，返回["ad","ae","af","bd","be","bf","cd
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
从《哪吒 2》看个人IP的破局之道|创客匠人
《哪吒2》以破竹之势登顶中国影史票房榜，不到9天票房突破62亿，观众自发为其“冲百亿”的热情，揭示了一个朴素却深刻的商业逻辑：IP的真正生命力，不在于短暂曝光，而在于用户愿意用行动投票的长期信任。这种逻辑，同样适用于2025年个人IP的增长突围。流量失效的真相：用户体验断层终结增长如今的IP运营者常陷入一个误区：疯狂追逐流量，却留不住用户。短视频投流成本翻倍，内容越做越多粉丝却不涨，好不容易成交的
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
被动降噪的概念及编程实现 CodeByte 人工智能算法 javascript 编程
被动降噪是指通过编程技术和算法，对输入的数据进行处理，以减少或消除其中的噪声。噪声可以是各种形式的干扰，例如来自传感器、通信信号或其他外部源的干扰。在本文中，我们将探讨被动降噪的意义以及如何使用编程来实现这一目标。被动降噪的意义：噪声对数据的准确性和可靠性产生负面影响。在许多应用领域，例如图像处理、音频处理和信号处理中，噪声的存在可能导致数据质量下降，使得后续的分析和处理变得困难。因此，被动降噪技
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
反光衣识别漏检率 30%？陌讯多尺度模型实测优化
在建筑工地、交通指挥等场景中，反光衣是保障作业人员安全的重要装备，对其进行精准识别是智能监控系统的核心功能之一。但传统视觉算法在实际应用中却屡屡碰壁：强光下反光衣易与背景混淆、远距离小目标漏检率高达30%、复杂场景下模型泛化能力不足[实测数据来源：某智慧工地项目2024年Q1日志]。这些问题直接导致安全监控系统预警滞后，给安全生产埋下隐患。一、技术解析：反光衣识别的核心难点与陌讯算法创新反光衣识别
【GESP】C++三级真题 luogu-B4359 [GESP202506 三级] 分糖果 CoderCodingNo GESP c++java 开发语言
GESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较简单。题目题解详见：【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoder【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoderGESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较
【华为机试】HJ61 放苹果不爱熬夜的Coder 算法华为机试 golang 华为 golang 算法面试
文章目录HJ61放苹果描述输入描述输出描述示例1示例2解题思路算法分析问题本质分析状态定义与转移递推关系详解动态规划表构建算法流程图示例推导过程代码实现思路时间复杂度分析关键优化点边界情况处理递归解法对比实际应用场景测试用例分析算法特点数学原理完整题解代码HJ61放苹果描述我们需要将m个相同的苹果放入n个相同的盘子中，允许有的盘子空着不放。求解有多少种不同的分法。输入描述输入两个整数m,n(0B[
.NET中的安全性之数字签名、数字证书、强签名程序集、反编译 hezudao25 NET .net assembly 加密算法 reference header
本文将探讨数字签名、数字证书、强签名程序集、反编译等以及它们在.NET中的运用（一些概念并不局限于.NET在其它技术、平台中也存在）。1.数字签名数字签名又称为公钥数字签名，或者电子签章等，它借助公钥加密技术实现。数字签名技术主要涉及公钥、私钥、非对称加密算法。1.1公钥与私钥公钥是公开的钥匙，私钥则是与公钥匹配的严格保护的私有密钥；私钥加密的信息只有公钥可以解开，反之亦然。在VisualStud
2025年渗透测试面试题总结-2025年HW(护网面试) 43（题目+回答）独行soc 2025年护网面试职场和发展 linux 科技渗透测试安全护网
安全领域各种资源，学习文档，以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具，欢迎关注。目录2025年HW(护网面试)431.自我介绍与职业规划2.Webshell源码级检测方案3.2025年新型Web漏洞TOP54.渗透中的高价值攻击点5.智能Fuzz平台架构设计6.堆栈溢出攻防演进7.插桩技术实战应用8.二进制安全能力矩阵9.C语言内存管理精要10.Pyth
数据结构：导论梁辰兴数据结构学习笔记数据结构导论算法时间复杂度空间复杂度
目录一，数据结构的研究内容二，基本概念与术语（一）数据、数据元素、数据项与数据对象（二）数据结构（三）数据类型与抽象数据类型️三，抽象数据类型的表示与实现⚙️四，算法与算法分析⚖️（一）算法的定义及特性（二）评价算法优劣的基本标准⏱️（三）算法的时间复杂度（四）算法的空间复杂度章结一，数据结构的研究内容数据结构是计算机科学的核心基础，其研究内容可概括为三大维度：数据组织形式：探索如何将现实世界中的
C++ 标准库＜numeric＞
以下对C++标准库中头文件所提供的数值算法与工具做一次系统、深入的梳理，包括算法功能、示例代码、复杂度分析及实践建议。一、概述中定义了一组对数值序列进行累加、内积、差分、扫描等操作的算法，以及部分辅助工具（如std::iota、std::gcd/std::lcm等）。所有算法均作用于迭代器区间，符合STL风格，可与任意容器或原始数组配合使用。从C++17、20起，又陆续加入了并行友好的std::r
具身语义导航算法总揽 Shilong Wang 具身导航算法算法
端到端方法小脑大脑GNMNavDPNaVILAViNTNomadNavidStreamVLNMapNavNavGPTUni-NavidOctoNavNavGPT2模仿学习行为克隆BCDAgger模块化方法GOATVLFMSayPlanLM-NavETPNavVoroNavEmbodiedRAGVL-NavStairwaytoSuccess业内大佬北大王鹤NavidUni-NavidOctoNav吴
android去除gps漂移代码,GPS漂移过滤算法扇贝君
GPS漂移过滤算法基本思想：逐点过滤，再经过基础过滤后，进行判断运动状态，静止状态和运动中。如果静止，则使用电子围栏；如果运动，则先过滤大速度，再过滤加速度，然后过滤距离(包括超大距离，和速度相关距离)。对于要过滤的点，采用之前最近的可靠点，进行替换，同时，无效次数+1，如果后面是有效点，则无效次数-1，如果无效次数归0，认为这个点才是真正可靠点(无效次数为正时，都为要被替换的点)。如果遇到不定点
项目开发日记
框架整理学习UIMgr：一、数据结构与算法1.1关键数据结构成员变量类型说明m_CtrlsList当前正在显示的所有UI页面m_CachesList已打开过、但现在不显示的页面（缓存池）1.2算法逻辑查找缓存页面：从m_Caches中倒序查找是否已有对应ePageType页面，找到则重用。页面加载：从资源管理器ResMgr加载prefab并绑定控制器/视图组件。页面关闭：从m_Ctrls移除，添加
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
《C++性能优化指南》 linux版代码及原理解读第一章 v俊逸 C++性能优化指南性能优化 C++性能优化性能优化
概述：目录概述：性能优化的必要性：C++代码优化策略总结用好的编译器并用好编译器使用更好的算法使用更好的库减少内存分配和复制移除计算使用更好的数据结构提高并发性优化内存管理性能优化的必要性：按照当今的CPU运行速度来说，执行一条指令所需要的时间是10的-9次方的时间单位，如此快速的执行速度是否就没有性能优化的必要了呢？其实不然，性能优化与CPU的执行速度并无非常大的关系，试想一下，一段代码，如果用
《C++性能优化指南》 linux版代码及原理解读第四章 v俊逸 C++性能优化指南性能优化 C++性能优化指南性能优化
目录概述为什么字符串很麻烦字符串是动态分配的字符串赋值背后的操作如何面对字符串会进行大量复制写时复制COW（copyonwrite）尝试优化字符串避免临时字符串通过预留存储空间减少内存分配通过传递引用减少实参复制使用迭代器操作减少循环中的比较操作减少返回值的复制还没有结束，使用字符数组代替字符串再次优化字符串尝试其他的算法叠加以前的优化方式使用其他的编译器使用其他字符串的库功能丰富的字符串库使用s
rtos内存管理林内克思 java linux 算法
FreeRTOS将内存分配API保留在其可移植层，提供了五种内存管理算法：heap_1：最简单，不允许释放内存。heap_2：允许释放内存，但不会合并相邻的空闲块。heap_3：简单包装了标准malloc()和free()，以保证线程安全。heap_4：合并相邻的空闲块以避免碎片化。包含绝对地址放置选项。heap_5：如同heap_4，能够跨越多个不相邻内存区域的堆。特点缺点heap_1简单、不支
c++中迭代器的本质三月微风 c++开发语言
C++迭代器的本质与实现原理迭代器是C++标准模板库(STL)的核心组件之一，它作为容器与算法之间的桥梁，提供了统一访问容器元素的方式。下面从多个维度深入解析迭代器的本质特性。一、迭代器的基本定义与分类迭代器的本质迭代器是一种行为类似指针的对象，用于遍历和操作容器中的元素。它提供了一种统一的方式来访问不同容器中的元素，而无需关心容器的具体实现细节。标准分类体系C++标准定义了5种迭代器类型，按功能
C++中NULL等于啥奇妙之二进制嵌入式/Linux #C++编程法则 c++开发语言
文章目录**一、`NULL`的标准定义****二、常见实现方式**1.**定义为整数`0`**2.**定义为`0L`或`(void*)0`**（较少见）**三、与C语言的关键区别****四、`NULL`在C++中的问题**1.**重载函数匹配歧义**2.**模板参数推导错误****五、C++11+的替代方案：`nullptr`****六、最佳实践****七、总结**在C++中，NULL的定义与行为
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默