朴素贝叶斯——UCI数据集IRIS

采用朴素贝叶斯方法进行学习,原始数据共150组,拿120个作为训练集,另外30个作为测试集合。

对于特征值的处理:

1、离散化。具体做法是:找到每个特征值的中位数,把其当做阈值,小于它和大于它相当于不同的取值。

2、 采用朴素贝叶斯方法进行学习。因为特征值是连续值,假设每个特征都满足高斯分布,用高斯函数来估计。

离散化版本:

#include 
#include 
#include 
using namespace std;
#define clr(s,t) memset(s,t,sizeof(s));
#define N 1000
#define D 30
#define TRAIN 120
#define TEST 30
double data[N][5],t[N],bound[D];
char kind[N][100],str[D][100];
int out[N],prior[N],condition[10][D][N],len;
int find(char *x){
    int i;
    for(i = 0;i<=len;i++)
        if(!strcmp(str[i], x))
            return i;
    strcpy(str[++len], x);
    return len;
}
void learning(){
    int i,j;
    clr(condition, 0);
    clr(prior, 0);
    len = -1;
    for(i = 0;ibound[j];    //如果小于相应的bound,记为0,否则为1
            condition[out[i]][j][k]++;
        }
}
double compute(int y,int d,double x){       //标记为y的情况下,第d个特征值为x的条件概率
    return (double)condition[y][d][x>bound[d]]/prior[y];
}
int guess(double d[]){
    int i,j,ans;
    double res = 0,now;
    for(i = 0;i<=len;i++){
        now = 1;
        for(j = 0;j<4;j++)
            now *= compute(i,j,d[j]);
        now *= (double)prior[i]/TRAIN;
        if(res < now){                      //找到概率最大的那个作为预测
            res = now;
            ans = i;
        }
    }
    return ans;
}
void classification(){
    int i,j,k,num=0;
    for(i = 0;i

高斯分布版本:

#include 
#include 
#include 
#include 
using namespace std;
#define clr(s,t) memset(s,t,sizeof(s));
#define N 1000
#define D 30
#define TRAIN 120
#define TEST 30
#define PI acos(-1.)
double data[N][5],mean[10][D],var[10][D];
char kind[N][100],str[D][100];
int out[N],prior[N],len;
int find(char *x){
    for(int i = 0;i<=len;i++)
        if(!strcmp(str[i], x))
            return i;
    strcpy(str[++len], x);
    return len;
}
void learning(){
    int i,j;
    clr(prior, 0);
    clr(mean, 0);
    clr(var, 0);
    len = -1;
    for(i = 0;i


你可能感兴趣的:(ML)