对于特征值的处理:
1、离散化。具体做法是:找到每个特征值的中位数,把其当做阈值,小于它和大于它相当于不同的取值。
2、 采用朴素贝叶斯方法进行学习。因为特征值是连续值,假设每个特征都满足高斯分布,用高斯函数来估计。
离散化版本:
#include
#include
#include
using namespace std;
#define clr(s,t) memset(s,t,sizeof(s));
#define N 1000
#define D 30
#define TRAIN 120
#define TEST 30
double data[N][5],t[N],bound[D];
char kind[N][100],str[D][100];
int out[N],prior[N],condition[10][D][N],len;
int find(char *x){
int i;
for(i = 0;i<=len;i++)
if(!strcmp(str[i], x))
return i;
strcpy(str[++len], x);
return len;
}
void learning(){
int i,j;
clr(condition, 0);
clr(prior, 0);
len = -1;
for(i = 0;ibound[j]; //如果小于相应的bound,记为0,否则为1
condition[out[i]][j][k]++;
}
}
double compute(int y,int d,double x){ //标记为y的情况下,第d个特征值为x的条件概率
return (double)condition[y][d][x>bound[d]]/prior[y];
}
int guess(double d[]){
int i,j,ans;
double res = 0,now;
for(i = 0;i<=len;i++){
now = 1;
for(j = 0;j<4;j++)
now *= compute(i,j,d[j]);
now *= (double)prior[i]/TRAIN;
if(res < now){ //找到概率最大的那个作为预测
res = now;
ans = i;
}
}
return ans;
}
void classification(){
int i,j,k,num=0;
for(i = 0;i
#include
#include
#include
#include
using namespace std;
#define clr(s,t) memset(s,t,sizeof(s));
#define N 1000
#define D 30
#define TRAIN 120
#define TEST 30
#define PI acos(-1.)
double data[N][5],mean[10][D],var[10][D];
char kind[N][100],str[D][100];
int out[N],prior[N],len;
int find(char *x){
for(int i = 0;i<=len;i++)
if(!strcmp(str[i], x))
return i;
strcpy(str[++len], x);
return len;
}
void learning(){
int i,j;
clr(prior, 0);
clr(mean, 0);
clr(var, 0);
len = -1;
for(i = 0;i