实验二kNN算法之1NN分类

k-NN处理分类问题,即分类:多数投票原则,先将数据集处理成OneHot矩阵,计算测试文本与每一个训练文本的距离,如果k = 1,则找到最小的距离,则测试文本的分类对应于该训练文本的分类。在用C++实现时,通过好多次的debug,并且将最后生成的OneHot矩阵的每一行都输出到文本中去查看,再在OneHot矩阵每行测试文本尾中输出得到的类比结果,距离,分类。这里使用了欧式距离。

训练文本和测试文本形如:

documentId emotion words

1 5 sad mortar assault leav at least dead

2 4 joy goal delight for sheva

3 4 joy nigeria hostag fear dead is freed

4 3 fear bomber kill shopper

5 6 surprise veget not fruit slow brain declin

6 4 joy pm havana deal a good experi

7 4 joy kate is marri doherti

8 6 surprise nasa revisit life on mar question

9 4 joy happi birthdai ipod

10 4 joy alonso would be happi to retir with three titl

11 4 joy madonna s new tot happi at home in london

12 5 sad nicol kidman ask dad to help stop husband s drink

13 4 joy unit find good connect in win

14 4 joy runwai make good without make nice

15 5 sad we were arrog and stupid over iraq sai us diplomat

16 5 sad bad reason to be good

      有246个测试样本,为了方便我在我的源代码中直接使用246这个数字,不过也可以通过读取该文件数行数时得到这个结果,C++实现代码如下:

#include
#include
#include
#include 
#include
#include
#include
using namespace std;
struct Three_Var
{
	int i,j;
	bool operator<(Three_Var& t) {return i(Three_Var& t) {return i>t.i||(i==t.i&&j>t.j);}
	bool operator==(Three_Var& t) {return i==t.i&&j==t.j;}
};
bool Sort( Three_Var d1,Three_Var d2)//容器的比较函数  
{    
    return d1 < d2;//降序排列     
}   
vector< vector > NumsPerLines; 
int main()
{
	int index=0;//依次出现的(去重)词汇的对应下标 
	int Lines=0;//出现的行数 
	int ThreeVarNums=0;//三元组的个数 
	ifstream Input;
	Input.open("train.txt");//读取文件 
	string line;	//一个临时变量而已 
	map FirstIndex;//string是对应的词汇,int是它(无视重复下)第一次出现的在该map中的下标
	map repeatTimes; 
	vector NumsOfLines;//每行的词汇个数 (重复不算1个)
	vector smat;
	vector Emo;
	bool first = true;//因为训练文本第一行没用;
	while(getline(Input,line))
	{		
		if(first) {
			first = false;
			continue;
		} 
		stringstream ss;
		int temp,emotion;
		//几经周折注意到一个事实:用写字板或者dev_cpp打开时可以清楚地看见是一行一句话的,所以用stringstream
		//整行读入的特性会方便很多 
		ss.clear(); 
		ss.str(line);
		ss>>temp;  
		ss>>emotion;
		string dict; 
		string EMO; 
		ss>>EMO;
		Emo.push_back(emotion); //存储好train.txt每一行的情绪啊! 
		map::iterator it1;
		map::iterator it2;
		repeatTimes.clear();
		while(ss>>dict)  //读入每行的数据集内容的词汇 
		{
			it1=FirstIndex.find(dict); //first元素的map查找函数 
			if(it1==FirstIndex.end())//迭代器到了end(),说明这个词还没出现过 
			{
				FirstIndex.insert(pair(dict,index));
				index++;  //维护map中的下标 
			}
			it2=repeatTimes.find(FirstIndex[dict]);//计算该词汇在数据集中重复出现的次数 
			if(it2==repeatTimes.end())//这个下标第一次出现的话,放进这个repaeatTimes中 
				repeatTimes.insert(pair(FirstIndex[dict],1));
				//第一个整数记录它在map中的下标,第二个整数记录它重复的次数 
			else
				it2->second++;//否则,维护好这个RepeatTimes即可。 
			temp++;//这行的词汇个数(重复不算1个) 
		}
		//读取完这行词汇了 
		vector  Temp_Vec;
		for(it2=repeatTimes.begin();it2!=repeatTimes.end();it2++)  //为了在vector中有序,借用这个map 
		{
			Three_Var item{Lines,it2->first};//利用机构体记录这个单词出现的行数,下标,重复次数 
			smat.push_back(item);
			ThreeVarNums++;//结构体vector中放入的个数 
			Temp_Vec.push_back(it2->first);//这个结构存储每一行拥有的字符串的下标; 
		}
		NumsPerLines.push_back(Temp_Vec);
		Lines++;  //第几行计数 
		NumsOfLines.push_back(temp);//记录好每行的词汇个数 
		if(Lines == 246){
			first = true;
			Input.close();
			Input.open("test.txt");
		}
	}
	cout<= 246){//test.txt来分类咯; 
			int MinLine = 0, MinDis = 999999; 
			for(int r = 0; r < 246; r++){ //与训练文本的每一行求欧式距离
			if(NumsPerLines[r].size() > 3)
			{
				int dis = 0, c = 0 , k = 0 , equals = 0; 
				for(; c < NumsPerLines[i].size() ; c++){ //当前行的字符串 
					for(; k < NumsPerLines[r].size(); k++){
						if(NumsPerLines[i][c] <  NumsPerLines[r][k]){
							break;
						}
						else if(NumsPerLines[i][c] ==  NumsPerLines[r][k]){
							equals++;
						}
					}
				}
				dis = NumsPerLines[i].size() + NumsPerLines[r].size() - equals * 2;
				if(dis < MinDis){
					MinDis = dis;
					MinLine = r;
					//cout<<"smaller, dis = "<

你可能感兴趣的:(人工智能)