LTA_ALBlack

基于 Java 机器学习自学笔记（第51-53天：kNN）

注意：本篇为50天后的Java自学笔记扩充，内容不再是基础数据结构内容而是机器学习中的各种经典算法。这部分博客更侧重与笔记以方便自己的理解，自我知识的输出明显减少，若有错误欢迎指正！

一、关于数据集及其导入

· 导入这些文档库的一些基本Java操作整理

二、KNN的特性

三、代码实现细节

1. 变量准备

2. 文件读入与构造随机数组

3. 数据分割

4. (核心代码)寻找K个邻居与投票

5. 预测的代码外壳以及准确度计算

四、数据测试

五、一些可能的想法和优化（5.3补改）

1.维护大小为k的堆的优化思路

2.维护大小为N的堆的优化思路（5.3日补）

· 第52天内容(补)

1.增加 setNumNeighors() 方法

2.重新实现 computeNearests

3.增加 setDistanceMeasure() 方法

· 第53天内容(补)

1.增加 weightedVoting() 方法

2.实现 leave-one-out 测试

一、关于数据集及其导入

这里我们引入了一个名为iris的数据集用于接下来的学习，iris本身是一类花的名字【鸢尾（学名：Iris tectorum Maxim. ）又名：蓝蝴蝶、紫蝴蝶、扁竹花等】示例数据下载地址：
javasampledata: The sample data for Java programminghttps://gitee.com/fansmale/javasampledata 数据细节（一共150个数据）：

@RELATION iris

@ATTRIBUTE sepallength	REAL
@ATTRIBUTE sepalwidth 	REAL
@ATTRIBUTE petallength 	REAL
@ATTRIBUTE petalwidth	REAL
@ATTRIBUTE class 	{Iris-setosa,Iris-versicolor,Iris-virginica}

@DATA
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
...
7.0,3.2,4.7,1.4,Iris-versicolor
6.4,3.2,4.5,1.5,Iris-versicolor
6.9,3.1,4.9,1.5,Iris-versicolor
5.5,2.3,4.0,1.3,Iris-versicolor
6.5,2.8,4.6,1.5,Iris-versicolor
5.7,2.8,4.5,1.3,Iris-versicolor
...
6.3,3.3,6.0,2.5,Iris-virginica
5.8,2.7,5.1,1.9,Iris-virginica
7.1,3.0,5.9,2.1,Iris-virginica
6.3,2.9,5.6,1.8,Iris-virginica
6.5,3.0,5.8,2.2,Iris-virginica
7.6,3.0,6.6,2.1,Iris-virginica

简单说明，这个数据其实相当于用文本描述了一个数据库“@ATTRIBUTE”声明为属性列，关系表的前四列为实数，最后一类是作为三种案例的枚举，若取得他们的值的话，返回的是1.0、2.0、3.0这样的数据。

sepallength	sepalwidth	petallength	petalwidth	class
5.1	3.5	1.4	0.2	Iris-setosa
5.0	3.6	1.4	0.2	Iris-setosa
5.5	2.3	4.0	1.3	Iris-versicolor
6.3	3.3	6.0	2.5	Iris-virginica
7.6	3.0	6.6	2.1	Iris-virginica

至于数据的含义嘛...是花一些细节参数，比如花瓣长度等等。最后的class属性说明了这个花属于iris花的哪个子类，而我们今天就是通过学习这150的部分数据得到“经验”，然后通过经验去判断接下来的部分数据从而判断这些数据属于哪一类iris花的子类。

· 导入这些文档库的一些基本Java操作整理

1.使用weka库，这里有针对文本数据库的一些导入操作

import weka.core.*;

2.存储数据库的类：Instances类。后面在我们的代码就创建名为dataset这样的对象来存储。

	/**
	 * The whole dataset.
	 */
	Instances dataset;

3.Instances类常用方法（后期有新的使用会在这里继续更新）

dataset.numAttributes() // 返回关系表当中属性的个数(可以理解为有多少列，本案例有5个)

dataset.setClassIndex(column)
                        // 指明以哪个枚举性质属性列作为我们数据的类别

dataset.numClasses()    // 返回关系表中类别数据能承载的枚举个数(注意: 需要先指定)(本案例有3个)

dataset.numInstances(); // 返回表的行数(本案例为150行，即有150个数据)

dataset.instance(i).value(j);
                        // 返回第i行j列的数据

dataset.instance(i).classValue();
                        // 返回第i行的类别数据(注意: 需要先指定)

dataset = new Instances(fileReader);
                        // 以文件指针的方式构造类

二、KNN的特性

机器学习的本质其实就是——猜。所以往往机器学习之应用与不确定问题，确定问题（比如9+2=？）往往不用机器学习去做。而如何去猜，机器学习就逐渐分为各种门派和类别，这些类别各有自己的针对性和适用性。

KNN(K-Nearest Neighbor)是最简单的机器学习算法之一，同时适用性强，可以用于分类和回归，是一种监督学习算法。它的思路是这样，如果一个样本在特征空间中的K个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。也就是说，该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

可以发现KNN似乎没有学习过程，即惰性学习（lazy learning），但是KNN效果很好，对于很多数据，少有算法能超过KNN。KNN的适用性与可扩展都是比较强的，比如我们若能对数据预处理得很好的话，基于这个数据的度量再次使用KNN效果会很好。当然KNN也有一个麻烦的话——KNN往往需要对于数据进行归一化。

今天的代码是实现分类的功能，先学习130个花朵样本，然后到余下的20个样本中去试着分类。当然如果他的邻居不是完全一致类别，那么就投票选举可能性最高的类别。

三、代码实现细节

1. 变量准备

    /**
	 * Manhattan distance.
	 */
	public static final int MANHATTAN = 0;

	/**
	 * Euclidean distance.
	 */
	public static final int EUCLIDEAN = 1;

	/**
	 * The distance measure.
	 */
	public int distanceMeasure = EUCLIDEAN;

设定了两个常量的全局定义，以增加可读性，分辨用0/1表示度量数据之间距离的两个常用距离：曼哈顿距离与欧氏距离。然后我们的距离采用欧式距离。

    /**
	 * A random instance;
	 */
	public static final Random random = new Random();

	/**
	 * The number of neighbors.
	 */
	int numNeighbors = 7;

	/**
	 * The whole dataset.
	 */
	Instances dataset;

	/**
	 * The training set. Represented by the indices of the data.
	 */
	int[] trainingSet;

	/**
	 * The testing set. Represented by the indices of the data.
	 */
	int[] testingSet;

	/**
	 * The predictions.
	 */
	int[] predictions;

依次地，先声明随机数的对象（后面要使用随机数），定义取周围的7个邻居（这就是kNN里面的k），声明数据库对象dataset，然后trainingSet表示训练集，这里存储的是我们随机选取的dataset数据行的下标，testingSet也是相同的存储，只不过个数不同。这里请注意，我们存储的是对应数据行的下标，因此表示处理的数据

而预测数组就是对于每个测试集对应的数据行进行类别的预测，因为三类类别可简化存储为0、1、2，因此有如下预测映射：

2. 文件读入与构造随机数组

    /**
	 *********************
	 * The first constructor.
	 * 
	 * @param paraFilename
	 *            The arff filename.
	 *********************
	 */
	public KnnClassification(String paraFilename) {
		try {
			FileReader fileReader = new FileReader(paraFilename);
			dataset = new Instances(fileReader);
			// The last attribute is the decision class.
			dataset.setClassIndex(dataset.numAttributes() - 1);
			fileReader.close();
		} catch (Exception ee) {
			System.out.println("Error occurred while trying to read \'" + paraFilename
					+ "\' in KnnClassification constructor.\r\n" + ee);
			System.exit(0);
		} // Of try
	}// Of the first constructor

这个函数在外边调用的体现为：

KnnClassification tempClassifier = new KnnClassification("D:/Java DataSet/iris.arff");

读入文件指针后，依次初始化了数据库对象，确定了类别属性所在的列，指针关闭。本方法可重用！

这里为什么要构造随机数组？后续分割dataset数据集的时候，测试集与训练集分得的dataset下标应该足够随机，因此需要采用随机数。但是为了避免测试与训练集分配的下标重复，故专门采用一个随机数组来实现。

	/**
	 *********************
	 * Get a random indices for data randomization.
	 * 
	 * @param paraLength
	 *            The length of the sequence.
	 * @return An array of indices, e.g., {4, 3, 1, 5, 0, 2} with length 6.
	 *********************
	 */
	public static int[] getRandomIndices(int paraLength) {
		int[] resultIndices = new int[paraLength];

		// Step 1. Initialize.
		for (int i = 0; i < paraLength; i++) {
			resultIndices[i] = i;
		} // Of for i

		// Step 2. Randomly swap.
		int tempFirst, tempSecond, tempValue;
		for (int i = 0; i < paraLength; i++) {
			// Generate two random indices.
			tempFirst = random.nextInt(paraLength);
			tempSecond = random.nextInt(paraLength);

			// Swap.
			tempValue = resultIndices[tempFirst];
			resultIndices[tempFirst] = resultIndices[tempSecond];
			resultIndices[tempSecond] = tempValue;
		} // Of for i

		return resultIndices;
	}// Of getRandomIndices

所谓的随机数组，就是对于$N$个元素的数组，分别随机存放0~$N-1$的全部数据。实际的代码实现就是先生成有序序列$\{0,1,2,3,4,...,N-1\}$，然后任意挑选其中两个数据进行交换就好了。如果你说刚好随机的两个数相同，交换后等于没交换？那也无所谓，毕竟这样也是随机的情况。

3. 数据分割

	/**
	 *********************
	 * Split the data into training and testing parts.
	 * 
	 * @param paraTrainingFraction
	 *            The fraction of the training set.
	 *********************
	 */
	public void splitTrainingTesting(double paraTrainingFraction) {
		int tempSize = dataset.numInstances();
		int[] tempIndices = getRandomIndices(tempSize);
		int tempTrainingSize = (int) (tempSize * paraTrainingFraction);

		trainingSet = new int[tempTrainingSize];
		testingSet = new int[tempSize - tempTrainingSize];

		for (int i = 0; i < tempTrainingSize; i++) {
			trainingSet[i] = tempIndices[i];
		} // Of for i

		for (int i = 0; i < tempSize - tempTrainingSize; i++) {
			testingSet[i] = tempIndices[tempTrainingSize + i];
		} // Of for i
	}// Of splitTrainingTesting

函数参数paraTrainingFraction是一个比例，表示将总的数据tempSize（这里是150），的tempSize * paraTrainingFraction 的大小用于训练，而余下的大小用于测试。确定大小后，以这个大小将dataset一分为二，前半部分给训练集后半部分给测试集即可。

4. (核心代码)寻找K个邻居与投票

	/**
	 ************************************
	 * Compute the nearest k neighbors. Select one neighbor in each scan. In fact we
	 * can scan only once. You may implement it by yourself.
	 * 
	 * @param paraCurrent 
                    current instance. We are comparing it with all others.
	 * @return the indices of the nearest instances.
	 ************************************
	 */
	public int[] computeNearests(int paraCurrent) {
		int[] resultNearests = new int[numNeighbors];
		boolean[] tempSelected = new boolean[trainingSet.length];
		double tempDistance;
		double tempMinimalDistance;
		int tempMinimalIndex = 0;

		// Select the nearest paraK indices.
		for (int i = 0; i < numNeighbors; i++) {
			tempMinimalDistance = Double.MAX_VALUE;

			for (int j = 0; j < trainingSet.length; j++) {
				if (tempSelected[j]) {
					continue;
				} // Of if

				tempDistance = distance(paraCurrent, trainingSet[j]);
				if (tempDistance < tempMinimalDistance) {
					tempMinimalDistance = tempDistance;
					tempMinimalIndex = j;
				} // Of if
			} // Of for j

			resultNearests[i] = trainingSet[tempMinimalIndex];
			tempSelected[tempMinimalIndex] = true;
		} // Of for i

		System.out.println("The nearest of " + paraCurrent + " are: " + Arrays.toString(resultNearests));
		return resultNearests;
	}// Of computeNearests

这个距离计算是针对训集而言的，中心点的选择是基于测试集的。我们在测试集中依次确定一个中心节点，然后再于训练集中找到K个距离它最近的邻居，作为预测的标准。这里函数的paraCurrent参数已经是我们选定好的中心数据（物理含义为dataset的对应数据行的下标），然后设置tempSelected来标记已经选过的邻居，避免重复选择。可见computeNearests(5)的含义为判断dataset中第6行数据测试集中最近的前K个邻居的数据是哪些？请返回他们的下标数组。

computeNearests函数即确定下图的一束，paraCurrent就是上方选择的红点。

具体操作是通过一层for遍历趟数，每趟裁决一个最佳邻居，一共裁决$k$躺，每次裁决指标为判断$N$个数据当中的相互之间欧氏距离最短的点。上述操作可以非常容易得到复杂度为$O(kN)$，这里$k$为邻居数而$N$为训练集长度。若我们的测试集有$M$个元素，那么总的复杂度为$O(kNM)$。

这里使用一个求欧式距离的函数tempDistance = distance(paraCurrent, trainingSet[j]);

具体实现如下：

	public double distance(int paraI, int paraJ) {
		double resultDistance = 0;
		double tempDifference;
		switch (distanceMeasure) {
		case MANHATTAN:
			for (int i = 0; i < dataset.numAttributes() - 1; i++) {
				tempDifference = dataset.instance(paraI).value(i) - dataset.instance(paraJ).value(i);
				if (tempDifference < 0) {
					resultDistance -= tempDifference;
				} else {
					resultDistance += tempDifference;
				} // Of if
			} // Of for i
			break;

		case EUCLIDEAN:
			for (int i = 0; i < dataset.numAttributes() - 1; i++) {
				tempDifference = dataset.instance(paraI).value(i) - dataset.instance(paraJ).value(i);
				resultDistance += tempDifference * tempDifference;
			} // Of for i
			break;
		default:
			System.out.println("Unsupported distance measure: " + distanceMeasure);
		}// Of switch

		return resultDistance;
	}// Of distance

这里分别给出了欧式距离与曼哈顿距离的求解方案，这几个距离方案倒是没什么说的，主要要注意的几点：

我们带入的参数是dataset的数据行下标，计算是要先通过下标依次取出当前行的每个元素，一共我们要取四个属性元素，所以这应当是四维向量的距离求解。
求欧式距离的时候没必要求开根号，因为我们没必要求得实值，只是用于彼此比较就好

求得邻居数组之后，我们要从邻居中选出一个认定指标，从而来决定我们对于测试集中的这个中心点所属分类的预测。

具体实现如下

	/**
	 ************************************
	 * Voting using the instances.
	 * 
	 * @param paraNeighbors The indices of the neighbors.
	 * @return The predicted label.
	 ************************************
	 */
	public int simpleVoting(int[] paraNeighbors) {
		int[] tempVotes = new int[dataset.numClasses()];
		for (int i = 0; i < paraNeighbors.length; i++) {
			tempVotes[(int) dataset.instance(paraNeighbors[i]).classValue()]++;
		} // Of for i

		int tempMaximalVotingIndex = 0;
		int tempMaximalVoting = 0;
		for (int i = 0; i < dataset.numClasses(); i++) {
			if (tempVotes[i] > tempMaximalVoting) {
				tempMaximalVoting = tempVotes[i];
				tempMaximalVotingIndex = i;
			} // Of if
		} // Of for i

		return tempMaximalVotingIndex;
	}// Of simpleVoting

这个投票过程可以用下面这个图来表示：

先得到我们选定的k个数据的邻居数组，然后依次取出邻居数组中的元素，这个元素代表了数据集中某个数据的下标。于是在数据集中找到这行数据，然后取出这行数据的类别项，这个数据项虽然我们在文本中和字面上表示是字符串，但是实际在存储器中的存储是浮点型{1.0, 2.0, 3.0}，将其取出转换为整型后能唯一在长度为3（numClasses）的全0数组（tempVotes）中找到一个位置，使用桶排序的方法将其计数。

最终只要统计桶的项目数即可确定当前邻居告诉我们的最佳决策，假如最终：

tempVotes[0] = 4
tempVotes[1] = 1
tempVotes[2] = 2

那么可以断定，这些邻居当中属于“Iris-setosa”类的最多，因此可以对于当前测试集中的中心数据进行预测：极有可能是属于“Iris-setosa”类。

5. 预测的代码外壳以及准确度计算

其实刚刚的内容已经说完了预测的核心操作了，下面就是通过一些基本操作将这些操作串联。单数据预测：

	/**
	 *********************
	 * Predict for given instance.
	 * 
	 * @return The prediction.
	 *********************
	 */
	public int predict(int paraIndex) {
		int[] tempNeighbors = computeNearests(paraIndex);
		int resultPrediction = simpleVoting(tempNeighbors);

		return resultPrediction;
	}// Of predict

此预测函数存在单个参数，用于表示预测集的某个中心点，通过computeNearests函数计算出此中心点的邻居集合，之后通过simpleVoting函数在邻居中投票得到最佳的类别，并返回。这个单预测函数能以$O(k*N)$的复杂度预测出当前中心结点可能的类别，这就是一个比较完善的kNN的预测过程。

全测试集预测：

	/**
	 *********************
	 * Predict for the whole testing set. The results are stored in predictions.
	 * #see predictions.
	 *********************
	 */
	public void predict() {
		predictions = new int[testingSet.length];
		for (int i = 0; i < predictions.length; i++) {
			predictions[i] = predict(testingSet[i]);
		} // Of for i
	}// Of predict

顾名思义，对于测试集的所有元素实施但数据预测。为了方便表示我们将其重载了。

下面是计算精确度的函数：

我们依次取出预测数组当中的所有预测类A，并且对应地找到每个测试集的元素在dataset中的位置，取出了原本自身已知的类B，若A类与B类一致，则预测合理。

	/**
	 *********************
	 * Get the accuracy of the classifier.
	 * 
	 * @return The accuracy.
	 *********************
	 */
	public double getAccuracy() {
		// A double divides an int gets another double.
		double tempCorrect = 0;
		for (int i = 0; i < predictions.length; i++) {
			if (predictions[i] == dataset.instance(testingSet[i]).classValue()) {
				tempCorrect++;
			} // Of if
		} // Of for i

		return tempCorrect / testingSet.length;
	}// Of getAccuracy

四、数据测试

主函数如下

	/**
	 *********************
	 * The entrance of the program.
	 * 
	 * @param args Not used now.
	 *********************
	 */
	public static void main(String args[]) {
		KnnClassification tempClassifier = new KnnClassification("D:/Java DataSet/iris.arff");
		tempClassifier.splitTrainingTesting(0.8);
		tempClassifier.predict();
		System.out.println("The accuracy of the classifier is: " + tempClassifier.getAccuracy());
	}// Of main

全过程非常清晰：

读数据
按照0.8分割dataset，80%用于训练，20%用于测试
基于80%的训练集，对20%的数据进行预测
输出预测结果

输出结果为

这里是一共30个测试时间的邻居数据演示，最终的准确率竟然高达100%。为了更准确，多次运行后还是有例如0.93、0.96等情况的出现，极少出现低于0.9的案例。

但是总的来看，预测效果出奇地准确！

五、一些可能的想法和优化（5.3补改）

其实纵观整个算法，有个非常强烈的感觉，我们大部分的计算都可以简化为三大循环体。首先，对于每个测试集进行遍历，分别确定一个中心点，对这个中心点进行预测。假设M为测试集长度，这个是复杂度显而易见是$O(M)$。然后对每个选择的中心点进行k次找邻居，这个复杂度是$O(k)$。每次找邻居有需要遍历全部的训练集，假设训练集长度为N，复杂度为$O(N)$。

所以复杂度是，$(O(kNM)$。最开始我设想了堆优化。

1.维护大小为k的堆的优化思路

我们常常在找前$k$大的元素时会考虑堆优化，因此可以在对于一个中心点进行预测时，可以维护一个大小为$k$的堆。这样的话，每次遍历到一个训练集元素时，计算出训练集元素与中心点的权值，考虑这样的元素是否能入堆。这样可以改变代码结构，找邻居的时间消耗可以从$O(kN)$优化到$O(Nlogk)$。但是......$k$如果本来就很小，这种优化基本没什么意义啊，这种优化只在$k$值足够大时才有优化可能。

但kNN的$k$很大这件事情本身合理吗？我试着将$k$拔高之后再准确率测试。效果非常糟糕：

为了避免随机的干扰，我们再测试一遍：

可以发现随着k的增大，识别效果发生了非常明显的下降。为了查得原因，我查阅了一些文章（https://blog.csdn.net/qq_38330846/article/details/80207604），得到了如下结果：

对于KNN算法，$k$值越大，表示模型的学习能力越弱，因为$k$越大，它越倾向于从“面”上考虑做出判断，而不是具体地考虑一个样本，近身的情况来做出判断，所以，它的偏差会越来越大。

这样印证了这种堆优化是不可取的，因为本身$k$就不可能大，把$O(k)$变成$O(logk)$完全没有必要。

2.维护大小为N的堆的优化思路（5.3日补）

在同学（@颜妮儿）的点醒下，突然意识到建堆的建堆的复杂度其实是$O(N)$，而不是$O(NlogN)$！虽然初始化每次入堆都是$O(logN)$，但是这个$N$会随着堆高度的变化而变化，因此虽然单次入堆我们常常说是$O(logN)$，但是套上$N$次循环后加权下来的$O(NlogN)$里面的两个$N$截然不同，通过证明建堆的复杂度是稳定在$O(N)$的。

证明可见此文章：建堆的时间复杂度分析_Black.Spider的博客

得亏我前几天才写了堆排序啊！！

这样的话，对单个测试集的中心结点测试的复杂度可以从$O(kN)$优化为$O(klogN + N)$。总复杂度为$O(M(klogN + N))$。

优化代码：（我还是自建了个Pair类，因为先版本Java删了这个库，我也懒得找了原本的库了。此外，针对优先队列的比较声明了个比较器）

	// Create Comparator in order to make the priority queue knows which value as
	// the comparing values
	static Comparator> cmp = new Comparator>() {
		public int compare(Pair e1, Pair e2) {
			if (e1.getKey() > e2.getKey()) {
				return 1;
			} else if (e1.getKey() < e2.getKey()) {
				return -1;
			} else {
				return 0;
			} // Of if
		}
	};

    /**
	 ************************************
	 * Compute the nearest k neighbors. Select one neighbor in each scan. In fact we
	 * can scan only once. You may implement it by yourself.
	 * 
	 * @param paraCurrent current instance. We are comparing it with all others.
	 * @return the indices of the nearest instances.
	 ************************************
	 */
	public int[] computeNearestsForHeap(int paraCurrent) {
		int[] resultNearests = new int[numNeighbors];
		PriorityQueue> queue = new PriorityQueue<>(cmp);
		double tempDistance;

		// Create a Heap
		for (int j = 0; j < trainingSet.length; j++) {
			tempDistance = distance(paraCurrent, trainingSet[j]);
			queue.add(new Pair<>(tempDistance, trainingSet[j]));
		} // Of for j

		// Select the nearest paraK indices.
		for (int i = 0; i < numNeighbors; i++) {
			int indexNeighbors = queue.poll().getValue();
			resultNearests[i] = indexNeighbors;
		} // Of for i

		System.out.println("The nearest of " + paraCurrent + " are: " + Arrays.toString(resultNearests));
		return resultNearests;
	}// Of computeNearests

优化效果明显吗？我感觉是还行的

至少来说堆优化的时间确实有减少，某些案例的时间削减甚至超过了30%。另外也许是我的案例太少了，如果案例多了也许效果又会截然不同。

· 第52天内容(补)

1.增加 setNumNeighors() 方法

方便直接设置邻居个数

	/**
	 ************************************
	 * Set numNeighbors.
	 * 
	 * @param setNumNeighors 
                        The num of Neighbors.
	 ************************************
	 */
	public void setNumNeighors(int paraNeighbors) {
		numNeighbors = paraNeighbors;
		return;
	}// Of setNumNeighors

2.重新实现 computeNearests

见上述第五部分的堆优化

3.增加 setDistanceMeasure() 方法

方便直接设置距离方法

	/**
	 *********************
	 * Set the distance measure
	 * 
	 * @param paraDistanceMeasure
	 * 					The class of distance measure
	 * 					0 symbolize MANHATTAN
	 * 					1 symbolize EUCLIDEAN
	 *********************
	 */
	public void setDistanceMeasure(int paraDistanceMeasure) {
		distanceMeasure = paraDistanceMeasure;
		return;
	}// Of setDistanceMeasure

· 第53天内容(补)

1.增加 weightedVoting() 方法

简单来说改变了投票的方案，从原来的选择邻居中最多的一类变为选择最近的一类。

	/**
	 *********************
	 * Voting the closest neighbor.
	 * 
	 * @param paraCurrent   current instance. We are comparing it with all others.
	 * @param paraNeighbors The indices of the neighbors.
	 * @return The predicted label.
	 *********************
	 */
	public int weightedVoting(int paraCurrent, int[] paraNeighbors) {
		int tempMinIndex = -1;
		double tempMinValue = Double.MAX_VALUE;
		double tempDistance;

		for (int i = 0; i < paraNeighbors.length; i++) {
			tempDistance = distance(paraCurrent, paraNeighbors[i]);
			if (tempDistance < tempMinValue) {
				tempMinIndex = i;
				tempMinValue = tempDistance;
			} // Of if
		} // Of for i
			
		return (int) dataset.instance(paraNeighbors[tempMinIndex]).classValue();
	}// Of weightedVoting

2.实现 leave-one-out 测试

所谓的leave-one-out的含义，我在54天的M-distance里面再做笔记吧。今天先展示下kNN的leave-one-out实现代码：

这部分代码我删了一些随机数生成以及分割数据集的代码，把分割数据集的代码改成了给训练集赋值的代码（训练集的值就是数据集的全部）。同时删除了测试集数组，毕竟每次我们只需选择一个数据来面向全体训练集测试。

package machinelearning.knn;

import java.io.FileReader;
import java.util.Arrays;

import weka.core.*;

/**
 * kNN classification for leave-one-out measure to test.
 * 
 * @author Xingyi Zhang [email protected]
 */

public class knnClassificationForLeaveOneOut {

	/**
	 * Manhattan distance.
	 */
	public static final int MANHATTAN = 0;

	/**
	 * Euclidean distance.
	 */
	public static final int EUCLIDEAN = 1;

	/**
	 * The distance measure.
	 */
	public int distanceMeasure = EUCLIDEAN;

	/**
	 * The number of neighbors.
	 */
	int numNeighbors = 7;

	/**
	 * The whole dataset.
	 */
	Instances dataset;

	/**
	 * The training set. Represented by the indices of the data.
	 */
	int[] trainingSet;

	/**
	 * The predictions.
	 */
	int[] predictions;

	/**
	 *********************
	 * The first constructor.
	 * 
	 * @param paraFilename The arff filename.
	 *********************
	 */
	public knnClassificationForLeaveOneOut(String paraFilename) {
		try {
			FileReader fileReader = new FileReader(paraFilename);
			dataset = new Instances(fileReader);
			// The last attribute is the decision class.
			dataset.setClassIndex(dataset.numAttributes() - 1);
			fileReader.close();
		} catch (Exception ee) {
			System.out.println("Error occurred while trying to read \'" + paraFilename
					+ "\' in KnnClassification constructor.\r\n" + ee);
			System.exit(0);
		} // Of try
	}// Of the first constructor

	/**
	 *********************
	 * Obtain trainingSet from dataset.
	 *********************
	 */
	public void setTrainingSet() {
		int tempSize = dataset.numInstances();

		trainingSet = new int[tempSize];
		for (int i = 0; i < tempSize; i++) {
			trainingSet[i] = i;
		} // Of for i
	}// Of setTrainingSet

	/**
	 *********************
	 * Predict for the whole testing set. The results are stored in predictions.
	 * #see predictions.
	 *********************
	 */
	public void predict() {
		predictions = new int[dataset.numInstances()];
		for (int i = 0; i < dataset.numInstances(); i++) {
			System.out.print("Try to predict " + i + " row of data: ");
			predictions[i] = predict(i);
			System.out.println("Prediction class is " + predictions[i]);
		} // Of for i
	}// Of predict

	/**
	 *********************
	 * Predict for given instance.
	 * 
	 * @return The prediction.
	 *********************
	 */
	public int predict(int paraIndex) {
		int[] tempNeighbors = computeNearests(paraIndex);
		int resultPrediction = simpleVoting(tempNeighbors);

		return resultPrediction;
	}// Of predict

	/**
	 *********************
	 * The distance between two instances.
	 * 
	 * @param paraI The index of the first instance.
	 * @param paraJ The index of the second instance.
	 * @return The distance.
	 *********************
	 */
	public double distance(int paraI, int paraJ) {
		double resultDistance = 0;
		double tempDifference;
		switch (distanceMeasure) {
		case MANHATTAN:
			for (int i = 0; i < dataset.numAttributes() - 1; i++) {
				tempDifference = dataset.instance(paraI).value(i) - dataset.instance(paraJ).value(i);
				if (tempDifference < 0) {
					resultDistance -= tempDifference;
				} else {
					resultDistance += tempDifference;
				} // Of if
			} // Of for i
			break;

		case EUCLIDEAN:
			for (int i = 0; i < dataset.numAttributes() - 1; i++) {
				tempDifference = dataset.instance(paraI).value(i) - dataset.instance(paraJ).value(i);
				resultDistance += tempDifference * tempDifference;
			} // Of for i
			break;
		default:
			System.out.println("Unsupported distance measure: " + distanceMeasure);
		}// Of switch

		return resultDistance;
	}// Of distance

	/**
	 *********************
	 * Get the accuracy of the classifier.
	 * 
	 * @return The accuracy.
	 *********************
	 */
	public double getAccuracy() {
		// A double divides an int gets another double.
		double tempCorrect = 0;
		for (int i = 0; i < predictions.length; i++) {
			if (predictions[i] == dataset.instance(i).classValue()) {
				tempCorrect++;
			} // Of if
		} // Of for i

		return tempCorrect / predictions.length;
	}// Of getAccuracy

	/**
	 ************************************
	 * Compute the nearest k neighbors. Select one neighbor in each scan. In fact we
	 * can scan only once. You may implement it by yourself.
	 * 
	 * @param paraCurrent current instance. We are comparing it with all others.
	 * @return the indices of the nearest instances.
	 ************************************
	 */
	public int[] computeNearests(int paraCurrent) {
		int[] resultNearests = new int[numNeighbors];
		boolean[] tempSelected = new boolean[trainingSet.length];
		double tempMinimalDistance;
		int tempMinimalIndex = 0;
		tempSelected[paraCurrent] = true;

		// Compute all distances to avoid redundant computation.
		double[] tempDistances = new double[trainingSet.length];
		for (int i = 0; i < trainingSet.length; i++) {
			tempDistances[i] = distance(paraCurrent, trainingSet[i]);
		} // Of for i

		// Select the nearest paraK indices.
		for (int i = 0; i < numNeighbors; i++) {
			tempMinimalDistance = Double.MAX_VALUE;

			for (int j = 0; j < trainingSet.length; j++) {
				if (tempSelected[j]) {
					continue;
				} // Of if

				if (tempDistances[j] < tempMinimalDistance) {
					tempMinimalDistance = tempDistances[j];
					tempMinimalIndex = j;
				} // Of if
			} // Of for j

			resultNearests[i] = trainingSet[tempMinimalIndex];
			tempSelected[tempMinimalIndex] = true;
		} // Of for i

//		System.out.println("The nearest of " + paraCurrent + " are: " + Arrays.toString(resultNearests));
		return resultNearests;
	}// Of computeNearests

	/**
	 ************************************
	 * Voting using the instances.
	 * 
	 * @param paraNeighbors The indices of the neighbors.
	 * @return The predicted label.
	 ************************************
	 */
	public int simpleVoting(int[] paraNeighbors) {
		int[] tempVotes = new int[dataset.numClasses()];
		for (int i = 0; i < paraNeighbors.length; i++) {
			tempVotes[(int) dataset.instance(paraNeighbors[i]).classValue()]++;
		} // Of for i

		int tempMaximalVotingIndex = 0;
		int tempMaximalVoting = 0;
		for (int i = 0; i < dataset.numClasses(); i++) {
			if (tempVotes[i] > tempMaximalVoting) {
				tempMaximalVoting = tempVotes[i];
				tempMaximalVotingIndex = i;
			} // Of if
		} // Of for i

		return tempMaximalVotingIndex;
	}// Of simpleVoting

	/**
	 ************************************
	 * Set numNeighbors.
	 * 
	 * @param setNumNeighors The num of Neighbors.
	 ************************************
	 */
	public void setNumNeighors(int paraNeighbors) {
		numNeighbors = paraNeighbors;
		return;
	}// Of setNumNeighors

	/**
	 *********************
	 * Set the distance measure
	 * 
	 * @param paraDistanceMeasure The class of distance measure 0 symbolize
	 *                            MANHATTAN 1 symbolize EUCLIDEAN
	 *********************
	 */
	public void setDistanceMeasure(int paraDistanceMeasure) {
		distanceMeasure = paraDistanceMeasure;
		return;
	}// Of setDistanceMeasure

	/**
	 *********************
	 * Voting the closest neighbor.
	 * 
	 * @param paraCurrent   current instance. We are comparing it with all others.
	 * @param paraNeighbors The indices of the neighbors.
	 * @return The predicted label.
	 *********************
	 */
	public int weightedVoting(int paraCurrent, int[] paraNeighbors) {
		int tempMinIndex = -1;
		double tempMinValue = Double.MAX_VALUE;
		double tempDistance;

		for (int i = 0; i < paraNeighbors.length; i++) {
			tempDistance = distance(paraCurrent, paraNeighbors[i]);
			if (tempDistance < tempMinValue) {
				tempMinIndex = i;
				tempMinValue = tempDistance;
			} // Of if
		} // Of for i

		return (int) dataset.instance(paraNeighbors[tempMinIndex]).classValue();
	}// Of weightedVoting

	/**
	 *********************
	 * The entrance of the program.
	 * 
	 * @param args Not used now.
	 *********************
	 */
	public static void main(String args[]) {
		knnClassificationForLeaveOneOut tempClassifier = new knnClassificationForLeaveOneOut(
				"D:/Java DataSet/iris.arff");
		tempClassifier.setTrainingSet();
		tempClassifier.predict();
		System.out.println("The accuracy of the classifier is: " + tempClassifier.getAccuracy());
	}// Of main

}// Of class KnnClassification

输出演示：

因为不再随机性的分割训练集与测试集，总的识别率稳定在 96.67%，上述的图中大部分的测试样例的类别是正确的（基本呈现0、1、2的递增，除开个别数据有些不老实地误判）

这个识别率相比原kNN的测试方案的部分案例要高，但是因为原kNN的测试样例是随机，存在某些时候，若数据选择适当后，识别率还是会高于leave-one-out的情况，但是显然，leave-one-out更公平。

此测试案例的复杂度显然为$O(kN^2)$，当然依旧可以同理地堆优化，同时因为循环存在重叠，因此还可以采用哈希表来存储冗余数据避免计算，这里就不再给出代码了。

你可能感兴趣的:(Java机器学习笔记,机器学习,人工智能,java)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Java 重写(Override)与重载(Overload) 叨唧唧的
Java重写(Override)与重载(Overload)重写(Override)重写是子类对父类的允许访问的方法的实现过程进行重新编写,返回值和形参都不能改变。即外壳不变，核心重写！重写的好处在于子类可以根据需要，定义特定于自己的行为。也就是说子类能够根据需要实现父类的方法。重写方法不能抛出新的检查异常或者比被重写方法申明更加宽泛的异常。例如：父类的一个方法申明了一个检查异常IOExceptio
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
1分钟解决 -bash: mvn: command not found，在Centos 7中安装Maven Energet!c 开发语言
1分钟解决-bash:mvn:commandnotfound，在Centos7中安装Maven检查Java环境1下载Maven2解压Maven3配置环境变量4验证安装5常见问题与注意事项6总结检查Java环境Maven依赖Java环境，请确保系统已经安装了Java并配置了环境变量。可以通过以下命令检查：java-version如果未安装，请先安装Java。1下载Maven从官网下载：前往Apach
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
Java企业面试题3 马龙强_ java
1.break和continue的作用(智*图)break：用于完全退出一个循环（如for,while）或一个switch语句。当在循环体内遇到break语句时，程序会立即跳出当前循环体，继续执行循环之后的代码。continue：用于跳过当前循环体中剩余的部分，并开始下一次循环。如果是在for循环中使用continue，则会直接进行条件判断以决定是否执行下一轮循环。2.if分支语句和switch分
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
白骑士的Java教学基础篇 2.5 控制流语句白骑士所长 Java 教学 java 开发语言
欢迎继续学习Java编程的基础篇！在前面的章节中，我们了解了Java的变量、数据类型和运算符。接下来，我们将探讨Java中的控制流语句。控制流语句用于控制程序的执行顺序，使我们能够根据特定条件执行不同的代码块，或重复执行某段代码。这是编写复杂程序的基础。通过学习这一节内容，你将掌握如何使用条件语句和循环语句来编写更加灵活和高效的代码。条件语句条件语句用于根据条件的真假来执行不同的代码块。if语句‘
python语法——三目运算符 HappyRocking python python 三目运算符
在java中，有三目运算符，如：intc=(a>b)?a:b表示c取两者中的较大值。但是在python，不能直接这样使用，估计是因为冒号在python有分行的关键作用。那么在python中，如何实现类似功能呢？可以使用ifelse语句，也是一行可以完成，格式为：aifbelsec表示如果b为True，则表达式等于a，否则等于c。如：c=(aif(a>b)elseb)同样是完成了取最大值的功能。
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
python怎么将png转为tif_png转tif weixin_39977276
发国外的文章要求图片是tif，cmyk色彩空间的。大小尺寸还有要求。比如网上大神多，找到了一段代码，感谢！https://www.jianshu.com/p/ec2af4311f56https://github.com/KevinZc007/image2Tifimportjava.awt.image.BufferedImage;importjava.io.File;importjava.io.Fi
JavaScript 中，深拷贝（Deep Copy）和浅拷贝（Shallow Copy）跳房子的前端前端面试 javascript 开发语言 ecmascript
在JavaScript中，深拷贝（DeepCopy）和浅拷贝（ShallowCopy）是用于复制对象或数组的两种不同方法。了解它们的区别和应用场景对于避免潜在的bugs和高效地处理数据非常重要。以下是对深拷贝和浅拷贝的详细解释，包括它们的概念、用途、优缺点以及实现方式。1.浅拷贝（ShallowCopy）概念定义：浅拷贝是指创建一个新的对象或数组，其中包含了原对象或数组的基本数据类型的值和对引用数
JAVA·一个简单的登录窗口 MortalTom java 开发语言学习
文章目录概要整体架构流程技术名词解释技术细节资源概要JavaSwing是Java基础类库的一部分，主要用于开发图形用户界面（GUI）程序整体架构流程新建项目，导入sql.jar包（链接放在了文末），编译项目并运行技术名词解释一、特点丰富的组件提供了多种可视化组件，如按钮（JButton）、文本框（JTextField）、标签（JLabel）、下拉列表（JComboBox）等，可以满足不同的界面设计
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在

基于 Java 机器学习自学笔记 （第51-53天：kNN）

一、关于数据集及其导入

· 导入这些文档库的一些基本Java操作整理

二、KNN的特性

三、代码实现细节

1. 变量准备

2. 文件读入与构造随机数组

3. 数据分割

4. (核心代码)寻找K个邻居与投票

5. 预测的代码外壳以及准确度计算

四、数据测试

五、一些可能的想法和优化（5.3补改）

1.维护大小为k的堆的优化思路

2.维护大小为N的堆的优化思路（5.3日补）

· 第52天内容(补)

1.增加 setNumNeighors() 方法

2.重新实现 computeNearests

3.增加 setDistanceMeasure() 方法

· 第53天内容(补)

1.增加 weightedVoting() 方法

2.实现 leave-one-out 测试

你可能感兴趣的:(Java机器学习笔记,机器学习,人工智能,java)

基于 Java 机器学习自学笔记（第51-53天：kNN）