Applied Sciences

KNN算法与Kd树（转载+代码详细解释）

最近邻法和k-近邻法
　　下面图片中只有三种豆，有三个豆是未知的种类，如何判定他们的种类？

提供一种思路，即：未知的豆离哪种豆最近就认为未知豆和该豆是同一种类。由此，我们引出最近邻算法的定义：为了判定未知样本的类别，以全部训练样本作为代表点，计算未知样本与所有训练样本的距离，并以最近邻者的类别作为决策未知样本类别的唯一依据。但是，最近邻算法明显是存在缺陷的，比如下面的例子：有一个未知形状(图中绿色的圆点)，如何判断它是什么形状？
　　

显然，最近邻算法的缺陷——对噪声数据过于敏感，为了解决这个问题，我们可以可以把未知样本周边的多个最近样本计算在内，扩大参与决策的样本量，以避免个别数据直接决定决策结果。由此，我们引进K-最近邻算法。K-最近邻算法是最近邻算法的一个延伸。
　　
基本思路是：
　　选择未知样本一定范围内确定个数的K个样本，该K个样本大多数属于某一类型，则未知样本判定为该类型。如何选择一个最佳的K值取决于数据。一般情况下，在分类时较大的K值能够减小噪声的影响，但会使类别之间的界限变得模糊。待测样本（绿色圆圈）既可能分到红色三角形类，也可能分到蓝色正方形类。如果k取3，从图可见，待测样本的3个邻居在实线的内圆里，按多数投票结果，它属于红色三角形类。但是如果k取5，那么待测样本的最邻近的5个样本在虚线的圆里，按表决法，它又属于蓝色正方形类。在实际应用中，K先取一个比较小的数值，再采用交叉验证法来逐步调整K值，最终选择适合该样本的最优的K值。

KNN算法实现　
算法基本步骤：

1）计算待分类点与已知类别的点之间的距离

2）按照距离递增次序排序

3）选取与待分类点距离最小的k个点

4）确定前k个点所在类别的出现次数

5）返回前k个点出现次数最高的类别作为待分类点的预测分类

下面是一个按照算法基本步骤用python实现的简单例子，根据已分类的4个样本点来预测未知点(图中的灰点)的分类：
　　

KNN.py代码如下：

#-*- encoding:utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
from numpy import *  
# create a dataset which contains 4 samples with 2 classes  



#
# 算法基本步骤（☆☆☆☆☆☆☆☆）：
# 1）计算待分类点与已知类别的点之间的距离
# 2）按照距离递增次序排序
# 3）选取与待分类点（这个也就是测试集）距离最小的k个点
# 4）确定前k个点所在各自类别的出现次数
# 5）返回前k个点出现次数最高的类别作为待分类点的预测分类
def createDataSet():  
    # create a matrix: each row as a sample  
    group = array([[1.0, 0.9], [1.0, 1.0], [0.1, 0.2], [0.0, 0.1]])  
    labels = ['A', 'A', 'B', 'B'] # 这里是在给训练集打标签  
    return group, labels
# classify using kNN (k Nearest Neighbors )  
# Input:      newInput: 1 x N
#             dataSet:  M x N (M samples N, features)
#             labels:   1 x M   
#             k: number of neighbors to use for comparison  
# Output:     the most popular class label   


def kNNClassify(newInput, dataSet, labels, k):  
    #labels是个列表
    print "dataSet=",dataSet#dataSet这里就是训练集

    print"newInput=",newInput#newInput这里就是测试集（这里比较特殊，只有一个数据）
    numSamples = dataSet.shape[0] # shape[0]用来读取矩阵第一维的长度
    print"dataSet.shape[0]=",dataSet.shape[0] 



    ## step 1: calculate Euclidean distance （欧氏距离） 
    # tile(A, reps): Construct an array by repeating A reps times  
    # the following copy numSamples rows for dataSet  
    diff = tile(newInput, (numSamples, 1)) - dataSet # Subtract element-wise  
    squaredDiff = diff ** 2 # 测试数据与训练集中的每个点的差值的平方，这些平方组成的一个数组  
    print"-"*50
    print"squareDiff=",squaredDiff
    print"-"*50
    squaredDist = sum(squaredDiff, axis = 1) # 将矩阵的每一行向量相加，也即是说x^2+y^2
    print"squaredDist=",squaredDist
    distance = squaredDist ** 0.5 #这里是在计算平方根 
    print"distance=",distance

  
    ## step 2: sort the distance  
    # argsort() returns the indices that would sort an array in a ascending order  
    sortedDistIndices = argsort(distance)
    print"sortedDistIndices=",sortedDistIndices#根据被测点与测试集中各个点的距离的不同进行排序。

###################################################################  
  
    classCount = {} # define a dictionary (can be append element)  
    for i in xrange(k):  #这里应该是取得前面k个距离最近的点。
        ## step 3: choose the min k distance  
        voteLabel = labels[sortedDistIndices[i]] #遍历sortedDistIndices的前面k个点，然后获取这k个点的分类标签
        print"voteLabel=",voteLabel 
  
        ## step 4: count the times labels occur  
        # when the key voteLabel is not in dictionary classCount, get()  
        # will return 0  
        classCount[voteLabel] = classCount.get(voteLabel, 0) + 1  #对k个数据中，具备各种抱歉的数据进行统计，然后写入
        #上面这句话中get(voteLabel, 0)中之所以有个0的原因是：如果指定键的值不在字典中返回指定值0，
        #如果存在，那么就当前的键值+1
    ## step 5: the max voted class will return  
    maxCount = 0  
    for key, value in classCount.items():  
        if value > maxCount:  
            maxCount = value
            maxIndex = key  
              
  
    return maxIndex#这个返回的就是最大类别。最后其实就是k个最近的点中，哪个类别多，那么就被判别为哪一类。（少数服从多数）   
    
if __name__== "__main__":    
    dataSet, labels = createDataSet()  

###############第1例测试
    testX = array([1.2, 1.0])#查找点（1.2,1.0）待会儿查下这个预测准确吗？
    k = 3  
    outputLabel = kNNClassify(testX, dataSet, labels, 3)  
    print "Your input is:", testX, "and classified to class: ", outputLabel  
 ###############第2例测试    
    testX = array([0.1, 0.3])#查找点（0.1,0.3）  
    outputLabel = kNNClassify(testX, dataSet, labels, 3)  
    print "Your input is:", testX, "and classified to class: ", outputLabel

结果如下：
Your input is: [ 1.2 1. ] and classified to class: A
Your input is: [ 0.1 0.3] and classified to class: B

OpenCV中也提供了机器学习的相关算法，其中KNN算法的最基本例子opencv_KNN.py如下：

#-*- encoding:utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import numpy as np
import matplotlib.pyplot as plt
import cv2
# Feature set containing (x,y) values of 25 known/training data
trainData = np.random.randint(0,100,(25,2)).astype(np.float32)
# Labels each one either Red or Blue with numbers 0 and 1
responses = np.random.randint(0,2,(25,1)).astype(np.float32)
# Take Red families and plot them
red = trainData[responses.ravel()==0]
plt.scatter(red[:,0],red[:,1],80,'r','^')
# Take Blue families and plot them
blue = trainData[responses.ravel()python==1]
plt.scatter(blue[:,0],blue[:,1],80,'b','s')
# Testing data
newcomer = np.random.randint(0,100,(1,2)).astype(np.float32)
plt.scatter(newcomer[:,0],newcomer[:,1],80,'g','o')

knn = cv2.KNearest()
knn.train(trainData,responses) # Trains the model
# Finds the neighbors and predicts responses for input vectors.
ret, results, neighbours ,dist = knn.find_nearest(newcomer, 3)
print "result: ", results,"\n"print "neighbours: ", neighbours,"\n"print "distance: ", dist
plt.show()

result: [[ 0.]]
neighbours: [[ 0. 0. 0.]]
distance: [[ 65. 145. 178.]]

可以看到KNN算法将未知点分到第0组（红色三角形组），从上图中也可看出3个距离未知点最近的样本都属于第0组，因此算法返回分类标签也为0。

KNN算法的缺陷
　　观察下面的例子，我们看到对于样本X，通过KNN算法，我们显然可以得到X应属于红点，但对于样本Y，通过KNN算法我们似乎得到了Y应属于蓝点的结论，而这个结论直观来看并没有说服力。

由上面的例子可见：该算法在分类时有个重要的不足是，当样本不平衡时，即：一个类的样本容量很大，而其他类样本数量很小时，很有可能导致当输入一个未知样本时，该样本的K个邻居中大数量类的样本占多数。但是这类样本并不接近目标样本，而数量小的这类样本很靠近目标样本。这个时候，我们有理由认为该位置样本属于数量小的样本所属的一类，但是，KNN却不关心这个问题，它只关心哪类样本的数量最多，而不去把距离远近考虑在内，因此，我们可以采用权值的方法来改进。和该样本距离小的邻居权值大，和该样本距离大的邻居权值则相对较小，由此，将距离远近的因素也考虑在内，避免因一个样本过大导致误判的情况。

从算法实现的过程可以发现，该算法存两个严重的问题，第一个是需要存储全部的训练样本，第二个是计算量较大，因为对每一个待分类的样本都要计算它到全体已知样本的距离，才能求得它的K个最近邻点。KNN算法的改进方法之一是分组快速搜索近邻法。其基本思想是：将样本集按近邻关系分解成组，给出每组质心的位置，以质心作为代表点，和未知样本计算距离，选出距离最近的一个或若干个组，再在组的范围内应用一般的KNN算法。由于并不是将未知样本与所有样本计算距离，故该改进算法可以减少计算量，但并不能减少存储量。

KD树
　　实现k近邻法时，主要考虑的问题是如何对训练数据进行快速k近邻搜索。这在特征空间的维数大及训练数据容量大时尤其必要。k近邻法最简单的实现是线性扫描（穷举搜索），即要计算输入实例与每一个训练实例的距离。计算并存储好以后，再查找K近邻。当训练集很大时，计算非常耗时。为了提高kNN搜索的效率，可以考虑使用特殊的结构存储训练数据，以减小计算距离的次数。

kd树(K-dimension tree)是一种对k维空间中的实例点进行存储以便对其进行快速检索的树形数据结构。kd树是是一种二叉树，表示对k维空间的一个划分，构造kd树相当于不断地用垂直于坐标轴的超平面将K维空间切分，构成一系列的K维超矩形区域。kd树的每个结点对应于一个k维超矩形区域。利用kd树可以省去对大部分数据点的搜索，从而减少搜索的计算量。
　　

对一个三维空间，kd树按照一定的划分规则把这个三维空间划分了多个空间，如下图所示
　　

类比“二分查找”：给出一组数据：[9 1 4 7 2 5 0 3 8]，要查找8。
　　如果挨个查找（线性扫描），那么将会把数据集都遍历一遍。而如果排一下序那数据集就变成了：[0 1 2 3 4 5 6 7 8 9]，按前一种方式我们进行了很多没有必要的查找，现在如果我们以5为分界点，那么数据集就被划分为了左右两个“簇” [0 1 2 3 4]和[6 7 8 9]。
　　因此，根本久没有必要进入第一个簇，可以直接进入第二个簇进行查找。把二分查找中的数据点换成k维数据点，这样的划分就变成了用超平面对k维空间的划分。空间划分就是对数据点进行分类，“挨得近”的数据点就在一个空间里面。

构造kd树的方法如下：
　　构造根结点，使根结点对应于K维空间中包含所有实例点的超矩形区域；通过下面的递归的方法，不断地对k维空间进行切分，生成子结点。在超矩形区域上选择一个坐标轴和在此坐标轴上的一个切分点，确定一个超平面，这个超平面通过选定的切分点并垂直于选定的坐标轴，将当前超矩形区域切分为左右两个子区域（子结点）；这时，实例被分到两个子区域，这个过程直到子区域内没有实例时终止（终止时的结点为叶结点）。在此过程中，将实例保存在相应的结点上。通常，循环的择坐标轴对空间切分，选择训练实例点在坐标轴上的中位数为切分点，这样得到的kd树是平衡的（平衡二叉树：它是一棵空树，或其左子树和右子树的深度之差的绝对值不超过1，且它的左子树和右子树都是平衡二叉树）。

KD树中每个节点是一个向量，和二叉树按照数的大小划分不同的是，KD树每层需要选定向量中的某一维，然后根据这一维按左小右大的方式划分数据。在构建KD树时，关键需要解决2个问题：
　　（1）选择向量的哪一维进行划分；
　　（2）如何划分数据。第一个问题简单的解决方法可以是选择随机选择某一维或按顺序选择，但是更好的方法应该是在数据比较分散的那一维进行划分（分散的程度可以根据方差来衡量）。好的划分方法可以使构建的树比较平衡，可以每次选择中位数来进行划分，这样问题2也得到了解决。

构造平衡kd树算法：
输入：kk维空间数据集 $T=\{x_1,x_2,...,x_N\}$ ，其中 $x_i=(x_i^{(1)},x_i^{(2)},...,x_i^{(k)}),i=1,2,...,N;$
输出：kd树

（1）开始：构造根结点，根结点对应于包含 $T$ 的 $k$ 维空间的超矩形区域。选择 $x^{(1)}$ 为坐标轴，以T中所有实例的 $x^{(1)}$ 坐标的中位数为切分点，将根结点对应的超矩形区域切分为两个子区域。切分由通过切分点并与坐标轴 $x^{(1)}$ 垂直的超平面实现。由根结点生成深度为1的左、右子结点：左子结点对应坐标 $x^{(1)}$ 小于切分点的子区域，右子结点对应于坐标 $x^{(1)}$ 大于切分点的子区域。将落在切分超平面上的实例点保存在根结点。

（2）重复。对深度为j的结点，选择 $x^{(l)}$ 为切分的坐标轴， $l=j\%k+1$ ，以该结点的区域中所有实例的 $x^{(l)}$ 坐标的中位数为切分点，将该结点对应的超矩形区域切分为两个子区域。切分由通过切分点并与坐标轴 $x^{(l)}$ 垂直的超平面实现。由该结点生成深度为j+1的左、右子结点：左子结点对应坐标 $x^{(l)}$ 小于切分点的子区域，右子结点对应坐标 $x^{(l)}$ 大于切分点的子区域。将落在切分超平面上的实例点保存在该结点。

下面用一个简单的2维平面上的例子来进行说明。

例. 给定一个二维空间数据集： $T=\{(2,3),(5,4),(9,6),(4,7),(8,1),(7,2)\}$ ，构造一个平衡kd树。

解：
　　根结点对应包含数据集T的矩形，选择 $x^{(1)}$ 轴，6个数据点的 $x^{(1)}$ 坐标中位数是6，这里选最接近的(7,2)点，以平面 $x^{(1)}$ =7将空间分为左、右两个子矩形（子结点）；
　　接着左矩形以 $x^{(2)}$ =4分为两个子矩形（左矩形中{(2,3),(5,4),(4,7)}点的 $x^{(2)}$ 坐标中位数正好为4），右矩形以 $x^{(2)}$ =6分为两个子矩形，如此递归，最后得到如下图所示的特征空间划分和kd树。

下面的代码用递归的方式构建了kd树，通过前序遍历可以进行验证。这里只是简单地采用坐标轮换方式选取分割轴，为了更高效的分割空间，也可以计算所有数据点在每个维度上的数值的方差，然后选择方差最大的维度作为当前节点的划分维度。方差越大，说明这个维度上的数据越不集中（稀疏、分散），也就说明了它们就越不可能属于同一个空间，因此需要在这个维度上进行划分。

KdTree.py

# -*- coding: utf-8 -*-
#from operator import itemgetter
import sys
reload(sys)
sys.setdefaultencoding('utf8')


# kd-tree每个结点中主要包含的数据结构如下 
class KdNode(object):
    def __init__(self, dom_elt, split, left, right):
        self.dom_elt = dom_elt  # k维向量节点(k维空间中的一个样本点)
        self.split = split      # 整数（进行分割维度的序号），奇数层根据x来比较，偶数层根据y来比较
        #这里所谓的分割维度其实就是指根据当前根节点的第几个坐标的值来进行比大小。

        self.left = left        # 该结点分割超平面左子空间构成的kd-tree
        self.right = right      # 该结点分割超平面右子空间构成的kd-tree

class KdTree(object):
    def __init__(self, data):
        k = len(data[0])  # 数据维度，这里其实就是2
        
        def CreateNode(split, data_set): # 按第split维划分数据集exset创建KdNode
        #这里所谓的split维度，讲人话就是(x,y)的第几个坐标，二维的话，split的值分别是0和1



            if not data_set:    # 数据集为空
                return None
            # key参数的值为一个函数，此函数只有一个参数且返回一个值用来进行比较
            # operator模块提供的itemgetter函数用于获取对象的哪些维的数据，参数为需要获取的数据在对象中的序号
            #data_set.sort(key=itemgetter(split)) # 按要进行分割的那一维数据排序
            data_set.sort(key=lambda x: x[split])#根据第split个坐标进行排序，然后选“中位数”作为下一级子二叉树的根节点
            print"data_set=",data_set
            print"*"*50
            split_pos = len(data_set) // 2      # //为Python中的整数除法
            print"split_pos=",split_pos
            median = data_set[split_pos]        # 中位数分割点    
            print"median=",median        
            split_next = (split + 1) % k        # cycle coordinates(循环坐标)
            #这里循环坐标的意思是，一开始split按照从左往右的方式继续拧比较，从第一个坐标开始比较
            #当split+1等于k的时候，split_next会重新恢复到0
            print"split_next=",split_next
            print"-"*50
            
            # 递归的创建kd树
            return KdNode(median, split, 
                          CreateNode(split_next, data_set[:split_pos]),     # 创建左子树
                          CreateNode(split_next, data_set[split_pos + 1:])) # 创建右子树
            #上买的代码中，一般split_next比split_pos大一，一轮循环结束后，那么会有split_next=0,split_pos在末尾坐标的情况。
        self.root = CreateNode(0, data)         # 从第0维分量开始构建kd树,返回根节点

#KdTree调用了KdNode

# KDTree的前序遍历
def preorder(root):  

    print root.dom_elt  
    if root.left:      # 节点不为空
        preorder(root.left)  
    if root.right:  
        preorder(root.right)  
      
      
if __name__ == "__main__":
    data = [[2,3],[5,4],[9,6],[4,7],[8,1],[7,2]]
    kd = KdTree(data)
    print"*"*100
    preorder(kd.root)

进行前序遍历（前序遍历首先访问根结点然后遍历左子树,最后遍历右子树）的结果如下，可见已经正确构建了kd树：

搜索kd树

利用kd树可以省去对大部分数据点的搜索，从而减少搜索的计算量。下面以搜索最近邻点为例加以叙述：给定一个目标点，搜索其最近邻，首先找到包含目标点的叶节点；然后从该叶结点出发，依次回退到父结点；不断查找与目标点最近邻的结点，当确定不可能存在更近的结点时终止。这样搜索就被限制在空间的局部区域上，效率大为提高。

用kd树的最近邻搜索：　　
输入：已构造的kd树；目标点xx；
输出：xx的最近邻。

（1）在kd树中找出包含目标点xx的叶结点：从根结点出发，递归的向下访问kd树。若目标点当前维的坐标值小于切分点的坐标值，则移动到左子结点，否则移动到右子结点。直到子结点为叶结点为止；

（2）以此叶结点为“当前最近点”；

（3）递归的向上回退，在每个结点进行以下操作：

（a）如果该结点保存的实例点比当前最近点距目标点更近，则以该实例点为“当前最近点”；

（b）当前最近点一定存在于该结点一个子结点对应的区域。检查该子结点的父结点的另一个子结点对应的区域是否有更近的点。具体的，检查另一个子结点对应的区域是否与以目标点为球心、以目标点与“当前最近点”间的距离为半径的超球体相交。如果相交，可能在另一个子结点对应的区域内存在距离目标更近的点，移动到另一个子结点。接着，递归的进行最近邻搜索。如果不相交，向上回退。

（4）当回退到根结点时，搜索结束。最后的“当前最近点”即为xx的最近邻点。

以先前构建好的kd树为例，查找目标点（3,4.5）的最近邻点。
　　同样先进行二叉查找，先从（7,2）查找到（5,4）节点，在进行查找时是由y = 4为分割超平面的，由于查找点为y值为4.5，因此进入右子空间查找到（4,7），形成搜索路径：（7,2）→（5,4）→（4,7），取（4,7）为当前最近邻点。
　　以目标查找点为圆心，目标查找点到当前最近点的距离2.69为半径确定一个红色的圆。
　　然后回溯到（5,4），计算其与查找点之间的距离为2.06，则该结点比当前最近点距目标点更近，以(5,4)为当前最近点。
　　用同样的方法再次确定一个绿色的圆，可见该圆和y = 4超平面相交，所以需要进入（5,4）结点的另一个子空间进行查找。（2,3）结点与目标点距离为1.8，比当前最近点要更近，所以最近邻点更新为（2，3），最近距离更新为1.8，同样可以确定一个蓝色的圆。
　　接着根据规则回退到根结点(7,2)，蓝色圆与x=7的超平面不相交，因此不用进入（7,2）的右子空间进行查找。至此，搜索路径回溯完，返回最近邻点（2,3），最近距离1.8。

如果实例点是随机分布的，kd树搜索的平均计算复杂度是 $O (l o g N)$ ，这里N是训练实例数。kd树更适用于训练实例数远大于空间维数时的k近邻搜索。当空间维数接近训练实例数时，它的效率会迅速下降，几乎接近线性扫描。

下面的代码KdTree_search.py对构建好的kd树进行搜索，寻找与目标点最近的样本点：

#-*- encoding:utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
from KdTree import *
#这个代码其实是采用kd tree实现的是1NN，不是KNN

from math import sqrt
from collections import namedtuple

# 定义一个namedtuple,分别存放最近坐标点、最近距离和访问过的节点数
result = namedtuple("Result_tuple", "nearest_point  nearest_dist  nodes_visited")#就是一个可以塞进去各种类型的元组
#然后括号里面的这四个其实是对象中的成员变量名（例如nearest_point）
#dist，max_dist,temp_dist

#这里面的nodes_visited只是起到一个统计的作用，没有其他的意义。



#下面算法描述来自：
#https://blog.csdn.net/liqiutuoyuan/article/details/77073689

# 回溯查找：
# 根据得到的搜索路径栈，栈顶的元素为‘当前最近点’，
# 将该元素出栈，并计算该点与x的距离d。对于当前栈顶的元素，
# 首先将元素出栈，以x为圆心，d为半径画圆，如果与该元素对应的分割超平面相交，
# 计算该元素和x的距离，如果小于d，则将该元素更新为‘当前最近点’，d也需要更新；
# 如果不相交，则继续对搜索路径的栈顶元素重复相同的操作。
# 同时对元素的另一半子空间对应的子树进行步骤2，搜索的点加入搜索路径。（这里对应于temp2）
# 直到搜索路径栈为空。
# 此时得到的‘当前最近点’即为x的最邻近点，d为最邻近距离。

#注意：理解算法的时候，要把BST的一个分支理解为一个栈

def find_nearest(tree, point):
    k = len(point) # 数据维度
    def travel(kd_node, target, max_dist):#这个的target就是测试数据

        if kd_node!=None:
            print "当前访问节点=",kd_node.dom_elt
        if kd_node is None:#这里是travel的递归结束处，当kd_node为空的时候，结束递归，同时，这里的结果会赋值给temp1和temp2
            return result([0] * k, float("inf"), 0) # python中用float("inf")和float("-inf")表示正负无穷
 
        nodes_visited = 1#访问节点数量统计，对于实现这个算法而言，没啥用。
        
        s = kd_node.split        # 进行分割的维度
        pivot = kd_node.dom_elt  # 这个应该是中位数，同时，pivot是个列表
        
        #注意，下面的比较是建立在kd树已经建立完成的基础上的。
        #经过比较来确定哪个节点离测试点target更近
        if target[s] <= pivot[s]:           # 如果目标点第s维小于分割轴的对应值(目标离左子树更近)
            nearer_node  = kd_node.left     # 下一个访问节点为左子树根节点
            further_node = kd_node.right    # 同时记录下右子树
        else:                               # 目标离右子树更近
            nearer_node  = kd_node.right    # 下一个访问节点为右子树根节点
            further_node = kd_node.left

        print"#########进入temp1##########"
        temp1 = travel(nearer_node, target, max_dist)  # 进行遍历找到包含目标点的区域，这里就是画一个圆了。
        print"##########离开temp1########"
        nearest = temp1.nearest_point       # 以此叶结点作为“当前最近点”
        #这里使用一个列表来保存一个坐标
        dist = temp1.nearest_dist           # 更新最近距离,这里的这个nearest_dist来自上面的namedtuple
        nodes_visited += temp1.nodes_visited
#####################以上是遍历到最下面的叶节#################################################################
        if dist < max_dist:     
            max_dist = dist    # 最近点将在以目标点为球心，max_dist为半径的超球体内
            #一点点缩小max_dist的上限
            
        temp_dist = abs(pivot[s] - target[s])    # 第s维上目标点与分割超平面的距离
        if  max_dist < temp_dist:                # 判断超球体是否与超平面相交
            return result(nearest, dist, nodes_visited) # 不相交则可以直接返回，不用继续判断
            #这里max_dist是球体半径，temp_dist是超平面

#判断球体与超平面是否相割的那个超平面就是根节点的切割维所在的平面。

#为什么这里一会儿是欧氏距离，一会儿又是仅仅计算某个维之间的差值呢（例如两个点之间的xi之间的差值）？
#这是因为欧式距离在整个算法中是用来修正球的半径的，而坐标系之差是用来判断是否相割的。

        #----------------------------------------------------------------------  
        # 计算目标点target与分割点pivot的欧氏距离  
        temp_dist = sqrt(sum((p1 - p2) ** 2 for p1, p2 in zip(pivot, target)))     
        
        if temp_dist < dist:         # 如果“更近”
            nearest = pivot          # 更新最近点
            dist = temp_dist         # 更新最近距离
            max_dist = dist          # 更新超球体半径
        
        # 检查另一个子结点对应的区域是否有更近的点
        print"☆☆☆☆☆☆☆☆进入temp2☆☆☆☆☆☆☆☆☆☆☆"
        temp2 = travel(further_node, target, max_dist) #
        print"☆☆☆☆☆☆☆☆离开temp2☆☆☆☆☆☆☆☆☆☆☆"
        
        nodes_visited += temp2.nodes_visited#访问节点数量统计，没什么用
        if temp2.nearest_dist < dist:        # 如果另一个子结点内存在更近距离
            nearest = temp2.nearest_point    # 更新最近点
            dist = temp2.nearest_dist        # 更新最近距离
 
        return result(nearest, dist, nodes_visited)
 
    return travel(tree.root, point, float("inf"))  # 从根节点开始递归


from time import clock
from random import random

# 产生一个k维随机向量，每维分量值在0~1之间
def random_point(k):
    return [random() for _ in range(k)]
 
# 产生n个k维随机向量 
def random_points(k, n):
    return [random_point(k) for _ in range(n)]       
      
if __name__ == "__main__":
#测试案例2
    data = [[2,3],[5,4],[9,6],[4,7],[8,1],[7,2]]  # samples
    kd = KdTree(data)#先建立一个kd树
    ret = find_nearest(kd, [3,4.5])#然后再在kd树中寻找离该点最近的点

#测试案例2
    # N = 40
    # t0 = clock()
    # kd2 = KdTree(random_points(3, N))            # 构建包含四十个3维空间样本点的kd树
    # ret2 = find_nearest(kd2, [0.1,0.5,0.8])      # 四十万个样本点中寻找离目标最近的点
    # t1 = clock()
    # print "time: ",t1-t0, "s"
    # print ret2

#可以参考以下链接来理解：
#http://www.cnblogs.com/eyeszjwang/articles/2429382.html

下面结合前面写的代码来进行一下测试：

from time import clock
from random import random

# 产生一个k维随机向量，每维分量值在0~1之间
def random_point(k):
    return [random() for _ in range(k)]
 
# 产生n个k维随机向量 
def random_points(k, n):
    return [random_point(k) for _ in range(n)]       
      
if __name__ == "__main__":
    data = [[2,3],[5,4],[9,6],[4,7],[8,1],[7,2]]  # samples
    
    kd = KdTree(data)
    
    ret = find_nearest(kd, [3,4.5])
    print ret

    N = 400000
    t0 = clock()
    kd2 = KdTree(random_points(3, N))            # 构建包含四十万个3维空间样本点的kd树
    ret2 = find_nearest(kd2, [0.1,0.5,0.8])      # 四十万个样本点中寻找离目标最近的点
    t1 = clock()
    print "time: ",t1-t0, "s"
    print ret2

结果如下图所示。先是测试了之前例子中距离(3,4.5)最近的点，可以看出正确返回了最近点(2,3)以及最近距离。然后随机生成了四十万个三维空间样本点，并构建kd树，然后搜索离(0.1,0.5,0.8)最近的样本点，并测试用时。为了进行对比我先是使用numpy算出全部四十万个距离后寻找最近点，结果耗时0.5s左右！！！怎么能这么快(⊙▽⊙)，然后不用numpy自己在python中计算全部距离，结果耗时2s左右，还是比自己写的KD树要快得多…

可能是这种使用递归方式创建和搜索的kd树本身效率就不是很高（知乎：为什么说递归效率低？）。而且深层递归一定要尽量避免，一是不安全，容易导致栈溢出；二是调用代价高（递归函数调用的代价）。可以考虑转换为循环结构。循环结构的kd树实现参考：KDTree example in scipy

参考：

Python手写数字识别-knn算法应用

机器学习算法与Python实践之（一）k近邻（KNN）

《统计学习方法》李航第3章 k近邻法

k-d树算法

Kd Tree算法原理和开源实现代码

KD-tree的原理以及构建与查询操作的python实现

从K近邻算法、距离度量谈到KD树、SIFT+BBF算法

KD树详解及KD树最近邻算法

KNN之KD树实现

http://rosettacode.org/wiki/K-d_tree

http://www.cnblogs.com/chuxiuhong/p/5982580.html

#############################################################################################

文章阅读总结：

kd树来实现KNN，
总的来说就是：
KNN利用Kd树来获取离目标点最近的k个测试点，
然后少数服从多数原则，这k个测试点中，哪一类的类别数目最多，
就认为被测试点符合该类别。

这篇文章分别讲了四个代码：
KNN.py 一般KNN算法的思想
opencv_KNN.py opencv中的KNN包的使用
KdTree.py 树的构建
KdTree_search.py 根据构建的树来寻找最近的点，并没有找最近的k个点

文章最后没有把“建立kd树-在kd树中查找最近的k个点-根据标签预测类别”整个流程串起来实现一遍，而是分开实现的。
也就是说，文章最后实现的是“最近邻”（1NN），而不是k近邻（KNN）

你可能感兴趣的:(机器学习算法)

机器学习数据预处理阶段为什么需要——归一化处理
参考：https://www.cnblogs.com/bjwu/p/8977141.html通常，在DataScience中，预处理数据有一个很关键的步骤就是数据的标准化。这里主要引用sklearn文档中的一些东西来说明，主要把各个标准化方法的应用场景以及优缺点总结概括，以来充当笔记。提升模型精度在机器学习算法的目标函数(例如SVM的RBF内核或线性模型的l1和l2正则化)，许多学习算法中目标函数
机器学习算法之回归算法福葫芦机器学习回归算法
一、回归算法思维导图二、算法概念、原理、应用场景和实例代码1、线性回归1.1、概念‌‌线性回归算法是一种统计分析方法，用于确定两种或两种以上变量之间的定量关系。‌线性回归算法通过建立线性方程来预测因变量（y）和一个或多个自变量（x）之间的关系。其基本形式为y=wx+e，其中w是权重，x是自变量，e是误差项。1.2、算法原理线性回归算法的核心在于找到最佳的拟合直线，使得预测值与实际值之间的误差最小。
7篇1章7节：机器学习算法解读，与数值预测回归模型构建 MD分析用R探索医药数据科学机器学习算法回归 r语言数据挖掘
机器学习是当今数据分析和人工智能的核心工具之一，其算法广泛应用于分类、回归、排序和推荐等领域。本篇将详细讲解机器学习的四大经典算法类型，并以回归问题为例深入探讨数值预测的关键步骤，包括数据准备、线性回归模型构建、模型预测及误差评估，帮助读者更系统地理解和掌握机器学习的基础知识及实际应用。一、机器学习的算法在数据科学和人工智能的浪潮中，机器学习算法成为了解决各种数据问题的关键工具。机器学习主要处理四
支持向量机SVM 李昊哲小课 sklearn 人工智能机器学习支持向量机算法机器学习 sklearn 人工智能数据挖掘
支持向量机SVM一、支持向量机算法支持向量机（SupportVectorMachine，SVM）是一种用于分类和回归分析的机器学习算法。分类场景举例（更容易理解）假设现在有一个二维平面上散落着一些点，这些点分为两类，一类是红色的圆形点，另一类是蓝色的方形点。我们的任务就是找到一条直线，能够把这两类点尽可能准确地分开。支持向量机算法做的事情就和这个类似。算法核心思想它不是随便找一条能分开两类数据的直
Python深度学习实践：LSTM与GRU在序列数据预测中的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：LSTM与GRU在序列数据预测中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来序列数据预测是机器学习领域的一个重要研究方向，涉及时间序列分析、自然语言处理、语音识别等多个领域。序列数据具有时间依赖性，即序列中每个元素都受到前面元素的影响。传统的机器学习算法难以捕捉这种时间依赖性，而深度学习
Java与机器学习的邂逅：Weka框架入门指南墨夶 Java学习资料1 java 机器学习数据挖掘
在这个数据驱动的时代，机器学习已经成为各行业创新和优化的关键技术。而Java，作为一门成熟且广泛应用的编程语言，在企业级应用开发中占据着重要地位。将二者结合起来，利用Java实现机器学习算法，不仅可以充分发挥其强大的生态系统优势，还能为开发者提供一个高效、稳定的开发环境。今天，我们将带您走进Java与机器学习的世界，探索如何使用Weka这一著名的机器学习库来开启您的智能之旅。Weka简介及其优势什
MATLAB 基于图像处理的杂草识别技术鱼弦 matlab 图像处理计算机视觉
MATLAB基于图像处理的杂草识别技术1.系统介绍杂草识别是精准农业中的重要环节，基于图像处理的杂草识别技术利用计算机视觉和机器学习算法，自动识别田间杂草，为精准施药提供决策支持。本系统基于MATLAB实现杂草图像处理，包括图像预处理、特征提取、分类识别等模块。2.应用场景精准农业:自动识别田间杂草，实现精准施药，减少农药使用量。生态监测:监测农田杂草种类和分布，评估生态环境。植物保护:识别有害杂
Python实现神经网络算法指南代码编织匠人 python 神经网络算法
Python实现神经网络算法指南神经网络是一种模拟人脑神经元结构进行信息处理的机器学习算法。在深度学习领域中，神经网络是最为强大的算法之一。Python作为一门简单易学的编程语言，也成为了许多人选择实现神经网络算法的首选语言。在本篇文章中，我们将通过Python代码来实现神经网络算法。导入必要的库为了实现神经网络算法，我们需要导入一些必要的Python库，包括numpy和matplotlib。其中
最新1区9+非肿瘤纯生信，逻辑清晰易懂，机器学习筛选关键基因的纯生信也可以发高水平期刊，抓紧上车！生信小课堂
影响因子：9.186关于非肿瘤生信，我们也解读过很多，主要有以下类型1单个疾病WGCNA+PPI分析筛选hub基因2单个疾病结合免疫浸润，热点基因集，机器学习算法等。3两种相关疾病联合分析，包括非肿瘤结合非肿瘤，非肿瘤结合肿瘤或者非肿瘤结合泛癌分析4基于分型的非肿瘤生信分析5单细胞结合普通转录组生信分析目前非肿瘤生信发文的门槛较低，欢迎大家！研究概述：本研究首先使用R语言在三个基因表达数据集中找到
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
Python自动化机器学习平台库之mindsdb使用详解
概要MindsDB是一个开源的自动化机器学习平台，它通过SQL接口简化了机器学习模型的创建、训练和预测过程。该库的核心理念是将机器学习功能直接集成到数据库中，让开发者无需深入了解复杂的机器学习算法，就能够快速构建和部署预测模型。MindsDB支持多种数据源连接，包括MySQL、PostgreSQL、MongoDB等主流数据库，同时提供了丰富的PythonAPI接口，使得数据科学家和开发者能够在熟悉
堡垒机操作行为异常检测的机器学习算法应用
一、传统检测模式的困境与机器学习的破局价值在数字化转型浪潮中，堡垒机作为运维安全的核心防线，面临着操作行为复杂度激增与检测能力滞后的双重挑战。传统检测手段主要依赖静态规则库与统计模型，存在三大致命缺陷：规则固化与误报泛滥：某金融机构曾因规则库未及时更新，导致运维人员正常批量操作被误判为“暴力破解”，单日误报量超2000次，消耗安全团队60%的精力。动态行为适应性弱：微服务架构下，运维人员访问路径呈
机器学习算法：核心原理与前沿发展综述 fmvrj34202 机器学习算法人工智能
机器学习算法作为人工智能的核心驱动力，正在重塑我们解决问题的范式。本文将系统性地探讨机器学习算法的分类体系、数学基础、优化方法以及最新发展趋势，为从业者提供技术参考。一、算法分类体系根据学习范式，机器学习算法可分为三大类：监督学习：基于标注数据的建模方法线性回归：最小化平方误差的闭式解θ=(XᵀX)⁻¹Xᵀy支持向量机：通过核技巧实现非线性分类，优化目标为max(0,1-yᵢ(w·xᵢ+b))决策
Python机器学习与深度学习：决策树、随机森林、XGBoost与LightGBM、迁移学习、循环神经网络、长短时记忆网络、时间卷积网络、自编码器、生成对抗网络、YOLO目标检测等 WangYan2022 机器学习/深度学习 Python 机器学习深度学习随机森林迁移学习
融合最新技术动态与实战经验，旨在系统提升以下能力：①掌握ChatGPT、DeepSeek等大语言模型在代码生成、模型调试、实验设计、论文撰写等方面的实际应用技巧②深入理解深度学习与经典机器学习算法的关联与差异，掌握其理论基础③熟练运用PyTorch实现各类深度学习模型，包括迁移学习、循环神经网络（RNN）、长短时记忆网络（LSTM）、时间卷积网络（TCN）、自编码器、生成对抗网络（GAN）、YOL
Python设置国内镜像教程 wh3933 python 开发语言
####引言Python是一种广泛使用的高级编程语言，用于各种编程任务，从简单的脚本到复杂的机器学习算法。在安装Python包时，通常需要从Python包索引（PyPI）下载。由于网络原因，直接从PyPI下载可能速度较慢，因此，使用国内的镜像源可以显著提高下载速度。本文将详细介绍如何在Python中设置国内镜像。####文章目的本篇文章旨在指导用户如何将Python的包管理工具`pip`的默认源切
Python与Dlib库实现人脸技术实战西域情歌
本文还有配套的精品资源，点击获取简介：本项目详细说明了如何使用Python结合Dlib库实现人脸检测、识别、数量检测和距离检测。利用Dlib提供的机器学习算法和计算机视觉功能，包括HOG特征检测、级联分类器、面部特征向量模型和关键点预测等，项目能够快速准确地在图像中检测和识别人脸。此外，还介绍了如何统计图像中的人脸数量以及如何计算人脸之间的距离。通过实际代码资源，开发者能够掌握实时人脸技术的应用，
机器学习算法_支持向量机
一、支持向量机支持向量机只能做二分类任务SVM全称支持向量机，即寻找到一个超平面使样本分成两类，且间隔最大硬间隔：如果样本线性可分，在所有样本分类都正确的情况下，寻找最大间隔；如果出现异常值或样本线性不可分，此时硬间隔无法实现软间隔：允许部分样本，在最大间隔之内，甚至在错误的一边，寻找最大间隔；目标是尽可能保持间隔宽阔和限制间隔违例之间寻找良好的平衡惩罚系数：通过惩罚系数来控制这个平衡，C值越小，
机器学习在智能金融风险评估中的应用：信用评分与欺诈检测 Blossom.118 机器学习与人工智能机器人机器学习人工智能 python 深度学习 sklearn 计算机视觉
在金融行业，风险评估是确保金融机构稳健运营的关键环节。随着大数据和机器学习技术的快速发展，金融机构开始探索如何利用机器学习算法来提高风险评估的准确性和效率。本文将探讨机器学习在智能金融风险评估中的应用，特别是信用评分和欺诈检测方面的最新进展，并分析其带来的机遇和挑战。一、智能金融风险评估中的信用评分（一）传统信用评分方法的局限性传统的信用评分主要依赖于人工规则和简单的统计模型，如逻辑回归。这些方法
面了字节跳动的数据挖掘岗，感觉真的很难。。。大模型爱好者社区机器学习深度学习面试宝典数据挖掘人工智能数据分析算法面试
节前，我们社群组织了一场技术&面试讨论会，邀请了一些互联网大厂同学、参加社招和校招面试的同学，针对新手如何入门机器学习算法、该如何备战、面试常考点分享等热门话题进行了深入的讨论。基于社群的讨论，今天我整理了一个同学的面试题，分享给大家，希望对后续找工作的有所帮助。喜欢记得点赞、收藏、关注。更多技术交流&面经学习，可以文末加入我们交流群。一面40min【编程题】有两种数据，分别是被转发的用户和转发的
【学习】《算法图解》第十二章学习笔记：K近邻算法程序员
前言《算法图解》第十二章介绍了一种简单而强大的机器学习算法——K近邻算法（K-NearestNeighbors，简称KNN）。这是一种基于实例的学习方法，也是机器学习领域中最基础、最直观的算法之一。本章不仅讲解了KNN的基本原理和实现方式，还探讨了特征提取、归一化等重要概念，为读者打开了机器学习的大门。本笔记将梳理KNN算法的核心思想、实现步骤以及应用场景。一、K近邻算法概述（一）基本思想K近邻算
AppML 案例简介沐知全栈开发开发语言
AppML案例简介引言AppML，全称为“应用程序机器学习”，是一种将机器学习技术与移动应用开发相结合的技术框架。它旨在简化移动应用的机器学习功能集成，使得开发者无需深入了解复杂的机器学习算法，即可将强大的AI功能引入他们的应用中。本文将简要介绍AppML的一些成功案例，展示其在不同领域的应用和价值。AppML案例一：健康监测应用案例概述：一款名为“HealthMate”的健康监测应用利用AppM
FP16、BF16、INT8、INT4精度模型加载所需显存以及硬件适配的分析 herosunly 大模型精度 BF16 硬件适配
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了FP16、INT8、INT4精度模型加载占用显存大小的分析，希望对学习大
常见机器学习算法与应用场景计算机软件程序设计知识科普机器学习算法人工智能
当然可以。下面是对常见机器学习算法的全面详细阐述，包括每种算法的基本原理、特点以及典型应用场景。1.监督学习（SupervisedLearning）1.1线性回归（LinearRegression）原理：通过拟合一条直线来表示输入和输出之间的关系，适用于预测连续值输出。特点：简单易懂，计算速度快，但只能捕捉线性关系。应用场景：房价预测股票价格预测销售额预测1.2逻辑回归（LogisticRegre
**基于Python的数据分析与机器学习实战教程****一、引言**随着大数据时代的到来，数据处理和分析能力已经成为现代软件开发人员的必备技能之一。Python作为一种高效、简洁且功能丰富的编程语言， 2401_89451588 python 数据分析机器学习
基于Python的数据分析与机器学习实战教程一、引言随着大数据时代的到来，数据处理和分析能力已经成为现代软件开发人员的必备技能之一。Python作为一种高效、简洁且功能丰富的编程语言，在数据分析领域得到了广泛的应用。本文将介绍如何使用Python进行数据分析，并结合机器学习算法实现数据驱动的应用。二、Python基础首先，我们需要掌握Python的基本语法和常用的库。Python的语法简洁易懂，上
机器学习，支持向量机svm和决策树xgboost介绍 suixinm 支持向量机机器学习决策树
支持向量机(SVM)和XGBoost都是非常强大且应用广泛的机器学习算法，但它们基于不同的原理，各有其优势和劣势，适用于不同的场景。以下是两者的主要区别和优劣势对比：1.核心思想与模型类型:SVM:核心思想:找到一个最优的超平面（在特征空间中），将不同类别的样本分隔开，并且使得该超平面到两类样本中最近的样本点（支持向量）的距离（间隔）最大化。核心是几何间隔最大化。模型类型:单个模型（虽然是核方法，
【机器学习第四期（Python）】LightGBM 方法原理详解 WW、forever 机器学习原理及代码实现机器学习 python 人工智能
LightGBM概述一、LightGBM简介二、LightGBM原理详解⚙️核心原理LightGBM的主要特点三、LightGBM实现步骤（Python）可调参数推荐完整案例代码（回归任务+可视化）参考LightGBM是由微软开源的基于梯度提升框架（GBDT）的机器学习算法，专为高性能、高效率设计，适用于大规模数据处理任务。它在准确率、训练速度和资源使用上都优于传统GBDT实现（如XGBoost）
机器学习算法——神经网络1（神经元模型）
神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。神经网络中最基本的成分是神经元（neuron）模型。即上述定义中的“简单单元”。在生物神经网络中，每个神经元与其他申请元相连，当它“兴奋”时，就会向相连的神经元发送化学物质，从而改变这些神经元内的电位；如果某神经元的电位超过一个“阈值”，那么它就会被激活，即“兴奋”起来，向其他神经
【机器学习算法】XGBoost原理
一、基本内容基本内容：GBDT的基础上，在损失函数上加入树模型复杂度的正则项与GBDT一样，也是使用新的弱学习器拟合残差（当前模型负梯度，残差方向）GBDT损失函数Loss=∑i=1NL(yi,yit)Loss=\sum_{i=1}^{N}L(y_i,y_i^{t})Loss=i=1∑NL(yi,yit)XGboost损失函数Loss=∑i=1SL(yi,yit)+∑j=1NΩ(fj))Loss=
大语言模型(LLM)量化基础知识(一) -派神- RAG NLP ChatGPT 语言模型人工智能自然语言处理
承接各类AI相关应用开发项目(包括但不限于大模型微调、RAG、AI智能体、NLP、机器学习算法、运筹优化算法、数据分析EDA等)!!!有意愿请私信!!!随着大型语言模型(LLM)的参数数量的增长,与其支持硬件（加速器内存）增长速度之间的差距越来越大，如下图所示：上图显示，从2017年到2022年，语言模型的大小显著增加：2017年：Transformer模型（0.05B参数）2018年：GPT（0
ICBDDM2025：大数据与数字化管理前沿峰会鸭鸭鸭进京赶烤学术会议大数据图像处理计算机视觉 AI编程人工智能机器人考研
在选择大学专业时，可以先从自身兴趣、能力和职业规划出发，初步确定几个感兴趣的领域。然后结合外部环境因素，如专业前景、教育资源和就业情况等，对这些专业进行深入的分析和比较。大数据专业：是一个热门且前沿的学科领域，它涉及到数据的收集、存储、处理、分析和应用等多个方面。课程设置基础课程数学基础：高等数学、线性代数、概率论与数理统计等。这些课程为大数据分析提供了必要的数学工具，例如线性代数在机器学习算法中
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地