一头倔强的帅犀牛

用python手写KNN算法+kd树及其BBF优化（原理与实现）（上篇）

初学python和机器学习，突然兴起想动手用python实践一下KNN算法，本来想着这个算法原理很简单明了，应该实现起来没什么大问题，然而真正上手的时候问题频出，花了好一些功夫挨个排除各种奇怪的bug，总算是大功告成。接下来我会介绍一下算法的手写实现和在此过程中亲遇的各种问题，希望能够帮到大家。实验所需数据链接在文章最后。
ps：从学习C语言以来形成了print调试的毛病，所以在代码中保留了一些用于调试的输出重要信息的print语句，放在了后面的完整print信息版代码中，方便理解代码和调试。千万注意在使用time()方法测试程序运行时间时要把这些调试的print语句注释掉。
pps：关于numpy的疑惑建议随时参考https://www.runoob.com/numpy/numpy-dtype.html，很方便

1. KNN算法与kd树简介

1.1 什么是KNN算法？

网上关于KNN的详细介绍很多，简单来说，KNN是一种有监督分类算法，通过计算待分类数据点，与已有数据集中的所有数据点的距离。取距离最小的前K个点，根据“少数服从多数“的原则，将这个数据点划分为出现次数最多的那个类别。如图由KNN得到Xu属于ω1
因此，将分类点输入的过程就是KNN算法的学习过程，将已分类点全部输入后，要完成对未分类点所属类别的预测，重点是找出距离未分类点最近的前K个已分类点

1.2 为什么需要kd树？

前面我们说道，要完成对未分类点所属类别的预测，重点是找出距离未分类点最近的前K个已分类点。那么，对于每个未分类点，一般我们需要求出它与所有以分类点的距离，然后找出前k个距离最小的已分类点。如果已分类点集合中有n个点，那么如果我们要对m个未分类点进行预测，时间复杂度为O(m*n)。当n很大时，我们认为这样不是很高效。
那么，有没有一种方法让上述复杂度变为O(mlogn)呢？这时我们想到了二叉树。类比二叉查找树（BST），Kd-Tree即K-dimensional tree，是一棵二叉树，树中存储的是一些K维数据。在一个K维数据集合上构建一棵Kd-Tree代表了对该K维数据集合构成的K维空间的一个划分。即树中的每一个结点就相应了一个K维的超矩形区域（Hyperrectangle），kd树的详细介绍以及如何构造kd树将在下面介绍。

2. 数据集准备

首先，准备数据集：这里的数据集即指KNN算法的训练集和测试集。对于KNN算法来说，将训练集输入的过程就是KNN算法学习的过程。训练集和测试集由多个样本构成，每个样本由其特征向量和标签构成，也就是由特征和类别构成。举个例子，某样本的特征向量为（唱，跳，rap，篮球），标签为蔡徐坤，将它作为训练集输入后，测试集中我们给出（唱，跳，rap，鸡你太美），由KNN算法我们预测出该测试样本对应标签为蔡徐坤，和测试标签对比发现本次预测成功。为了方便编程，我们将训练集和测试集处理均处理为由（特征1，特征2，… ，特征n，标签）这样的向量组成的集合，称之为数据矩阵。如：
训练集（或测试集）：
唱，跳，rap，篮球，蔡徐坤
拐，黑土，不差钱，小品，赵本山
…
为了简单这次实验用的是DBRHD数据集。

2.1 DBRHD数据集

DBRHD（Pen-Based Recognition of Handwritten Digits Data Set）是UCI的机器学习中心提供的数字手写体数据库可以在https://archive.ics.uci.edu/ml/datasets/PenBased+Recognition+of+Handwritten+Digits下载，不过我相信从这里得到的数据集会让你一头雾水，所以我会把我用到的数据文本放到文章后面的链接中。
DBRHD数据集包含大量的数字0~9的手写体图片，这些图片来源于44位不同的人的手写数字，图片已归一化为以手写数字为中心的32*32规格的图片。DBRHD的训练集与测试集组成如下：
（1）训练集：7,494个手写体图片及对应标签，来源于40位手写者
（2）测试集：3,498个手写体图片及对应标签，来源于14位手写者
我们把训练集和测试集转化为前面介绍的向量集合的格式存放到文本中，分为两个版本：
（1）特征个数为16的版本：
训练集training1.txt:

其中每一行代表一个（特征1，特征2，…，特征16，标签）的向量，
如47，100，27，81，57，37，26，0，0，23，56，53，100，90，40，98这16个特征决定了它代表数字8。下面的测试集也是类似。
测试集test1.txt:

（2）特征个数为1024的版本（这一版训练集样本有1934个，测试集样本有946个）：
训练集training2.txt和测试集test2.txt
（太占版面了，只贴一个向量吧，前面1024个0或1组成的特征代表数字8）

2.2 编写数据读取函数

先导入这次实验需要的全部模块

import numpy as np
import queue  # 后续bbf会用
import time

读取文件函数：

def loadData(filePath): # 读文件
    with open(filePath, 'r+') as fr:  
    # with语句会自动调用close()方法，且比显式调用更安全
        lines = fr.readlines()
        data = []
        for line in lines:  # 逐行读入
            items = line.strip().split(",")
            data.append([int(items[i]) for i in range(len(items))])
    return np.asarray(data)  # 以np.ndarray类型数组返回

3. 构建kd树（kd-tree)

得到数据后我们就可以构建kd树了，KNN算法其实本身并没有真正意义的学习的过程，构建kd树的过程就作为它的“学习”过程。
首先，我们要知道什么是kd树：
我们先回想一下二叉查找树（或二叉排序树）即BST：

二叉查找树（Binary Search Tree，BST）。是具有例如以下性质的二叉树：

1）若它的左子树不为空。则左子树上全部结点的值均小于它的根结点的值；
2）若它的右子树不为空，则右子树上全部结点的值均大于它的根结点的值；
3）它的左、右子树也分别为二叉排序树；

如图是一棵BST：

我们要在BST中查找一个数，仅仅须要将查询数据与结点值进行比较然后选择相应的子树继续往下查找就可以，查找的平均时间复杂度为O(logN)。

不难看出BST仅适用于一维的数据集合
能否用某种方法将这种数据集合切割(BST是直接按数字大小左右分割）的思想用到K维的数据集合呢？答案就是kd树。
这时我们会遇到几个问题：

3.1 如何划分K维空间

一维数据可以直接比大小确定左右分支，而对于一个K维数据集（K>=1)，如何确定其左右分支呢？
答案也是比大小，不过在比较之前要指定一个维度，如（2，3）与（5，1）比较，在维度0上，2<5，所以（2，3）<（5，1），在维度1上，3>1，所以（2，3）>（5，1）。每次选择一个维度Di来对K维数据进行划分，相当于用一个垂直于该维度Di的超平面将K维数据空间一分为二。平面一边的全部K维数据在Di维度上的值小于平面另一边的全部K维数据相应维度上的值。
这样，我们每选择一个维度进行如上的划分，就会将K维数据空间划分为两个部分。我们继续分别对这两个子K维空间进行如上的划分。又会得到新的子空间，对新的子空间又继续划分，反复以上过程直到每一个子空间达到一个理想的大小或者不能继续划分。
这时我们应当意识到，以上就是构造kd-tree的过程。

3.2 如何确定在哪个维度上划分

上述过程中我们需要知道，每次对子空间的划分时，应当选择哪个维度。
为了使每次的切割效果最好，我们应当选择各向量在该维度上的值方差最大的那个维度。举个例子，某三维向量集合{（1，2，3），（100，3，4），（50，3，2），（150，3，3），（200，2，4）}，我们发现1，100，50， 150，200的方差是最大的，所以本次在维度0上划分集合效果最好。每次划分中，我们均选择一个方差最大的维度进行划分。

3.3 确定维度后，怎样确定划分值

在某个维度上进行划分时，如何确保在这一维度上的划分得到的两个子集合的数量尽量相等。即左子树和右子树中的结点个数尽量相等呢？显然，选择中位数作为划分值是最合理的，还是上面的例子，对于三维向量集合
{（1，2，3），（100，3，4），（50，3，2），（150，3，3），（200，2，4）}，我们已经确定在维度0上划分，故选择1，100，50，150，200的中位数150作为划分值
ps:numpy中求1，2，3，4，5，6的中位数会得到3.5

3.4 划分到何种程度就不再划分

我在实践中发现，划分到每个集合只剩一个元素，往往不能让算法达到最好的效果，所以我设置了一个阈值，即最小划分个数threshold ，元素个数低于此值就无需划分。

3.5 一个容易bug的坑点

这是实现过程中遇到的一个坑点。思考一个问题，在写判断语句时，我们应当让小于划分值的向量归入左子树集合（方案一），还是让小于等于划分值的向量归入左子树（方案二）？这似乎不是一个值得讨论的问题，但是我们举两个例子：

（1）假设当前向量集合在维度Di上方差最大，各向量在维度Di上的值为1，1，1，2，2，显然其中位数是1，如果我们选择方案一，那么划分得到的左子树为空，该集合全部向量归入右子树，接下来再对右子树的向量集合进行划分时，我们还是会得到维度Di上方差最大，还是遇到和前面一样的情况，将全部向量归入右子树，这在递归建树的过程中意味着死循环。

（2）再假设当前向量集合在维度Di上方差最大，各向量在维度Di上的值为1，1，2，2，2，显然其中位数是2，如果我们选择方案二，那么划分得到的右子树为空，该集合全部向量归入左子树，接下来再对左子树的向量集合进行划分时，我们还是会得到维度Di上方差最大，还是遇到和前面一样的情况，将全部向量归入左子树，同样形成死循环。

我们发现，不论选择方案一还是方案二，都会遇到问题，解决方案是：
对于各向量在维度Di上的值的集合，我们不仅要得到其中位数，还要得到其最小值和最大值，如果中位数 != 最小值，选择方案一，否则，若中位数！= 最大值，选择方案二。如果中位数，最小值，最大值三者相等，则其方差为0，此维度不会作为划分维度。

3.6 kd树图示

ps：我采用的kd-tree结构是数据仅仅存放在叶子结点，而根结点和中间结点存放一些空间划分信息（如划分维度、划分值），以二维数据集合(2,2), (5,5), (9,6), (4,8), (8,1), (7,3)为例，其划分与kd树如图。网上还有其他kd-tree版本，这里不赘述。

3.7 kd-tree构建的代码实现

明白了上述问题后就可以建树了。
先定义分支结点（中间结点）

class kdNode():
    # 分支结点
    def __init__(self, demo, value, left, right):
        # 切割维度，切割值，左子树，右子树
        self.demo = demo
        self.value = value
        self.left = left
        self.right = right

kd-tree及其构建：

class kdtree():
    # kd树
    """
    构建kd-tree，data_array为初始的数据集合，数据类型是np.ndarray，
    threshold是最小划分个数
    """
    def __init__(self, data_array, threshold):

        self.threshold = threshold  # 最小分支阈值，数据个数低于此值不在划分
        row, col = data_array.shape
        k = col - 1  # k指维度，即特征向量的元素个数
        """寻找方差最小的维度"""
        def getMaxDimension(data):  # data即当前待划分的数据集合
            maxv = -1  # 记录当前最大方差
            maxi = -1  # 记录当前方差最大的维度
            for i in range(k):
                a = np.var(data[:, i])  # 计算维度i对应的方差
                if a > maxv:
                    maxi = i
                    maxv = a
            return maxi, maxv  # 返回最大方差对应的维度和最大方差值

        """
        创建一个分支结点
        """
        def createNode(data):
            split_dimension, maxv = getMaxDimension(data) 
            # split_dimension， maxv分别指划分轴（维度）和最大方差值
            if maxv == 0:  
            # 考虑边界情况，最大方差为0时当前数据不必划分，直接作为叶子结点
                return data
            split_value = np.median(data[:, split_dimension])
            # 取当前维度下的中位数作为划分值
            maxvalue = np.max(data[:, split_dimension])  # 当前维度下的最大元素
            minvalue = np.min(data[:, split_dimension])  # 当前维度下的最小元素
            left = []  # 保存在split_dimension下小于（或等于）split_value的点
            right = []  # 保存在split_dimension下大于（或等于）split_value的点
            for i in range(len(data)):
                if split_value < maxvalue:  # 避免0，0，0，1，2这样的分不开
                    if data[i][split_dimension] <= split_value:
                        left.append(list(data[i]))
                    else:
                        right.append(list(data[i]))
                elif split_value > minvalue:  # 避免0，1，2，2，2这样的分不开
                    if data[i][split_dimension] < split_value:
                        left.append(list(data[i]))
                    else:
                        right.append(list(data[i]))
            # 最小分支阈值，低于此值不再划分
            root = kdNode(split_dimension, split_value,
                          (createNode(np.asarray(left)) if len(left) >= threshold else np.asarray(left)),
                          (createNode(np.asarray(right)) if len(right) >= threshold else np.asarray(right)))
            # 递归建树，注意当点集中元素个数小于最小分支阈值时直接作为叶结点而不必分支
            return root

        self.root = createNode(data_array)

4. 利用kd树进行最近邻和K近邻查找

构建好kd树后，我们就可以利用它为给定点寻找K近邻，再此之前，我们先搞明白如何利用kd树寻找最近邻。（最近邻即距离最近的点，K近邻即前K个距离最近的点。）

4.1 利用kd树寻找最近邻

给定一棵用训练点集构造的kd树，再给定一个待查询点Q，寻找距离Q最近的训练点。（这里的一个点指的是一个特征向量）
（1）将查询数据Q从kd-treede 根结点开始，依照Q与各个结点的比较结果向下访问kd-tree，直至达到叶子结点。其中Q与结点的比较指的是将Q相应于结点中的k维度上的值与m进行比较，小于则访问左子树，否则右子树。
记录当前最近邻点和最小距离（记为minDis）。
（2）进行回溯操作，该操作是为了找到离Q更近的最近邻点”，即推断未被访问过的分支里是否还有离Q更近的点。它们之间的距离小于minDis。回溯是必要的，任意上面的二维数据图示为例：
给定一点（7，4），查询kd树会找到（9，6），而最近的点应该是
（7，3）

回溯的推断过程是从下往上进行的递归过程，不断回到（1）步骤直到回溯到根结点时已经不存在与P更近的分支。

那么，如何推断未被访问过的树分支里是否还有离Q更近的点？

从几何空间上来看，就是推断以Q为中心，以mindis为半径的超球面与树分支Branch代表的超矩形之间是否相交。看起来有点复杂，其实非常简单，把分支结点的两个值记为Di（划分维度）和Dv（划分值）Q在划分维度上的值为Q[Di]，只需判断|Q[Di]-Dv|

4.2 利用kd树寻找K近邻

在上述寻找最近邻的基础上，我们维护一个大小为K的列表klist，其中存放目前找到的前K个最近点，klist的最后一个元素始终是这K个点中距离最远的（记为klist[k-1])，这个最远距离记为kDis，回溯时，判断|Q[Di]-Dv| ps1：这里其实用优先级队列来实现更合理，但是我在python的queue模块提供的PriorityQueue并没有找到类似C语言的q.front()方法，即只取队首值但不将队首弹出，在这个问题上使用起来有些不便，而且事实证明自己写一个优先级队列很难达到内置函数的性能，所以干脆采用按距离用sort函数将klist元素排序的方法。
ps2：n维向量的距离计算公式：

ps3：尽量使用numpy提供的内置函数进行向量运算（如求距离时），其速度要比自己写for循环快的多的多。

寻找K近邻的代码如下：

"""寻找vec对应的k邻近，klist为(距离,[向量])构成的列表，存放vec的k个近邻点的信息，初始为空"""
def findn(root, vec, klist, k):
    if type(root) == np.ndarray:  #到达叶结点
        if len(root) == 0:
            return
        temp = (root[:, :-1] - vec) ** 2
        for i in range(len(temp)):
            a = sum(temp[i])
            if len(klist) != k:
                klist.append((a, root[i]))
                klist.sort(key=lambda x: x[0])  # 按距离排序
            else:
                if a < klist[k - 1][0]:
                    klist[k - 1] = [a, root[i]]
                    klist.sort(key=lambda x: x[0])  # 按距离排序
    else:
        if vec[root.demo] < root.value:
            findn(root.left, vec, klist, k)
            if abs((vec[root.demo] - root.value)**2) < klist[len(klist) - 1][0]:
                findn(root.right, vec, klist, k)  # 回溯
        else:
            findn(root.right, vec, klist, k)
            if abs((vec[root.demo] - root.value)**2) < klist[len(klist) - 1][0]:
                findn(root.left, vec, klist, k)  # 回溯

5. 利用kd树完成KNN预测

由上述代码得到一个给定点的k近邻后，我们所作的就是选出k近邻对应标签出现次数最多的那个，作为给定点的预测标签。
如，假设K=3，我们得到的3个距离最近的点的标签分别为蔡徐坤，蔡徐坤，郭宝坤，那么最终预测结果就应该是蔡徐坤。
这里有一个坑点，就是当标签为蔡徐坤(dis = 3)，郭宝坤(dis = 5)，陈坤(dis=10)时，我们无法投票选出出现最多的那个标签，这个时候一定要选距离给定点距离最近的那个标签作为预测标签，即蔡徐坤。

KNN预测代码如下：

""" 
选出列表中出现次数最多的元素,一个需要注意的问题是像[2,2,1,1,3]这样的怎么选，因为之前已经按距离从小到大排序，所以应选2
"""
def findMain(alist):
    hashtable = [0 for i in range(10)]
    for i in range(len(alist)):
        hashtable[alist[i]]+=1
    maxnum = -1
    main = -1
    for i in range(len(alist)):
        if hashtable[alist[i]]>maxnum:
            main = alist[i]
            maxnum = hashtable[alist[i]]
    return main
"""预测给定点的标签"""
def forecast(root, data, k):
    a = [] #作为findn方法中的klist参数
    findn(root, data, a, k)
    L = len(a[0][1]) #其实就是向量维度
    res = []
    for i in range(len(a)):
        res.append(a[i][1][L - 1])
    return findMain(res)

"""用train_list建树，用KNN对test_list中的向量进行预测并输出正确率"""
def knn(train_list, test_list, k):
    tic1 = time.time()
    root = kdtree(train_list, 10).root  #最小划分次数设为10
    print("最小划分个数： 10") 
    print("k = "+str(k))
    tic2 = time.time()
    num = 0
    for i in range(len(test_list)):
        a = forecast(root, np.asarray(test_list[i][:-1]), k)
        if a == test_list[i][-1]:
            num += 1
    print("正确率："+str(num / len(test_list)))  # 预测准确率
    toc = time.time()
    print("总用时：" + str(1000*(toc-tic1))+"ms")
    print("训练用时：" + str(1000*(tic2-tic1))+"ms")
    print("预测用时：" + str(1000*(toc-tic2))+"ms")

接下来是main函数：

if __name__ == "__main__":
    train_list = loadData("training1.txt")
    test_list = loadData("test1.txt")
    knn(train_list, test_list, 3)  # K值设为3

6. 运行结果与效果对比

运行结果如下

对比不使用kd树的情况（将knn()中将最小划分个数设为较大值如10000即可）

可以看到，虽然建kd树花费了一定的时间，但是预测用时明显比不使用kd树缩短了很多。

7. 完整print信息版代码

上面的代码删掉了我的在敲代码的时候的各种print调试信息，但是那些我感觉还是挺有用的，沉迷print调试的同鞋应该会懂吧~
这里是保留print信息的版本

import numpy as np

def loadData(filePath): # 读文件
    with open(filePath, 'r+') as fr:
    # with语句会自动调用close()方法，且比显式调用更安全
        lines = fr.readlines()
        data = []
        for line in lines:  # 逐行读入
            items = line.strip().split(",")
            data.append([int(items[i]) for i in range(len(items))])
    return np.asarray(data)  # 以np.ndarray类型数组返回
class kdNode():
    # 分支结点
    def __init__(self, demo, value, left, right):
        # 切割维度，切割值，左子树，右子树
        self.demo = demo
        self.value = value
        self.left = left
        self.right = right
class kdtree():
    # kd树
    """
    构建kd-tree，data_array为初始的数据集合，数据类型是np.ndarray，
    threshold是最小划分个数
    """
    def __init__(self, data_array, threshold):

        self.threshold = threshold  # 最小分支阈值，数据个数低于此值不在划分
        row, col = data_array.shape
        k = col - 1  # k指维度，即特征向量的元素个数
        """寻找方差最小的维度"""
        def getMaxDimension(data):  # data即当前待划分的数据集合
            print("当前待划分集合: ")  # 输出待分割的数据集合
            print(data)
            maxv = -1  # 记录当前最大方差
            maxi = -1  # 记录当前方差最大的维度
            for i in range(k):
                a = np.var(data[:, i])  # 计算维度i对应的方差
                print("维度" + str(i) + "的方差" + ": " + str(a))  # 输出每个维度的方差
                if a > maxv:
                    maxi = i
                    maxv = a
            return maxi, maxv  # 返回最大方差对应的维度和最大方差值

        """
        创建一个分支结点
        """
        def createNode(data):
            split_dimension, maxv = getMaxDimension(data)
            # split_dimension， maxv分别指划分轴（维度）和最大方差值
            print("划分维度:" + str(split_dimension))  # 输出划分维度
            if maxv == 0:
            # 考虑边界情况，最大方差为0时当前数据不必划分，直接作为叶子结点
                return data
            split_value = np.median(data[:, split_dimension])
            # 取当前维度下的中位数作为划分值
            print("划分值:" + str(split_value))  #输出划分值
            maxvalue = np.max(data[:, split_dimension])  # 当前维度下的最大元素
            minvalue = np.min(data[:, split_dimension])  # 当前维度下的最小元素
            left = []  # 保存在split_dimension下小于（或等于）split_value的点
            right = []  # 保存在split_dimension下大于（或等于）split_value的点
            for i in range(len(data)):
                if split_value < maxvalue:  # 避免0，0，0，1，2这样的分不开
                    if data[i][split_dimension] <= split_value:
                        left.append(list(data[i]))
                    else:
                        right.append(list(data[i]))
                elif split_value > minvalue:  # 避免0，1，2，2，2这样的分不开
                    if data[i][split_dimension] < split_value:
                        left.append(list(data[i]))
                    else:
                        right.append(list(data[i]))
            print("left: ", end="")  #输出左右分支集合
            print(left)
            print("right: ", end="")
            print(right)
            # 最小分支阈值，低于此值不再划分
            root = kdNode(split_dimension, split_value,
                          (createNode(np.asarray(left)) if len(left) >= threshold else np.asarray(left)),
                          (createNode(np.asarray(right)) if len(right) >= threshold else np.asarray(right)))
            # 递归建树，注意当点集中元素个数小于最小分支阈值时直接作为叶结点而不必分支
            return root

        self.root = createNode(data_array)
n = 0
"""寻找vec对应的k邻近，klist为(距离,[向量])构成的列表，存放vec的k个近邻点的信息，初始为空"""
def findn(root, vec, klist, k):
    if type(root) == np.ndarray:  #到达叶结点
        if len(root) == 0:
            return
        temp = (root[:, :-1] - vec) ** 2
        for i in range(len(temp)):
            a = sum(temp[i])
            global n
            n += 1
            if len(klist) != k:
                klist.append((a, root[i]))
                klist.sort(key=lambda x: x[0])  # 按距离排序
            else:
                if a < klist[k - 1][0]:
                    klist[k - 1] = [a, root[i]]
                    klist.sort(key=lambda x: x[0])  # 按距离排序
    else:
        if vec[root.demo] < root.value:
            findn(root.left, vec, klist, k)
            if abs((vec[root.demo] - root.value)**2) < klist[len(klist) - 1][0]:
                findn(root.right, vec, klist, k)  # 回溯
        else:
            findn(root.right, vec, klist, k)
            if abs((vec[root.demo] - root.value)**2) < klist[len(klist) - 1][0]:
                findn(root.left, vec, klist, k)  # 回溯
""" 
选出列表中出现次数最多的元素,一个需要注意的问题是像[2,2,1,1,3]这样的怎么选，因为之前已经按距离从小到大排序，所以应选2
"""
def findMain(alist):
    hashtable = [0 for i in range(10)]
    for i in range(len(alist)):
        hashtable[alist[i]]+=1
    maxnum = -1
    main = -1
    for i in range(len(alist)):
        if hashtable[alist[i]]>maxnum:
            main = alist[i]
            maxnum = hashtable[alist[i]]
    print("预测标签："+str(main))
    return main
"""预测给定点的标签"""
def forecast(root, data, k):
    a = [] #作为findn方法中的klist参数
    global n
    n = 0
    findn(root, data, a, k)
    print("遍历了" + str(n) + "个点")
    L = len(a[0][1]) #其实就是向量维度
    res = []
    for i in range(len(a)):
        res.append(a[i][1][L - 1])
    print("K邻近标签：", end="")
    print(res)
    return findMain(res)

"""用train_list建树，用KNN对test_list中的向量进行预测并输出正确率"""
def knn(train_list, test_list, k):
    root = kdtree(train_list, 10).root  #最小划分次数设为10
    print("最小划分个数： 10000")
    print("k = "+str(k))
    num = 0
    for i in range(len(test_list)):
        a = forecast(root, np.asarray(test_list[i][:-1]), k)
        if a == test_list[i][-1]:
            num += 1
    print("正确率："+str(num / len(test_list)))  # 预测准确率
if __name__ == "__main__":
    train_list = loadData("pendigits.tra")
    test_list = loadData("pendigits.tes")
    knn(train_list, test_list, 3)  # K值设为3

部分print调试信息：

8. 一个明显的问题

注意上面我们使用的是training1.txt和test1.txt两个文本提供的数据集
它们的特征向量是16维，然而当我们使用training2.txt和test2.txt两个文本提供的数据集（特征向量是1024维）时，会发现，耗时很长且使用kd树与不使用kd树在时间上并没有什么差距。这就要引出后面的BBF优化了。用python手写KNN算法+kd树及其BBF优化（原理与实现）（下篇）

9.附录

本次实验所需数据集：
链接：https://pan.baidu.com/s/1qJ1_uGjYVTR7kegwpQW19Q
提取码：30kt
复制这段内容后打开百度网盘手机App，操作更方便哦

你可能感兴趣的:(机器学习,python,算法)

2025年中总结 Just Jump 人生经历思考反思认知方法 2025年中总结
2025年中总结。一如往年惯例，总结近半年工作中的体悟和经验。一、把大而难的事拆解成小而具体的小目标。专注解决小目标，每周迭代交付，先完成再完善。1.1把大任务拆解成具体可执行的小目标2025年5月起我开始做大模型相关的技术调研、技术升级和开发工作。传统的机器学习、深度学习算法和大模型的算法在技术知识上还是有很大的差异的。想要快速转型使用大模型做开发、训练，是需要些时间和精力投入的，这并不是一个简
充电桩 APP 开发：技术架构与核心功能一品威客网架构
随着新能源汽车的普及，充电桩APP成为连接用户与充电设施的关键枢纽。这类APP的开发需兼顾用户体验与运营效率，以下从技术实现与功能设计两方面展开分析。技术架构设计实时数据交互：采用MQTT协议实现充电桩状态（空闲/充电中/故障）的实时推送，确保用户获取最新信息。定位与地图服务：集成高德/Baidu地图SDK，通过POI搜索与路径规划算法，优化充电桩位置展示与导航体验。支付系统：对接微信/支付宝支付
物流运输企业如何构建数字化管理系统
在数字化浪潮下，物流运输企业构建数字化管理系统成为提升竞争力的关键。当前，企业常面临信息传递滞后、资源调配低效、运输监控不足等问题，构建数字化管理系统可有效解决这些难题。系统搭建需涵盖多个核心模块。运输管理模块通过智能调度算法，根据货物信息、车辆状态、路线情况，优化运输路径，实现车辆高效调配，减少空载率；仓储管理模块利用物联网技术，实时监控货物存储状态、库存数量，结合数据分析实现智能补货，提升仓储
AI人工智能中LSTM在视频行为识别的应用
AI人工智能中LSTM在视频行为识别的应用关键词：LSTM、视频行为识别、深度学习、时序建模、计算机视觉、神经网络、动作识别摘要：本文将深入探讨LSTM（长短期记忆网络）在视频行为识别领域的应用。我们将从基础概念出发，逐步讲解LSTM如何解决视频时序建模的挑战，分析其核心算法原理，并通过实际代码示例展示LSTM在行为识别中的具体实现。文章还将探讨当前的应用场景、工具资源以及未来发展趋势，为读者提供
python 使用 pyenv 管理 python 版本时空无限 Python python 开发语言
安装pyenv并使用pyenv安装不同版本的pythonbrewinstallpyenvpyenvinstall3.11.9pyenvinstall3.10.9设置pyenvecho'exportPYENV_ROOT="$HOME/.pyenv"'>>~/.bash_profileecho'exportPATH="$PYENV_ROOT/bin:$PATH"'>>~/.bash_profileec
Python正式课11_关于cookie和session 时寒的笔记 python 开发语言
一、概念"""http,无连接,无状态.我们在淘宝上买东西.用户登陆的状态是必须要有的...工作当中是需要这个状态的.但是http协议是不负责维持这个状态的.loginusernamepassword浏览器想了一个办法.弄了一个本地化的存储.来保持这个状态.本地保存的这个东西.每次发请求的时候.浏览器都会自动携带该信息.这个本地化的存储.我们叫它cookiecookie的生成过程:1.cookie
2-感知机学习算法罗东琦统计学习笔记
感知机模型感知机学习策略学习算法算法收敛性对偶形式与线性SVM的异同感知机（perceptron）是一个线性二分类模型，其目的是寻找一个超平面将正负示例划分开，属于判别模型，也是神经网络与SVM的基础。感知机模型假设输入空间为χ⊆Rnχ⊆Rn，输出空间为Υ⊆{+1,−1}Υ⊆{+1,−1}。输入x∈χx∈χ表示实例的特征向量，输出y∈Υy∈Υ表示实例的类别。则下面的函数f(x)=sign(w⋅x+
【PaddleOCR】快速集成 PP-OCRv5 的 Python 实战秘籍--- PaddleOCR实例化 OCR 对象的参数介绍云天徽上 PaddleOCR python ocr 开发语言人工智能文字识别
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
python开发|yaml用法知识介绍川石课堂软件测试 python 数据库功能测试开发语言人工智能单元测试 linux
随着互联网技术的快速发展，服务器编程变得越来越重要。Python作为一种强大的编程语言，越来越受到开发者的青睐。而PyYAML则是Python中最常用的YAML格式解析器之一，本文将系统介绍yaml知识01yaml介绍YAML(YAMLAin'tMarkupLanguage)是一种直观的数据序列化格式，它旨在以易于人类阅读和编写的方式表达数据。尽管名称中包含“不是标记语言”的表述，YAML在实际应
Python如何调用港股行情接口 kk_stoper python 开发语言 java javascript 数据结构
1.接口信息接口类型：实时综合行情接口支持品种：贵金属，商品期货，外汇，A股，港股，美股查询方式：HTTP,WebSocket申请密钥：https://infoway.io官方对接文档：https://infoway.readme.io/reference/ws-subscription2.获取股票清单这个接口用来查询股票的名单，比如我可以获取美股清单：importrequestsurl="htt
Python Requests 与 RESTful API 的交互实践 AI天才研究院 AI人工智能与大数据 python restful 交互 ai
PythonRequests与RESTfulAPI的交互实践关键词：PythonRequests、RESTfulAPI、HTTP请求、API交互、JSON数据处理摘要：本文将带你从“零基础”到“实战高手”，用通俗易懂的语言和生活案例，拆解PythonRequests库与RESTfulAPI交互的核心逻辑。我们将学习如何用Requests发送GET/POST/PUT/DELETE等常见HTTP请求，
机器学习，支持向量机svm和决策树xgboost介绍 suixinm 支持向量机机器学习决策树
支持向量机(SVM)和XGBoost都是非常强大且应用广泛的机器学习算法，但它们基于不同的原理，各有其优势和劣势，适用于不同的场景。以下是两者的主要区别和优劣势对比：1.核心思想与模型类型:SVM:核心思想:找到一个最优的超平面（在特征空间中），将不同类别的样本分隔开，并且使得该超平面到两类样本中最近的样本点（支持向量）的距离（间隔）最大化。核心是几何间隔最大化。模型类型:单个模型（虽然是核方法，
Google 相机增强（GCam）框架原理初探：图像质量与计算摄影的系统性突破观熵影像技术全景图谱：架构调优与实战数码相机影像 Camera
Google相机增强（GCam）框架原理初探：图像质量与计算摄影的系统性突破关键词：GCam、GoogleCamera、HDR+、SuperResZoom、Camera2API、多帧合成、算法流程、图像增强、夜视模式、Pixel相机移植摘要：GCam（GoogleCamera）作为Pixel系列设备图像质量表现的核心支撑，其背后的增强框架融合了Google长期积累的计算摄影技术，从HDR+到Sup
【学习】《算法图解》第十章学习笔记：贪婪算法程序员
一、贪婪算法概述贪婪算法（GreedyAlgorithm）是一种在每一步选择中都采取当前状态下最好或最优的选择，从而希望导致结果是最好或最优的算法。贪婪算法不从整体最优上加以考虑，它所做出的选择只是在某种意义上的局部最优选择。（一）算法适用场景贪婪算法适用于具有"贪心选择性质"的问题，即局部最优选择能导致全局最优解的问题。主要应用于：需要求解最优化问题问题具有贪心选择性质问题具有最优子结构性质（二
算法: 冒泡排序 Code溪算法 java 算法数据结构
冒泡排序是一种简单的排序算法，通过相邻元素的比较和交换，使较大的元素逐渐"浮"到数组末尾。时间复杂度:最佳O(n)|平均O(n²)|最差O(n²)空间复杂度:O(1)稳定性:稳定应用场景/前提条件适用于小规模数据对几乎已排序的数据效率较高算法步骤比较相邻的元素。如果第一个比第二个大，就交换它们对每一对相邻元素做同样的工作，从开始第一对到结尾的最后一对这步做完后，最后的元素会是最大的数针对所有的元素
15. 条件语句 if_elif_else 丰收连山 python 数据库开发语言
一、基础语法结构if语句的基本格式概念定义if语句是Python中的条件控制语句，用于根据条件的真假执行不同的代码块。其基本结构如下：if条件:代码块使用场景if语句适用于需要根据条件决定是否执行某段代码的情况，例如：检查用户输入是否合法判断变量是否符合预期值根据计算结果选择不同的处理方式常见误区或注意事项条件表达式后必须加冒号（:）代码块必须缩进（通常4个空格或1个制表符）条件表达式的结果应为布
Python中if及else使用 moclocd Python编程 python
if、else使用{Python的if判断语句可以单独使用，也可搭配else使用：如：if(变量名运算符数值或另一个变量名)://括号可加可不加，如果不加，第一个变量名前就需要加一个空格。语句组1//语句组可多写，但是!!!语句组一定要和if的判断条件对齐!!!不然会报错!!!{例：if(a>=0):print(a)}或：if(变量名运算符数值或另一个变量名):语句组1else:语句组2//els
Python的判断语言if/elif/else Star___J python 开发语言后端
Python的判断语句分为"单分支"、"二分之"、"多分支"。Python判断语言"单分支"语句:if:if条件:代码块它包含这样几个部分:if关键字，表示这是一条判断语句；表示判断的条件，当这个条件被满足(即条件为真)时，执行中的代码，条件不满足时，中的代码不会被执行；冒号表示判断代码的开始；表示条件满足时，执行代码块。例如:x=5ifx>1:#if后面跟的就是条件，如果x大于1代码就会继续执行
【力扣—剑指 Offer（第 2 版）简单题目解析汇总】 Wupke 剑指offer 数据结构与算法学习 LeetCode leetcode 剑指offer 数据结构与算法
【力扣—剑指Offer（第2版）简单题目解析汇总】说明1、基本字符串数组数组-排序矩阵/模拟枚举2、算法动态规划深度优先搜索广度优先搜索递归分治记忆化搜索快速选择二分查找3、基础数据结构树（二叉树）二叉搜索树栈队列堆（优先队列）哈希表链表4、技巧性题目双指针位运算计数设计说明简单题目共计38道，按照标签分类为：基本、算法、基础数据结构、技巧等，具体如下。1、基本字符串剑指Offer05.替换空格.
【GitHub开源项目实战】高频交易系统实战解析：基于 Nautilus Trader 的策略回测与事件驱动架构优化观熵 GitHub开源项目实战 github 开源架构
高频交易系统实战解析：基于NautilusTrader的策略回测与事件驱动架构优化关键词：高频交易、事件驱动架构、NautilusTrader、量化回测、算法交易、PythonCython、交易引擎、回测系统、交易策略框架、实战优化摘要：本篇博客围绕GitHub上高质量的开源项目nautechsystems/nautilus_trader展开系统性实战解析。NautilusTrader是一套为专业
Python 中 if 和 else 基础知识的详解和使用点云SLAM Python python 开发语言 python基础学习 Python中流程控制语法 if和else语法人工智能基础计算机语言
一、基本语法结构if条件1:#条件1为真时执行的代码块elif条件2:#条件1不成立，条件2成立时执行else:#所有条件都不成立时执行注意：elif是“elseif”的缩写，可以有多个；else可省略；条件表达式必须是可以返回布尔值的语句（True或False）；Python使用缩进表示代码块，通常是4个空格。二、常见条件表达式表达式含义x==y等于x!=y不等于x>y,x=y,x0:print
【点云压缩】Haar小波变换与RAHT自适应区域层级变换丶契阔算法
Haar小波小波变换由一堆小波基和其系数组成，小波基又分为母小波（低频的）和父小波（高频的）。常用于二维图形处理的小波变换是Haar小波变换，Haar小波变换具有压缩比、抗干扰、速度快的特点，经过小波变换后的系数数据会变得具有规律性，方便后续处理算法进行压缩，同时一些值较小的分量置0不影响图片整体观感。截取了PCL-AVS-PCC一段小波变换点云压缩的代码voidWaveletCoreTransf
从零开始大模型开发与微调：PyTorch中的卷积函数实现详解 AI天才研究院 AI人工智能与大数据 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
从零开始大模型开发与微调：PyTorch中的卷积函数实现详解1.背景介绍1.1大模型开发的意义1.2卷积神经网络在大模型中的应用1.3PyTorch框架简介2.核心概念与联系2.1卷积的数学定义2.2卷积神经网络的组成2.2.1卷积层2.2.2池化层2.2.3全连接层2.3卷积与大模型的关系3.核心算法原理具体操作步骤3.1卷积的前向传播3.2卷积的反向传播3.3卷积的优化策略3.3.1卷积核大小
python多线程：自定义线程类实现线程体、多线程锁机制、死锁问题的解决网小鱼的学习笔记 Python python 开发语言
自定义线程类实现线程体其实threading.Thread是threading模块内的一个类，我们可以自行设计一个类，让这个类继承threading.Thread类，接着在def_init_()内调用threading_Thread_init()方法，然后再所设计的类类别设计run方法，这个概念就称为自定义线程。自定义线程类实现线程体importthreadingimporttime#自定义子线程
C++(20/23)标准模板库编程 - 1 C++ 回顾 akluse C++c++开发语言
引言现代C++编程最引人注目的特点或许并非其语言本身的表达性语法与语义，而是标准模板库(STL)。STL是一个包含多功能模板类与算法的庞大集合。若运用得当，STL能显著简化和提升高性能优质软件的开发流程。然而对于许多C++程序员——无论是初学者还是资深开发者——要掌握如何有效运用STL的编程结构往往令人望而生畏。《实用C++STL编程》作为指导性教材，将教会您如何成功应用STL的类、算法及其他编程
插入排序解析老一岁算法数据结构排序算法
可以将插入排序类比为整理扑克牌的过程：左手持已排序的牌（初始为空）右手从桌上未排序的牌堆中逐张取牌将取到的牌插入左手正确位置最终左手持完全有序的牌前言一、算法工作原理插入排序是一种基于比较的简单排序算法，其核心思想是逐步构建有序序列。算法将待排序数组视为两个部分：已排序部分（初始时仅包含第一个元素）和未排序部分。通过不断从未排序部分取出元素，在已排序部分中找到适当位置插入，最终完成整个数组的排序。
深度剖析数据中台：大数据领域的核心技术架构大数据洞察大数据架构 java ai
深度剖析数据中台：大数据领域的核心技术架构关键词：数据中台、大数据、核心技术架构、数据治理、数据服务摘要：本文旨在对数据中台这一大数据领域的核心技术架构进行深度剖析。首先介绍了数据中台的背景，包括其目的、适用读者、文档结构和相关术语。接着阐述了数据中台的核心概念、原理和架构，通过文本示意图和Mermaid流程图进行直观展示。详细讲解了核心算法原理及具体操作步骤，并结合Python源代码进行说明。引
DOCKER教程 weixin_34388207 运维操作系统 python
2019独角兽企业重金招聘Python工程师标准>>>注意事项1.官方申明docker还是在开发完善中，不建议在运营的产品中使用它，但是现在离正式版越来越接近了，请关注我们的博客http://blog.docker.io/2013/08/getting-to-docker-1-0/2.系统注意事项-由于现在的docker的局限性，现在只能使用在64位的服务器上边安装教程ubntu安装教程（12.0
Python简单理解1-10阶乘和运算小张不嚣张꒰ঌ(˚ᆺ˚)໒꒱ Python爬虫基础集合 python 后端
简单理解for循环实现1-10的阶乘运算基本思路;首先分析阶乘的关系如1!=12!=2*1=23!=3*2*1=64!=4*3*2*1=245!=5*4*3*2*1=120....10!=10*9*8*7*6*5*4*3*2*1=3628800自2以后的阶乘都是前面数的阶乘再乘以本身的数。如4的阶乘4!=43!(32*1),因此我们可以使用for循环来执行代码，定义一个变量啊a和一个总和sum然后
python实现回文数的判断简单理解
回文数的判断及解析第一种方法：第二种方法：回文数：简单来说就是，无论是从前往后读还是从后往前读，都是一样的第一种方法：通过字符串的一些特定的功能来判断是不是回文数a=str(input("请输入你要输入的数字:"))#输入字符串b=a[::-1]#倒序输出ifa==b:#判断是否相等print(f'{a}是回文数')else:print('{}不是回文数'.format(a))#format方法输
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l