abc_138

Pyhthon3《机器学习实战》学习笔记一：K-近邻算法

1 k-近邻法简介

k近邻法(k-nearest neighbor, k-NN)是1967年由Cover T和Hart P提出的一种基本分类与回归方法。它的工作原理是：存在一个样本数据集合，也称作为训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后，将新的数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本最相似数据(最近邻)的分类标签。一般来说，我们只选择样本数据集中前k个最相似的数据，这就是k-近邻算法中k的出处，通常k是不大于20的整数。最后，选择k个最相似数据中出现次数最多的分类，作为新数据的分类。

k-近邻算法步骤如下：

计算已知类别数据集中的点与当前点之间的距离；
按照距离递增次序排序；
选取与当前点距离最小的k个点；
确定前k个点所在类别的出现频率；
返回前k个点所出现频率最高的类别作为当前点的预测分类。

KNN 通俗理解

给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的 k 个实例，这 k 个实例的多数属于某个类，就把该输入实例分为这个类。

2 Python3代码实现

我们已经知道了k-近邻算法的原理，那么接下来就是使用Python3实现该算法，

在构造完整的K-近邻算法之前，我们还需要编写一些基本的通用函数，在KNN.py增添下面代码：

import numpy as np
import operator

def createDataSet():
    group = np.array([[1.0,1.1],
                      [1.0,1.0],
                      [0,0],
                      [0,0.1]])
    labels = ['A','A','B','B']

    return group,labels

if __name__ == '__main__':

    group,labels = createDataSet()
    print(group)
    print(labels)

运行结果如下：

k-近邻算法

def knn_base(x,dataSet,labels,k):
    """
     X 是输入的测试样本，是一个[x, y]样式的
     dataset 是训练样本集
     labels 是训练样本标签
     k 是top k最相近的

    """
    dataSetSize = dataSet.shape[0]   # shape返回矩阵的[行数，列数]shape[0]获取数据集的行数
    """
     numpy中tile()函数用法
     >>>numpy.tile([0,0],5)#在列方向上重复[0,0]5次，默认行1次  
     array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])  
     >>> numpy.tile([0,0],(1,1))#在列方向上重复[0,0]1次，行1次  
     array([[0, 0]])  
     >>> numpy.tile([0,0],(2,1))#在列方向上重复[0,0]1次，行2次  
     array([[0, 0],  
           [0, 0]])

    """
    diff = np.tile(x,(dataSetSize,1)) - dataSet
    sqdiff = diff ** 2
    Distance_sum = sqdiff.sum(axis = 1)          # axis=1表示按照横轴，sum表示累加，即按照行进行累加。
    distance = np.sqrt(Distance_sum)
    sortedDistIndicies = np.argsort(distance)    # 按照升序进行快速排序，返回的是原数组的下标。
    # 存放最终的分类结果及相应的结果投票数
    classCount = {}


    # 投票过程，就是统计前k个最近的样本所属类别包含的样本个数
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]  #sortedDistIndicies[i]是第i个最相近的样本下标 labels是样本index对应的分类结果(‘A’ or ‘B’)
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1  # classCount.get(voteIlabel, 0)返回voteIlabel的值，如果不存在，则返回0 然后加1
        # 把分类结果进行排序，然后返回得票数最多的分类结果

        sortedclassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
        return sortedclassCount[0][0]

        # maxCount = 0
        # for key, value in classCount.items():
        #     if value > maxCount:
        #         maxCount = value
        #         classes = key
        #         print(classes)
        # return classes
if __name__ == '__main__':
    group, labels = createDataSet()
    a = knn_base([0,0],group,labels,3)
    print(a)

结果如下：

2.1、约会网站配对案例实战：

背景：海伦女士一直使用在线约会网站寻找适合自己的约会对象。尽管约会网站会推荐不同的任选，但她并不是喜欢每一个人。经过一番总结，她发现自己交往过的人可以进行如下分类：

不喜欢的人
魅力一般的人
极具魅力的人

海伦收集约会数据已经有了一段时间，她把这些数据存放在文本文件datingTestSet.txt中，每个样本数据占据一行，总共有1000行。

datingTestSet.txt 数据集下载

海伦收集的样本数据主要包含以下3种特征：

每年获得的飞行常客里程数
玩视频游戏所消耗时间百分比
每周消费的冰淇淋公升数

打开数据集如下图所示：

准备数据

在将上述特征数据输入到分类器前，必须将待处理的数据的格式改变为分类器可以接收的格式。分类器接收的数据是什么格式的？从上小结已经知道，要将数据分类两部分，即特征矩阵和对应的分类标签向量。在kNN.py文件中创建名为file2matrix的函数，以此来处理输入格式问题。将datingTestSet.txt放到与kNN.py相同目录下，编写代码如下：

"""
 将文本记录转换为Numpy的解析程序
"""


def file2matrix(filename):
    #打开文件
    fr=open(filename)
    #读取文件每一行到array0Lines列表
    #read():读取整个文件，通常将文件内容放到一个字符串中
    #readline():每次读取文件一行，当没有足够内存一次读取整个文件内容时，使用该方法
    #readlines():读取文件的每一行，组成一个字符串列表，内存足够时使用
    array0Lines=fr.readlines()
    #获取字符串列表行数行数
    numberOfLines=len(array0Lines)
    #返回的特征矩阵大小
    returnMat=np.zeros((numberOfLines,3))
    #list存储类标签
    classLabelVector=[]
    index=0
    for line in array0Lines:
        #去掉字符串头尾的空格，类似于Java的trim()
        line=line.strip()
        #将整行元素按照tab分割成一个元素列表
        listFromLine=line.split('\t')
        #将listFromLine的前三个元素依次存入returnmat的index行的三列
        returnMat[index,:]=listFromLine[0:3]
        #python可以使用负索引-1表示列表的最后一列元素，从而将标签存入标签向量中
        #使用append函数每次循环在list尾部添加一个标签值
        classLabelVector.append((listFromLine[-1]))
        index+=1
    return returnMat,classLabelVector

if __name__ == '__main__':
    datingDataMat , datingLabels = file2matrix('datingTestSet2.txt')
    print(datingDataMat)
    print(datingLabels)

[[  4.09200000e+04   8.32697600e+00   9.53952000e-01]
 [  1.44880000e+04   7.15346900e+00   1.67390400e+00]
 [  2.60520000e+04   1.44187100e+00   8.05124000e-01]
 ..., 
 [  2.65750000e+04   1.06501020e+01   8.66627000e-01]
 [  4.81110000e+04   9.13452800e+00   7.28045000e-01]
 [  4.37570000e+04   7.88260100e+00   1.33244600e+00]]
['3', '2', '1', '1', '1', '1', '3', '3', '1', '3', '1', '1', '2', '1', '1', '1', '1', '1', '2', '3', '2', '1', '2', '3', '2', '3', '2', '3', '2', '1', '3', '1', '3', '1', '2', '1', '1', '2', '3', '3', '1', '2', '3', '3', '3', '1', '1', '1', '1', '2', '2', '1', '3', '2', '2', '2', '2', '3', '1', '2', '1', '2', '2', '2', '2', '2', '3', '2', '3', '1', '2', '3', '2', '2', '1', '3', '1', '1', '3', '3', '1', '2', '3', '1', '3', '1', '2', '2', '1', '1', '3', '3', '1', '2', '1', '3', '3', '2', '1', '1', '3', '1', '2', '3', '3', '2', '3', '3', '1', '2', '3', '2', '1', '3', '1', '2', '1', '1', '2', '3', '2', '3', '2', '3', '2', '1', '3', '3', '3', '1', '3', '2', '2', '3', '1', '3', '3', '3', '1', '3', '1', '1', '3', '3', '2', '3', '3', '1', '2', '3', '2', '2', '3', '3', '3', '1', '2', '2', '1', '1', '3', '2', '3', '3', '1', '2', '1', '3', '1', '2', '3', '2', '3', '1', '1', '1', '3', '2', '3', '1', '3', '2', '1', '3', '2', '2', '3', '2', '3', '2', '1', '1', '3', '1', '3', '2', '2', '2', '3', '2', '2', '1', '2', '2', '3', '1', '3', '3', '2', '1', '1', '1', '2', '1', '3', '3', '3', '3', '2', '1', '1', '1', '2', '3', '2', '1', '3', '1', '3', '2', '2', '3', '1', '3', '1', '1', '2', '1', '2', '2', '1', '3', '1', '3', '2', '3', '1', '2', '3', '1', '1', '1', '1', '2', '3', '2', '2', '3', '1', '2', '1', '1', '1', '3', '3', '2', '1', '1', '1', '2', '2', '3', '1', '1', '1', '2', '1', '1', '2', '1', '1', '1', '2', '2', '3', '2', '3', '3', '3', '3', '1', '2', '3', '1', '1', '1', '3', '1', '3', '2', '2', '1', '3', '1', '3', '2', '2', '1', '2', '2', '3', '1', '3', '2', '1', '1', '3', '3', '2', '3', '3', '2', '3', '1', '3', '1', '3', '3', '1', '3', '2', '1', '3', '1', '3', '2', '1', '2', '2', '1', '3', '1', '1', '3', '3', '2', '2', '3', '1', '2', '3', '3', '2', '2', '1', '1', '1', '1', '3', '2', '1', '1', '3', '2', '1', '1', '3', '3', '3', '2', '3', '2', '1', '1', '1', '1', '1', '3', '2', '2', '1', '2', '1', '3', '2', '1', '3', '2', '1', '3', '1', '1', '3', '3', '3', '3', '2', '1', '1', '2', '1', '3', '3', '2', '1', '2', '3', '2', '1', '2', '2', '2', '1', '1', '3', '1', '1', '2', '3', '1', '1', '2', '3', '1', '3', '1', '1', '2', '2', '1', '2', '2', '2', '3', '1', '1', '1', '3', '1', '3', '1', '3', '3', '1', '1', '1', '3', '2', '3', '3', '2', '2', '1', '1', '1', '2', '1', '2', '2', '3', '3', '3', '1', '1', '3', '3', '2', '3', '3', '2', '3', '3', '3', '2', '3', '3', '1', '2', '3', '2', '1', '1', '1', '1', '3', '3', '3', '3', '2', '1', '1', '1', '1', '3', '1', '1', '2', '1', '1', '2', '3', '2', '1', '2', '2', '2', '3', '2', '1', '3', '2', '3', '2', '3', '2', '1', '1', '2', '3', '1', '3', '3', '3', '1', '2', '1', '2', '2', '1', '2', '2', '2', '2', '2', '3', '2', '1', '3', '3', '2', '2', '2', '3', '1', '2', '1', '1', '3', '2', '3', '2', '3', '2', '3', '3', '2', '2', '1', '3', '1', '2', '1', '3', '1', '1', '1', '3', '1', '1', '3', '3', '2', '2', '1', '3', '1', '1', '3', '2', '3', '1', '1', '3', '1', '3', '3', '1', '2', '3', '1', '3', '1', '1', '2', '1', '3', '1', '1', '1', '1', '2', '1', '3', '1', '2', '1', '3', '1', '3', '1', '1', '2', '2', '2', '3', '2', '2', '1', '2', '3', '3', '2', '3', '3', '3', '2', '3', '3', '1', '3', '2', '3', '2', '1', '2', '1', '1', '1', '2', '3', '2', '2', '1', '2', '2', '1', '3', '1', '3', '3', '3', '2', '2', '3', '3', '1', '2', '2', '2', '3', '1', '2', '1', '3', '1', '2', '3', '1', '1', '1', '2', '2', '3', '1', '3', '1', '1', '3', '1', '2', '3', '1', '2', '3', '1', '2', '3', '2', '2', '2', '3', '1', '3', '1', '2', '3', '2', '2', '3', '1', '2', '3', '2', '3', '1', '2', '2', '3', '1', '1', '1', '2', '2', '1', '1', '2', '1', '2', '1', '2', '3', '2', '1', '3', '3', '3', '1', '1', '3', '1', '2', '3', '3', '2', '2', '2', '1', '2', '3', '2', '2', '3', '2', '2', '2', '3', '3', '2', '1', '3', '2', '1', '3', '3', '1', '2', '3', '2', '1', '3', '3', '3', '1', '2', '2', '2', '3', '2', '3', '3', '1', '2', '1', '1', '2', '1', '3', '1', '2', '2', '1', '3', '2', '1', '3', '3', '2', '2', '2', '1', '2', '2', '1', '3', '1', '3', '1', '3', '3', '1', '1', '2', '3', '2', '2', '3', '1', '1', '1', '1', '3', '2', '2', '1', '3', '1', '2', '3', '1', '3', '1', '3', '1', '1', '3', '2', '3', '1', '1', '3', '3', '3', '3', '1', '3', '2', '2', '1', '1', '3', '3', '2', '2', '2', '1', '2', '1', '2', '1', '3', '2', '1', '2', '2', '3', '1', '2', '2', '2', '3', '2', '1', '2', '1', '2', '3', '3', '2', '3', '1', '1', '3', '3', '1', '2', '2', '2', '2', '2', '2', '1', '3', '3', '3', '3', '3', '1', '1', '3', '2', '1', '2', '1', '2', '2', '3', '2', '2', '2', '3', '1', '2', '1', '2', '2', '1', '1', '2', '3', '3', '1', '1', '1', '1', '3', '3', '3', '3', '3', '3', '1', '3', '3', '2', '3', '2', '3', '3', '2', '2', '1', '1', '1', '3', '3', '1', '1', '1', '3', '3', '2', '1', '2', '1', '1', '2', '2', '1', '1', '1', '3', '1', '1', '2', '3', '2', '2', '1', '3', '1', '2', '3', '1', '2', '2', '2', '2', '3', '2', '3', '3', '1', '2', '1', '2', '3', '1', '3', '2', '2', '2', '2', '2', '2', '2', '2', '2', '2', '2', '2', '3', '2', '2', '2', '2', '2', '1', '3', '3', '3']

可以看到，我们已经顺利导入数据，并对数据进行解析，格式化为分类器需要的数据格式。接着我们需要了解数据的真正含义。可以通过友好、直观的图形化的方式观察数据。

分析数据：数据可视化

绘制数据散点图：

if __name__ =='__main__':
    import numpy as np
    import matplotlib
    import matplotlib.pyplot as plt

    datingDataMat, datingLabels = file2matrix('datingTestSet2.txt')
    fig = plt.figure()
    ax = fig.add_subplot(111)
    ax.scatter(datingDataMat[:,1],datingDataMat[:,2],15.0*np.array(datingLabels),15.0*np.array(datingLabels))
    plt.xlabel("玩游戏所耗时间百分比")
    plt.ylabel("每周消费的冰淇淋公斤数")
    plt.show()

三类数据按照第2-3列属性聚类，不同颜色：

稍微修改代码位按照数据1-2列属性聚类：

ax.scatter(datingDataMat[:,0], datingDataMat[:, 1], 15.0*array(datingLabels), 15.0*array(datingLabels))

准备数据：数据归一化

下表给出了四组样本，如果想要计算样本3和样本4之间的距离，可以使用欧拉公式计算

样本	玩游戏所耗时间百分比	每年获得的飞行常用里程数	每周消费的冰淇淋公升数	样本分类
1	0.8	400	0.5	1
2	12	134000	0.9	3
3	0	20000	1.1	2
4	67	32000	0.1	2

我们很容易发现，上面方程中数字差值最大的属性对计算结果的影响最大，也就是说，每年获取的飞行常客里程数对于计算结果的影响将远远大于表中其他两个特征-玩视频游戏所耗时间占比和每周消费冰淇淋公斤数的影响。而产生这种现象的唯一原因，仅仅是因为飞行常客里程数远大于其他特征值。但海伦认为这三种特征是同等重要的，因此作为三个等权重的特征之一，飞行常客里程数并不应该如此严重地影响到计算结果。

在处理这种不同取值范围的特征值时，我们通常采用的方法是将数值归一化，如将取值范围处理为０到１或者-１到１之间。下面的公式可以将任意取值范围的特征值转化为０到１区间内的值：

newValue = (oldValue - min) / (max - min)

其中min和max分别是数据集中的最小特征值和最大特征值。虽然改变数值取值范围增加了分类器的复杂度，但为了得到准确结果，我们必须这样做。在kNN.py文件中编写名为autoNorm的函数，用该函数自动将数据归一化。代码如下：

"""
数据归一化
"""
def autoNorm(dataSet):
    minVals = dataSet.min(0)                            #找出每一列的最小值
    maxVals = dataSet.max(0)                            #找出每一列的最大值
    range = maxVals - minVals
    normDataSet = np.zeros(np.shape(dataSet))           #创建与dataSet等大小的归一化矩阵，shape()获取矩阵的大小

    m = dataSet.shape[0]                                #获取dataSet第一维度的大小

    normDataSet = dataSet - np.tile(minVals,(m,1))      #将dataSet的每一行的对应列减去minVals中对应列的最小值
    normDataSet = normDataSet / np.tile(range,(m,1))    #归一化，公式newValue=(value-minvalue)/(maxVal-minVal)

    return normDataSet, range, minVals

运行上述代码

if __name__ == '__main__':
    datingDataMat , datingLabels = file2matrix('datingTestSet2.txt')
    normMat, ranges, minVals = autoNorm(datingDataMat)
    print(normMat)
    print(ranges)
    print(minVals)

从运行结果可以看到，我们已经顺利将数据归一化了，并且求出了数据的取值范围和数据的最小值，这两个值是在分类的时候需要用到的，直接先求解出来，也算是对数据预处理了。

测试算法：验证分类器

机器学习算法一个很重要的工作就是评估算法的正确率，通常我们只提供已有数据的90%作为训练样本来训练分类器，而使用其余的10%数据去测试分类器，检测分类器的正确率。需要注意的是，10%的测试数据应该是随机选择的，由于海伦提供的数据并没有按照特定目的来排序，所以我么你可以随意选择10%数据而不影响其随机性。

为了测试分类器效果，在kNN.py文件中创建函数datingClassTest，编写代码如下

"""
分类器针对约会网站的测试
"""

def datingClassTest():
    h = 0.1
    # 将返回的特征矩阵和分类向量分别存储到datingDataMat和datingLabels中
    datingDataMat,datingLabels = file2matrix(r"D:\PythonWenjian\mlshizhan\knn\datingTestSet.txt")
    # print(datingDataMat)
    normMat , ranges,minVals = autoNorm(datingDataMat)   #数据归一化,返回归一化后的矩阵,数据范围,数据最小值
    m =normMat.shape[0]                                  #获得normMat的行数

    numTestVecs = int(m*h)                               #百分之十的测试数据的个数

    errcount = 0.0                                       #分类错误计数
    for i in range (numTestVecs):
        # 前numTestVecs个数据作为测试集,后m-numTestVecs个数据作为训练集
        classifierResult = knn_base(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)
        print("the classifier came back with : %s,the real answer is: %s" %(classifierResult,datingLabels[i]))
        if classifierResult != datingLabels[i]:
            errcount += 1.0
    print("the total error rate is: %f"%(errcount/float(numTestVecs)))


if __name__ == '__main__':
    datingClassTest()

运行上述代码，得到结果如图所示

从结果中可以看出，错误率是8%，这是一个想当不错的结果。我们可以改变函数datingClassTest内变量hoRatio和分类器k的值，检测错误率是否随着变量值的变化而增加。依赖于分类算法、数据集和程序设置，分类器的输出结果可能有很大的不同。

使用算法：构建完整可用系统

我们可以给海伦一个小段程序，通过该程序海伦会在约会网站上找到某个人并输入他的信息。程序会给出她对男方喜欢程度的预测值。

在kNN.py文件中创建函数classifyPerson，代码如下：

# -*- coding: utf-8 -*-
# @Time    : 2018/3/23 0023 22:11
# @Author  : Administrator
# @FileName: knn.py

import numpy as np
import operator

def createDataSet():
    group = np.array([[1.0,1.1],
                      [1.0,1.0],
                      [0,0],
                      [0,0.1]])
    labels = ['A','A','B','B']

    return group,labels

def knn_base(x,dataSet,labels,k):
    """
     X 是输入的测试样本，是一个[x, y]样式的
     dataset 是训练样本集
     labels 是训练样本标签
     k 是top k最相近的

    """
    dataSetSize = dataSet.shape[0]   # shape返回矩阵的[行数，列数]shape[0]获取数据集的行数
    """
     numpy中tile()函数用法
     >>>numpy.tile([0,0],5)#在列方向上重复[0,0]5次，默认行1次
     array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])
     >>> numpy.tile([0,0],(1,1))#在列方向上重复[0,0]1次，行1次
     array([[0, 0]])
     >>> numpy.tile([0,0],(2,1))#在列方向上重复[0,0]1次，行2次
     array([[0, 0],
           [0, 0]])

    """
    diff = np.tile(x,(dataSetSize,1)) - dataSet
    sqdiff = diff ** 2
    sqDistances = sqdiff.sum(axis = 1)          # axis=1表示按照横轴，sum表示累加，即按照行进行累加。
    #开方,计算出距离
    distances = sqDistances**0.5
    #返回distances中元素从小到大排序后的索引值
    sortedDistIndicies = distances.argsort()
    # 存放最终的分类结果及相应的结果投票数
    classCount = {}


    # 投票过程，就是统计前k个最近的样本所属类别包含的样本个数
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]  #sortedDistIndicies[i]是第i个最相近的样本下标 labels是样本index对应的分类结果(‘A’ or ‘B’)
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1  # classCount.get(voteIlabel, 0)返回voteIlabel的值，如果不存在，则返回0 然后加1
        # 把分类结果进行排序，然后返回得票数最多的分类结果

    sortedclassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
    return sortedclassCount[0][0]

        # maxCount = 0
        # for key, value in classCount.items():
        #     if value > maxCount:
        #         maxCount = value
        #         classes = key
        #         print(classes)
        # return classes

"""
 将文本记录转换为Numpy的解析程序
"""


def file2matrix(filename):
    #打开文件
    fr=open(filename)
    #读取文件每一行到array0Lines列表
    #read():读取整个文件，通常将文件内容放到一个字符串中
    #readline():每次读取文件一行，当没有足够内存一次读取整个文件内容时，使用该方法
    #readlines():读取文件的每一行，组成一个字符串列表，内存足够时使用
    array0Lines=fr.readlines()
    #获取字符串列表行数行数
    numberOfLines=len(array0Lines)
    #返回的特征矩阵大小
    returnMat=np.zeros((numberOfLines,3))
    #list存储类标签
    classLabelVector=[]
    index=0
    for line in array0Lines:
        #去掉字符串头尾的空格，类似于Java的trim()
        line=line.strip()
        #将整行元素按照tab分割成一个元素列表
        listFromLine=line.split('\t')
        #将listFromLine的前三个元素依次存入returnmat的index行的三列
        returnMat[index,:]=listFromLine[0:3]
        #python可以使用负索引-1表示列表的最后一列元素，从而将标签存入标签向量中
        #使用append函数每次循环在list尾部添加一个标签值
        classLabelVector.append(int((listFromLine[-1])))
        # if listFromLine[-1] == 'didntLike':
        #     classLabelVector.append(1)
        # elif listFromLine[-1] == 'smallDoses':
        #     classLabelVector.append(2)
        # elif listFromLine[-1] == 'largeDoses':
        #     classLabelVector.append(3)
        index+=1
    return returnMat,classLabelVector


"""
数据归一化
"""
def autoNorm(dataSet):
    minVals = dataSet.min(0)                            #找出每一列的最小值
    maxVals = dataSet.max(0)                            #找出每一列的最大值
    range = maxVals - minVals
    normDataSet = np.zeros(np.shape(dataSet))           #创建与dataSet等大小的归一化矩阵，shape()获取矩阵的大小

    m = dataSet.shape[0]                                #获取dataSet第一维度的大小

    normDataSet = dataSet - np.tile(minVals,(m,1))      #将dataSet的每一行的对应列减去minVals中对应列的最小值
    normDataSet = normDataSet / np.tile(range,(m,1))    #归一化，公式newValue=(value-minvalue)/(maxVal-minVal)

    return normDataSet, range, minVals


"""
分类器针对约会网站的测试
"""

def datingClassTest():
    h = 0.1
    #打开的文件名
    filename = "datingTestSet.txt"
    #将返回的特征矩阵和分类向量分别存储到datingDataMat和datingLabels中
    datingDataMat, datingLabels = file2matrix(filename)
    # print(datingDataMat)
    normMat , ranges,minVals = autoNorm(datingDataMat)   #数据归一化,返回归一化后的矩阵,数据范围,数据最小值
    m =normMat.shape[0]                                  #获得normMat的行数

    numTestVecs = int(m*h)                               #百分之十的测试数据的个数

    errcount = 0.0                                       #分类错误计数
    for i in range (numTestVecs):
        # 前numTestVecs个数据作为测试集,后m-numTestVecs个数据作为训练集
        classifierResult = knn_base(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)
        print("the classifier came back with : %s,the real answer is: %s" %(classifierResult,datingLabels[i]))
        if classifierResult != datingLabels[i]:
            errcount += 1.0
    print("the total error rate is: %f"%(errcount/float(numTestVecs)))



# 约会网站也测函数

def classifyPerson():
    resultList = ['not at all','in small doses','in large doses']
    percentTats = float(input("percentage of time spent playing video games?"))
    ffMiles = float(input("frequest filer miles earned per year?"))
    iceCream = float(input("liters of ice cream consumed per year?"))
    datingDataMat,datingLabels = file2matrix("datingTestSet2.txt")
    normMat ,ranges,minVals = autoNorm(datingDataMat)

    inArr = np.array([ffMiles,percentTats,iceCream])
    classifierResult = knn_base((inArr - minVals) / ranges,normMat,datingLabels,3)
    print("You will probaby like this person: " ,resultList[int(classifierResult) - 1])

if __name__ == '__main__':
   classifyPerson()

输入数据(10，10000,0.5)，预测结果是”你可能有些喜欢这个人”，也就是这个人魅力一般。一共有三个档次：讨厌、有些喜欢、非常喜欢，对应着不喜欢的人、魅力一般的人、极具魅力的人。结果如图所示。

2.2 手写数字识别系统

构造一个能识别数字 0 到 9 的基于 KNN 分类器的手写数字识别系统。

需要识别的数字是存储在文本文件中的具有相同的色彩和大小：宽高是 32 像素 * 32 像素的黑白图像。

目录 trainingDigits 中包含了大约 2000 个例子，每个例子内容如下图所示，每个数字大约有 200 个样本；目录 testDigits 中包含了大约 900 个测试数据。

编写函数 img2vector(), 将图像文本数据转换为分类器使用的向量。

"""
将图像转化为测试向量
"""
from os import listdir
def img2Vector(filename):
    returnVect = np.zeros((1,1024))
    fr = open(filename)
    for i in range (32):
        linStr = fr.readline()
        for j  in range(32):
            returnVect[0,32*i+j] = int(linStr[j])       # 就是根据首地址(位置)的偏移量计算出当前数据存放的地址(位置)
    return returnVect

if __name__ == '__main__':
    testVector = img2Vector('testDigits/0_13.txt')
    print(testVector[0,0:31])

结果为：

测试算法：编写函数使用提供的部分数据集作为测试样本，如果预测分类与实际类别不同，则标记为一个错误

def handwritingClassTest():
    hwLabels =[]
    trainingFileList = listdir('trainingDigits')       #列出给定目录的文件名列表，使用前需导入from os import listdir
    m = len(trainingFileList)                          #获取列表的长度
    trainingMat = np.zeros((m,1024))                   #创建一个m*1024的矩阵用于存储训练数据
    for i in range(m):
        fileNameStr = trainingFileList[i]              #获取当前行的字符串
        fileStr = fileNameStr.split('.')[0]            #将字符串按照'.'分开，并将前一部分放于fileStr
        classNumStr = int(fileStr.split('_')[0])       #将字符串按照'_'分开，并将前一部分放于classNumStr
        hwLabels.append(classNumStr)                   #将每个标签值全部存入一个列表中
        trainingMat[i:] = img2Vector(r'D:\PythonWenjian\mlshizhan\knn\trainingDigits/%s' % (fileNameStr))       #解析目录中的每一个文件，将图像转化为向量，最后存入训练矩阵中

    # 读取测试数据目录中的文件列表
    testFileList = listdir('testDigits')
    errorCount = 0.0
    mTest = len(testFileList)
    for i in range(mTest):
        fileNameStr = testFileList[i]
        fileStr= fileNameStr.split('.')[0]
        classNumStr = int(fileStr.split('_')[0])
        vectornderTest = img2Vector('D:/PythonWenjian/mlshizhan/knn/testDigits/'+ fileNameStr)

        classfilerResult = knn_base(vectornderTest,trainingMat,hwLabels,3)        #分类预测
        print("the classifier came back with: %d, the real answer is: %d " %(classfilerResult,classNumStr))

        if classfilerResult != classNumStr:
            errorCount += 1.0
    # 打印错误数和错误率
    print("the total number of error is : %d" % errorCount)
    print("the total error rate is: %f" % (errorCount / float(mTest)))


if __name__ == '__main__':
    handwritingClassTest()

测试该函数的输出结果，依赖于机器速度，加载数据集可能需要花费很长时间，输出结果如下所示：

3 总结

KNN 三要素

K的取值、距离度量 Metric/Distance Measure、分类决策（decision rule）

kNN算法的优缺点

优点

简单好用，容易理解，精度高，理论成熟，既可以用来做分类也可以用来做回归；
可用于数值型数据和离散型数据；
训练时间复杂度为O(n)；无数据输入假定；
对异常值不敏感。

缺点：

计算复杂性高；空间复杂性高；
样本不平衡问题（即有些类别的样本数量很多，而其它样本的数量很少）；
一般数值很大的时候不用这个，计算量太大。但是单个样本又不能太少，否则容易发生误分。
最大的缺点是无法给出数据的内在含义。

参考文献：

1 https://blog.csdn.net/c406495762/article/details/75172850

2 https://blog.csdn.net/sinat_17196995/article/details/55052174

3https://github.com/apachecn/MachineLearning/blob/master/docs/2.k-%E8%BF%91%E9%82%BB%E7%AE%97%E6%B3%95.md

你可能感兴趣的:(Python3机器学习实战)

UV - Python 包管理丽英y Python uv python 开发语言
文章目录创建uv项目已有项目已有uv项目创建uv项目#创建项目uvinitm3#创建环境cdm3uvvenv--python3.11#激活环境source.venv/bin/activate#添加库uvaddflask如果创建项目后，给库取别的名字，add的时候，会自动创建.venv文件夹>uvvenv--python3.12e312[0]UsingCPython3.12.8interpreter
Python环境管理新利器：UV工具详解云水木石 python uv 开发语言
Python包和环境管理最好的工具无疑是Anaconda，但我在之前的一篇文章《注意，使用这款Python软件可能会带来麻烦》写过，个人使用完全没有问题。如果在公司内使用，就需要格外小心，可能会招来官司。在我们公司，Anaconda（包括Miniconda）就是禁止安装的软件之一。但是在工作中，确实又存在需要切换不同Python版本的需求，比如编译Chromium需要Python3.8以上的版本，
Python 常用内建模块-venv 赔罪 Python 系统学习 python 开发语言
目录venv小结venv在开发Python应用程序的时候，系统安装的Python3只有一个版本：3.x。所有第三方的包都会被pip安装到Python3的site-packages目录下。如果我们要同时开发多个应用程序，那这些应用程序都会共用一个Python，就是安装在系统的Python3。如果应用A需要jinja2.7，而应用B需要jinja2.6怎么办？这种情况下，每个应用可能需要各自拥有一套“
python processpoolexecutor_Python线程和进程池并行编程三千香蕉三千 python
Python3.2版本之后发布了concurrent.futures模块，用以支持和管理并发编程，内容涵盖了进程和线程池(ThreadandProcessPooling)、非确定性执行流(NondeterministicExecutionFlows)以及进程和线程同步。本文通过将带有可选参数的任务提交(Submit)给执行器(Executor)来实例化futures对象。执行器是线程或者进程执行池
机器学习实战第一章机器学习基础 LuoY、 Machine Learning 机器学习算法人工智能
第一章机器学习1.1何谓机器学习1.2关键术语1.3机器学习的主要任务1.4如何选择合适的算法1.5开发机器学习应用程序的步骤1.6Python语言的优势1.1何谓机器学习 1、简单地说，机器学习就是把无序的数据转换成有用的信息； 2、机器学习能让我们自数据集中受启发，我们会利用计算机来彰显数据背后的真实含义； 3、机器学习横跨计算机科学、工程技术和统计学等多个学科，需要多学科的
nginx-部署Python网站项目 skyQAQLinux python linux nginx 服务器
一、部署Python网站项目实验要求配置Nginx使其可以将动态访问转交给uWSGI安装Python工具及依赖1)拷贝软件到proxy主机[root@server1~]#scp-r/linux-soft/s2/wk/python/192.168.99.5:/root2)安装python依赖软件[root@proxy~]#yum-yinstallgccmakepython3python3-devel
Python 3.6.8 64位独立安装程序霍娴果Myrtle
Python3.6.864位独立安装程序【下载地址】Python3.6.864位独立安装程序Python3.6.864位独立安装程序欢迎使用Python3.6.64位版安装包！本资源专门针对需要在64位操作系统上进行Python环境搭建的用户项目地址:https://gitcode.com/open-source-toolkit/98d19欢迎使用Python3.6.64位版安装包！本资源专门针对
Python 3.6.8 安装包下载何盼思Kit
Python3.6.8安装包下载【下载地址】Python3.6.8安装包下载Python3.6.8安装包下载本仓库提供适用于Windows操作系统的Python3.6.8安装包，支持x86和x64架构项目地址:https://gitcode.com/open-source-toolkit/d9647本仓库提供适用于Windows操作系统的Python3.6.8安装包，支持x86和x64架构。Pyt
facefusion AI换脸软件的本地部署过程记录 kfrealme 人工智能
tags:AI驾驭facefusion我的环境Win10+N卡安装步骤安装Python3.10方案手动安装Python官网下载安装包安装PythonReleasesforWindows|Python.org我的蓝奏云分享https://www.lanzoub.com/i9La81s1o5gb密码:h17b命令行安装1以管理员身份打开「命令提示符」2删除Microsoft官方源wingetsourc
VSCode python 遇到的问题：vscode can't open file '': [Errno 2] No such file or dire... weixin_33984032 python 开发工具 json
代码很简单，就两行：importpandasaspdimportnetCDF4asncdataset=nc.Dataset('20150101.nc')环境：在VSCode中左下角把原环境的Python3.6.532-bit切换为Anaconda中的Python3.6.564-bit('base':conda)过程中有两种错误：（忘记截图了，都是历史记录中的google网页搜索栏找到的搜索记录）1
安卓编译安装python_一文了解如何在安卓系统上安装Pydroid 3并进行编码 weixin_39916681 安卓编译安装python
由于Pydroid3集成开发环境(IDE)，因此可以用Python进行可移植的编码。Pydroid是Python3的极简解释器，可让您执行较小的项目并在Android设备上进行最少的编码。如果您还想在没有PC的任何地方学习Python编程，同时在Android上为Python复制PC平台，那么Pydroid3是一个不错的应用程序。无论您是Python编程的新手还是专家，让我们看看使用Pydroid
Nginx + CertBot 配置HTTPS泛域名证书(Rocky Linux 9.4)
#安装nginx此步省略，以nginx安装在'/usr/local/nginx-1.23.3'目录为例#1.安装certbot#更新包列表sudodnfupdate#安装EPEL仓库：EPEL仓库提供了许多有用的软件包，包括certbotsudodnfinstall-yepel-release#安装Certbot和Nginx插件。dnfinstall-ycertbotpython3-certbot
Python3包开发的高效Cookiecutter模板：python-package-template 一只爪子
本文还有配套的精品资源，点击获取简介：本文介绍了一个名为python-package-template的Cookiecutter模板，用于简化Python包的开发过程。该模板遵循Python的最佳实践，并自动创建项目结构，包括setup.py、MANIFEST.in、LICENSE、README.md、.gitignore、requirements.txt、测试配置文件、CI配置文件、测试目录和文
Python列表的创建只是没遇到 python
Python3列表序列是Python中最基本的数据结构。序列中的每个值都有对应的位置值，称之为索引，第一个索引是0，第二个索引是1，依此类推。Python有6个序列的内置类型，但最常见的是列表和元组。列表都可以进行的操作包括索引，切片，加，乘，检查成员。此外，Python已经内置确定序列的长度以及确定最大和最小的元素的方法。列表是最常用的Python数据类型，它可以作为一个方括号内的逗号分隔值出现
pyqt5报错：qt.qpa.plugin: Could not find the Qt platform plugin “xcb“（已解决）一问三不知_ 计算机知识 qt 开发语言 ubuntu bug conda python
我在使用pyqt库的时候报错：qt.qpa.plugin:CouldnotloadtheQtplatformplugin"xcb"in\"/mnt/private_disk/anaconda3/envs/aot-manip/lib/python3.8/site-packages/PyQt5/Qt5/plugins/platforms"eventhoughitwasfound.Thisapplica
Bug:eventlet ImportError cannot import name ‘ALREADY HANDLED uncle_ll Bug合集
问题测试gunicorn不同work下的性能时候，在eventlet方式下报错误Error:classuri'eventlet'invalidornotfound:[Traceback(mostrecentcalllast):File"/app/venv/lib64/python3.6/site-packages/gunicorn/util.py",line99,inload_classmod=i
人脸识别的一些代码饿了就干饭 CV相关人脸识别
1、cv2入门函数imread及其相关操作2、（详解）opencv里的cv2.resize改变图片大小Python3、机器学习之人脸识别face_recognition使用4、使用face_recognition进行人脸校准5、简单的人脸识别通用流程示意图（这个看着写的挺好的）6、face_recognition和图像处理中left、top、right、bottom解释7、使用pillow库对图片
CentOS7下安装python3.8 讓丄帝愛伱 Linux 编程语言
查看系统版本#查看系统版本cat/etc/centos-release>CentOSLinuxrelease7.2.1511(Core)uname-a>Linuxlocalhost.localdomain3.10.0-327.el7.x86_64#1SMPThuNov1922:10:57UTC2015x86_64x86_64x86_64GNU/Linux#查看python版本python-V>Py
Ubuntu18.04切换python3.8版本波波维琦 python linux ubuntu
安装python3.8sudoaptinstallpython3.8赋予python优先级sudoupdate-alternatives--install/usr/bin/pythonpython/usr/bin/python3.82切换python默认版本sudoupdate-alternatives--configpython选择python3.8的编号，回车赋予python3优先级sudou
交叉编译python3.8 岁月金刀 python linux 开发语言
参考链接：交叉编译移植Python到arm架构下的Linux系统-白菜没我白-博客园Python3交叉编译步骤（二）-三方库的交叉编译-秀才哥哥-博客园一、先安装Ubantu虚拟机上的python：1，下载python3.8安装包2，安装依次执行如下步骤：./configureprefix=/usr/local/python3//prefix是指定安装目录，你可以自己新建目录安装到那里makema
python做飞机大战让敌机打子弹_python（pygame）滑稽大战(类似飞机大战) 教程青云若水
初始准备工作本项目使用的python3版本(如果你用python2，我不知会怎么样)Ide推荐大家选择pycharm(不同ide应该没影响)需要安装第三方库pygame，pygame安装方法(windows电脑，mac系统本人实测与pygame不兼容，强行运行本项目卡成ppt)电脑打开cmd命令窗口，输入pip3installpygame补充说明:由于众所周知的原因，安装过程中下载可能十分缓慢，甚
python异步--asyncio HWQlet python python异步编程
在python2.x和python3.x早期版本的时候，协程的主流实现方法是gevent，这个我之前讲过asyncio在python3.4后内置在python中了，在后面还有async/await，更后面有aiohttp，flask实现就有参照aiohttpasync和await分别又来替换早期协程的asyncio.coroutine和yieldfrom。从此以后，协程就是python中一个新的语
Centos7软件包管理(rpm、yum) Bulut0907 Linux centos 软件包管理 rpm yum yum源修改
目录1.rpm2.yum2.1修改yum源1.rpmRPM(RedHatPackageManager)，redhat系列操作系统里面的打包安装工具查询命令：查询安装的所有rpm软件包：rpm-qa查询指定rpm软件包，并显示详细信息：rpm-qipython3卸载命令：卸载软件包，不管是否有其它软件包依赖该软件包：rpm-e--nodeps软件包名称安装命令：安装rpm包，并显示详细信息和进度条(
python3+ffmpeg下载B站视频，附代码才华横溢吴道简爬虫 python windows
最近要去外面玩，旅途漫长，于是乎，就写了个代码，从B站上下载纪录片看，代码附后，请自取，如果觉得有用，麻烦点个赞，鼓励一下。感谢~~一、下载安装ffmpegFfmpeg是一款自由软件，用于视频和音频文件的处理，在本例中，我使用它进行视频文件和音频文件的合并。合并代码写在python脚本中，你只需下载好ffmpeg即可，而且因为合并代码中使用ffmpeg的绝对路径，所以也不用设置环境配置。Ffmpe
如何使用 Python 和 FFmpeg 下载 B站视频木觞清 7天熟练Python python ffmpeg 音视频
在这篇文章中，我们将讨论如何使用Python脚本结合FFmpeg下载并合并B站视频的流，生成一个完整的视频文件。具体来说，我们将通过B站的API获取视频的音频和视频流，然后使用FFmpeg下载并将它们合并成一个.mp4文件。前提条件Python：你需要安装Python，推荐使用Python3.6或更高版本。FFmpeg：确保你已经安装并配置好了FFmpeg。如果尚未安装，可以参考FFmpeg官方网
【ai】mocap：conda 安装python3.8+ cuda+ pytorch+torchaudio、torchvision 等风来不如迎风去 AI入门与实战人工智能 ubuntu conda
MotionCapubuntu18.04不知道为啥会依赖于ffmpeg、xorg渲染？安装pytorch就是会带上cudacudnn啥的pytorch【ai】tx2nx：安装torch、torchvisionforyolov5这里就发现pytorch和torchvision有依赖关系的，还涉及到rapidjson所以python的环境隔离很重要。核心库-cudatoolkit=11.3-pytor
从 0 开始使用 cursor 开发一个移动端跨平台应用程序沐怡旸 react native
1.安装必要的工具和环境在开始之前，确保你的开发环境已经安装了以下工具：a.安装Node.js和npmReactNative依赖Node.js和npm（NodePackageManager）。你可以从Node.js官网下载并安装最新版本。b.安装PythonReactNative的Android开发需要Python。确保你已经安装了Python2.7或Python3.x。c.安装Java环境Rea
python函数支持哪些参数类型_Python函数的几种参数类型 weixin_39965283
以下代码均以Python3为基础理解。初识Python函数大部分常见的语言如C、Java、PHP、C#、JavaScript等属于C系语言，Python不属于他们中的一员（ruby亦然）。在这些语言中，Python也属于比较新奇的一派，就函数来说，它没有大括号，用def关键字定义一个函数，定义后用:然后换行tab指定函数函数的范围，当然也不存在什么分号。作为一个函数，那个它肯定是有参数的，Pyth
视频转音频, 音频转文字言之。 python 音视频
Ubuntu24环境准备#系统级依赖sudoaptupdate&&sudoaptinstall-yffmpegpython3-venvgitbuild-essentialpython3-dev#Python虚拟环境python3-mvenv~/ai_summarysource~/ai_summary/bin/activate核心工具链工具用途安装命令Whisper语音识别pipinstallope
用 Python 实现每秒百万级请求 weixin_33719619 python 网络后端
本文讲的是用Python实现每秒百万级请求，用Python可以每秒发出百万个请求吗？这个问题终于有了肯定的回答。许多公司抛弃Python拥抱其他语言就为了提高性能节约服务器成本。但是没必要啊。Python也可以胜任。Python社区近来针对性能做了很多优化。CPython3.6新的字典实现方式提升了解释器的总体性能。得益于更快的调用约定和字典查询缓存，CPython3.7会更快。对于计算密集型工作
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，