圣西罗风之子

《机器学习实战》笔记——第二章：k-近邻算法（kNN）实战

1 说明

该书主要以原理简介+项目实战为主，本人学习的主要目的是为了结合李航老师的《统计学习方法》以及周志华老师的西瓜书的理论进行学习，从而走上机器学习的“不归路”。因此，该笔记主要详细进行代码解析，从而透析在进行一项机器学习任务时候的思路，同时也积累自己的coding能力。
正文由如下几部分组成：
1、实例代码（详细注释）
2、知识要点（函数说明）
3、调试及结果展示

2 正文

（1）准备：使用python导入数据

1、将如下内容写入kNN.py文件：

from numpy import *
import operator

def createDataSet():
    group = array([[1.0,1.1],
                   [1.0,1.0],
                   [0  ,0  ],
                   [0  ,0.1]])
    labels = ['A','A','B','B']
    return group, labels

知识要点：
①operator模块：该模块是python中内置的操作符函数接口，它定义了一些算术和比较内置操作的函数。接下的代码会用到该模块中的一个非常重要的方法：itemgetter。

2、打开python交互式开发环境，执行以下命令并得到结果：

******
PyDev console: starting.
Python 3.6.7 |Anaconda, Inc.| (default, Oct 28 2018, 19:44:12) [MSC v.1915 64 bit (AMD64)] on win32
>>>import kNN
>>>group, labels = kNN.createDataSet()
>>>group
array([[1. , 1.1],
       [1. , 1. ],
       [0. , 0. ],
       [0. , 0.1]])
>>>labels
['A', 'A', 'B', 'B']

（2）实施kNN分类算法

1、在kNN.py文件中添加如下代码，该函数用于k-近邻算法的实现，其中4个输入分别是：输入向量inX（欲进行分类的数据），输入的训练样本集dataSet，标签向量labels以及所选k值。具体实现如下代码所示：

def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]#获取训练样本集的行数，即样本个数
    diffMat = tile(inX, (dataSetSize,1)) - dataSet#利用tile函数将inX向量构造成一个和dataset有相同行数列数的矩阵，并与之相减
    sqDiffMat = diffMat**2#各个元素分别平方
    sqDistances = sqDiffMat.sum(axis=1)#按列求和，即得到了每一个距离的平方
    distances = sqDistances**0.5#各个元素开平方即得到了距离矩阵
    sortedDistIndicies = distances.argsort()#把向量中每个元素进行排序，而它的结果是元素的索引形成的向量
    classCount={}
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]#把按值大小顺序排列的欧氏距离索引list前k个对应的labels遍历出来
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1#统计labels中各类出现的频次，以字典的形式输出
    #分解为元组列表，operator.itemgetter(1)按照第二个元素的次序对元组进行排序，reverse=True是逆序，即按照从大到小的顺序排列
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]

知识要点：
①tile()：tile函数位于python模块 numpy中，其功能是重复某个数组，从而形成新的数组。
②argsort()：tile函数位于python模块 numpy中，其功能是将目标数组中的元素从小到大排列，提取其对应的index(索引)，然后输出。
③sorted()：sorted函数是python的内置函数，用来做排序任务，该函数可以对list按一定的规则进行排序。
④items()：Python 字典(Dictionary) items() 函数以列表返回可遍历的(键, 值) 元组数组。返回值类型为dict_items。
⑤itemgetter()：operator模块提供的itemgetter函数用于获取对象的哪些维的数据，参数为一些序号（即需要获取的数据在对象中的序号），其定义的是一个函数，通过该函数作用到对象上才能获取值。

2、我们假设现在有个待测试数据（0,0），k值选择3，下面就来预测一下该数据所在分类是什么，还是接着之前的python交互式开发环境，所得结果是B分类：

******
>>>kNN.classify0([0,0], group, labels, 3)
'B'

（3）案例1-使用k-近邻算法改进约会网站的配对效果

1、书中案例给定了3个维度的特征，共计1000组，存放在工程根目录下的datingTestSet2.txt文本文件下。在将特征数据输入到分类器之前，需要将待处理数据的格式改变为分类器可以接受的格式。案例中定义了file2matrix函数，该函数的输入为文本文件名字符串，输出为训练样本矩阵和类标签向量。具体实现代码如下：

def file2matrix(filename):
    fr = open(filename)
    numberOfLines = len(fr.readlines())#获取文件的行数
    returnMat = zeros((numberOfLines,3))#构造返回的矩阵
    classLabelVector = []#构造返回的labels列表
    fr = open(filename)#此处为何还要开一次呢？
    index = 0
    for line in fr.readlines():
        line = line.strip()#按行去除头尾字符、空白符(包括\n、\r、\t、' '，即：换行、回车、制表符、空格)
        listFromLine = line.split('\t')#拆分字符串，通过指定分隔符对字符串进行切片，并返回分割后的字符串列表（list）
        returnMat[index,:] = listFromLine[0:3]#通过切片操作抽取特征向量
        classLabelVector.append(int(listFromLine[-1]))#获取labels
        index += 1
    return returnMat,classLabelVector

知识要点：
①open()：open() 函数是python内置的file对象中的一个方法，用于打开一个文件，创建一个 file 对象，相关的方法才可以调用它进行读写。
②readlines()：用于读取所有行(直到结束符 EOF)并返回列表，该列表可以由 Python 的 for… in … 结构进行处理。如果碰到结束符 EOF 则返回空字符串。
③strip()：用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列。
④split()：str.split(str="", num=string.count(str))。通过指定分隔符对字符串进行切片，如果参数 num 有指定值，则分隔 num+1 个子字符串。

2、在python交互开发环境中执行的命令和结果如下：

******
PyDev console: starting.
Python 3.6.7 |Anaconda, Inc.| (default, Oct 28 2018, 19:44:12) [MSC v.1915 64 bit (AMD64)] on win32
>>>from kNN import *
>>>datingDataMat, datingLabels = file2matrix('datingTestSet2.txt')
>>>datingDataMat
>>>array([[4.0920000e+04, 8.3269760e+00, 9.5395200e-01],
          [1.4488000e+04, 7.1534690e+00, 1.6739040e+00],
          [2.6052000e+04, 1.4418710e+00, 8.0512400e-01],
          ...,
          [2.6575000e+04, 1.0650102e+01, 8.6662700e-01],
          [4.8111000e+04, 9.1345280e+00, 7.2804500e-01],
          [4.3757000e+04, 7.8826010e+00, 1.3324460e+00]])
>>>datingLabels[0:20]
[3, 2, 1, 1, 1, 1, 3, 3, 1, 3, 1, 1, 2, 1, 1, 1, 1, 1, 2, 3]

此处我是重新打开了交互环境，如果你是按着书上的步骤一步一步做下来的，需要reload我们创建的kNN模块。而书中例程用的是python2，reload还是属于python内置的。如果我们用的是python3，那么就要通过下面的方式进行重载：

******
PyDev console: starting.
Python 3.6.7 |Anaconda, Inc.| (default, Oct 28 2018, 19:44:12) [MSC v.1915 64 bit (AMD64)] on win32
>>>from importlib import reload
>>>reload(kNN)

3、分析数据
使用Matplotlib创建散点图，以便辨识出一些数据模式。在python交互开发环境下输入命令：

>>>import matplotlib
>>>import matplotlib.pyplot as plt
>>>fig = plt.figure()
>>>ax = fig.add_subplot(111)
>>>ax.scatter(datingDataMat[:,1], datingDataMat[:,2])
<matplotlib.collections.PathCollection object at 0x0000022E5294ABE0>
>>>plt.show()

知识要点：
①figure()：创建一个图形实例对象。
②add_subplot(111)：就是在一张figure里面生成子图，参数111的意思是：将画布分割成1行1列，图像画在从左到右从上到下的第1块。
③datingDataMat[:,1], datingDataMat[:,2]：这两句分别表示了datingDataMat矩阵的第二、第三列数据，分别表示特征值“玩视频游戏所消耗的时间百分比”和“每周所消费的冰激凌公升数”。
④scatter()： matplotlib模块中的绘制散点图的函数，功能很强大，具体参数和使用方法就不展开了。

以上命令得到散点图如下所示：

上图是没有样本类别标签的约会数据散点图，难以辨识图中的点究竟属于哪个类别分类，同时也很难提取到有用的信息。根据书中例程，我们采用scatter函数通过色彩和点的大小对数据做个性化标记。这里我是另外创建了一个plottest.py文件：

# -*- coding: utf-8 -*-

from kNN import *
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties

font_set = FontProperties(fname=r"c:\windows\fonts\simsun.ttc", size=10)#设置轴标签所需的字体信息
datingDataMat, datingLabels = file2matrix('datingTestSet2.txt')
fig = plt.figure()#创建一个图形对象

ax = fig.add_subplot(211)
plt.xlabel("玩视频游戏所消耗时间百分比", fontproperties=font_set)
plt.ylabel("每周消费的冰激凌公升数", fontproperties=font_set)
ax.scatter(datingDataMat[:,1], datingDataMat[:,2], 15.0*array(datingLabels), 15.0*array(datingLabels))

bx = fig.add_subplot(212)
plt.xlabel("每年获取的飞行常客里程数", fontproperties=font_set)
plt.ylabel("玩视频游戏所消耗时间百分比", fontproperties=font_set)
bx.scatter(datingDataMat[:,0], datingDataMat[:,1], 15.0*array(datingLabels), 15.0*array(datingLabels))

plt.show()

执行后得到下图，从图中可以很明显看出，采用第一和第二列属性相较于第二和第三列可以得到更好的展示效果：

4、对数据进行归一化处理
对多维的特征数据进行归一化处理主要由两大好处：提升模型的收敛速度、提升模型的精度。提升模型的收敛速度：比如我们在做LR的时候，特征向量中不同特征的取值相差较大，会导致目标函数变“扁”，而归一化处理能够使得目标函数变“圆”，这样的话，我们在进行梯度下降的时候，梯度的方向就不会过多地偏离最小值的方向，会少走很多弯路，使得训练时间大大缩短。
而在我们KNN算法中，对数据进行归一化处理，主要是为了消除量纲差异导致的个别特征对计算结果影响过大，从而提高最终的模型精度。
这里采用的归一化方法为min-max标准化方法：
$newValue=\frac{oldValue-min}{max-min}$
通过代码实现如下：

def autoNorm(dataSet):
    minVals = dataSet.min(0)#返回矩阵中每一列的最小值
    maxVals = dataSet.max(0)#返回矩阵中每一列的最大值
    ranges = maxVals - minVals
    normDataSet = zeros(shape(dataSet))#构造一个shape和dataSet相同的全零矩阵
    m = dataSet.shape[0]#获取dataSet行数
    normDataSet = dataSet - tile(minVals, (m,1))#利用tile函数将minVals构造成一个和dataSet有相同行数列数的矩阵，并与之相减得到min-max标准化分子部分
    normDataSet = normDataSet/tile(ranges, (m,1))#利用tile函数将ranges构造成一个和dataSet有相同行数列数的矩阵得到分母部分，并完成整个数据集的归一化处理
    return normDataSet, ranges, minVals

知识要点：
①常见的归一化方法：min-max标准化(Min-max normalization)/0-1标准化(0-1 normalization)/线性函数归一化/离差标准化。具体实现方法，此处不作展开。
②min()/max()：返回给定参数的最小/大值，参数可以为序列。

打开python交互开发环境，通过下面命令输出归一化结果：

******
PyDev console: starting.
Python 3.6.7 |Anaconda, Inc.| (default, Oct 28 2018, 19:44:12) [MSC v.1915 64 bit (AMD64)] on win32
>>>from kNN import *
>>>datingDataMat, datingLabels = file2matrix('datingTestSet2.txt')
>>>normMat, ranges, minVals = autoNorm(datingDataMat)
>>>normMat
array([[0.44832535, 0.39805139, 0.56233353],
       [0.15873259, 0.34195467, 0.98724416],
       [0.28542943, 0.06892523, 0.47449629],
       ...,
       [0.29115949, 0.50910294, 0.51079493],
       [0.52711097, 0.43665451, 0.4290048 ],
       [0.47940793, 0.3768091 , 0.78571804]])
>>>ranges
array([9.1273000e+04, 2.0919349e+01, 1.6943610e+00])
>>>minVals
array([0.      , 0.      , 0.001156])

5、测试数据
模型基本都搞定了，现在进入最激动人心的时刻，让我们开始评估一下算法的性能如何。例程中选取的是数据集前10%的样本作为测试数据，当然你还可以采用其他的抽取比例或者抽取方式，这里我们还是按照书上的抽取方式来定义我们的datingClassTest函数：

def datingClassTest():
    hoRatio = 0.10#取10%作为测试样本
    datingDataMat,datingLabels = file2matrix('datingTestSet2.txt')#加载数据和标签
    normMat, ranges, minVals = autoNorm(datingDataMat)#归一化处理后载入
    m = normMat.shape[0]#获取normMat矩阵行数
    numTestVecs = int(m*hoRatio)#计算测试样本个数
    errorCount = 0.0#初始化错误计数器
    for i in range(numTestVecs):
        #取前numTestVecs个样本作为测试数据，依次导入classify0函数进行分类处理
        classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)
        print("the classifier came back with: %d, the real answer is: %d" % (classifierResult, datingLabels[i]))
        if (classifierResult != datingLabels[i]): errorCount += 1.0#如果结果不对则错误计数器+1
    print("the total error rate is: %f" % (errorCount/float(numTestVecs)))#输出错误率
    print(errorCount)

打开python交互式开发环境，输入如下命令，得到最终的错误率为5%：

******
PyDev console: starting.
Python 3.6.7 |Anaconda, Inc.| (default, Oct 28 2018, 19:44:12) [MSC v.1915 64 bit (AMD64)] on win32
>>>import kNN
>>>kNN.datingClassTest()
the classifier came back with: 3, the real answer is: 3
the classifier came back with: 2, the real answer is: 2
...,
the classifier came back with: 1, the real answer is: 1
the classifier came back with: 3, the real answer is: 1
the total error rate is: 0.050000
5.0

通过改变datingClassTest内变量hoRatio或k的值，错误率将会随着变量的变化而变化：
当hoRatio=0.2，k=3时，error rate=0.080000；
当hoRatio=0.3，k=3时，error rate=0.083333；
当hoRatio=0.4，k=3时，error rate=0.077500；
当hoRatio=0.5，k=3时，error rate=0.066000；
当hoRatio=0.5，k=10时，error rate=0.064000；
…

6、使用算法：构建完整可用系统
在kNN.py中定义如下函数，用来对用户输入的样本进行类别的预测：

#使用算法预测输入样本的类别
def classifyPerson():
    resultList = ['not at all', 'in small doses', 'in large doses']
    percentTats = float(input("percentage of time spent playing video games?"))#输入参数1
    ffMiles = float(input("freguent flier miles earned per year?"))#输入参数2
    iceCream = float (input("liters of ice cream consumed per year?"))#输入参数3
    datingDataMat, datingLabels = file2matrix('datingTestSet2.txt')#导入数据集和标签并转换成可用格式
    normMat, ranges, minVals = autoNorm(datingDataMat)#归一化数据
    inArr = array([ffMiles, percentTats, iceCream])#构造输入数组
    classifierResult = classify0((inArr-minVals)/ranges, normMat, datingLabels, 3)#进行分类预测
    print("You will probably like this person: ", resultList[classifierResult - 1])#输出分类结果

在python交互开发环境下，输入运行即可得到相应的预测结果：

******
PyDev console: starting.
Python 3.6.7 |Anaconda, Inc.| (default, Oct 28 2018, 19:44:12) [MSC v.1915 64 bit (AMD64)] on win32
>>>import kNN
>>>kNN.classifyPerson()
percentage of time spent playing video games?>? 10
freguent flier miles earned per year?>? 10000
liters of ice cream consumed per year?>? 0.5
You will probably like this person:  in small doses

（4）案例2-使用k-近邻算法构建手写识别系统

1、准备数据：将图像转换为测试向量
要使用classify0分类器，需要将图像统一格式化处理为一个向量，下面我们通过定义img2vector函数将32x32的二进制图像矩阵转换为1x1024的向量：

def img2vector(filename):
    returnVect = zeros((1,1024))#初始化一个1行1024列的向量
    fr = open(filename)
    for i in range(32):
        lineStr = fr.readline()#按行读取文件
        for j in range(32):
            returnVect[0,32*i+j] = int(lineStr[j])#将文件中的字符值逐个读入Numpy数组中
    return returnVect

在python命令行中输入下列命令测试img2vector函数：

******
PyDev console: starting.
Python 3.6.7 |Anaconda, Inc.| (default, Oct 28 2018, 19:44:12) [MSC v.1915 64 bit (AMD64)] on win32
>>>from kNN import *
>>>testVector = img2vector('testDigits/0_13.txt')
>>>testVector[0,0:31]
array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 1., 1.,
       1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])
>>>testVector[0,32:63]
array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 1., 1., 1., 1.,
       1., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

2、测试算法：使用k-近邻算法识别手写数字
我们将数据处理完成后，就可以来进行算法测试了。首先我们根据书中提示，将os模块中的listdir导入，以便列出给定目录的文件名。

from os import listdir

知识要点：
①listdir方法：os.listdir(path)方法用于返回指定的文件夹包含的文件或文件夹的名字的列表。这个列表以字母顺序。它不包括 ‘.’ 和’…’ 即使它在文件夹中。只支持在 Unix, Windows 下使用。

定义手写数字识别系统的测试代码：

def handwritingClassTest():
    hwLabels = []#初始化一个列表
    trainingFileList = listdir('trainingDigits')#通过os.listdir获取目标文件夹中的文件列表
    m = len(trainingFileList)#获取文件个数
    trainingMat = zeros((m,1024))#初始化数据集矩阵
    for i in range(m):
        fileNameStr = trainingFileList[i]#逐个获取文件名
        fileStr = fileNameStr.split('.')[0]
        classNumStr = int(fileStr.split('_')[0])#通过这两步对文件名称进行操作，逐个获取标签
        hwLabels.append(classNumStr)#将标签值逐个存入列表
        trainingMat[i,:] = img2vector('trainingDigits/%s' % fileNameStr)#对每个文件逐个进行数据转换，构建数据集矩阵
    testFileList = listdir('testDigits')#获取测试数据文件列表
    errorCount = 0.0#初始化错误计数器
    mTest = len(testFileList)#获取测试数据文件个数
    for i in range(mTest):
        fileNameStr = testFileList[i]#逐个获取测试数据文件名
        fileStr = fileNameStr.split('.')[0]
        classNumStr = int(fileStr.split('_')[0])#通过这两步对测试数据文件名称进行操作，逐个获取标签
        vectorUnderTest = img2vector('testDigits/%s' % fileNameStr)#将测试数据文件逐个转换成1x1024的向量
        classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3)#逐个输入分类器进行计算
        print("the classifier came back with: %d, the real answer is: %d" % (classifierResult, classNumStr))
        if (classifierResult != classNumStr): errorCount += 1.0#如果结果不对则错误计数器+1
    print("\nthe total number of errors is: %d" % errorCount)
    print("\nthe total error rate is: %f" % (errorCount/float(mTest)))#输出错误率

在python命令提示符中输入如下命令，测试该函数的输出结果为：

******
PyDev console: starting.
Python 3.6.7 |Anaconda, Inc.| (default, Oct 28 2018, 19:44:12) [MSC v.1915 64 bit (AMD64)] on win32
>>>from kNN import *
>>>handwritingClassTest()
the classifier came back with: 0, the real answer is: 0
the classifier came back with: 0, the real answer is: 0
the classifier came back with: 0, the real answer is: 0
...,
the classifier came back with: 6, the real answer is: 5
the classifier came back with: 5, the real answer is: 5
the classifier came back with: 5, the real answer is: 5
...,
the classifier came back with: 9, the real answer is: 9
the classifier came back with: 9, the real answer is: 9
the classifier came back with: 9, the real answer is: 9

the total number of errors is: 10

the total error rate is: 0.010571

从上面的输出可以看到，我们得到的错误率为0.010571。改变变量k的值或者修改函数handwritingClassTest随机选取训练样本、改变训练样本的数目，都可以对其错误率产生影响，此处就不展开了，可以参考上一个案例。

（5）本章小结

结合书中的论述及自己的理解（如果不对，麻烦帮忙指出），k-近邻算法主要有如下优缺点：
1、优点：
①准确度高，对数据没有假设，对outlier不敏感；
②理论成熟，既可以用来做分类也可以用来做回归；
③计算时间和空间线性于训练集的规模；
④重新训练的代价较低；

2、缺点：
①计算量大，执行效率不高；
②必须保存全部数据集，需要大量的内存；
③样本不平衡问题（即有些类别的样本数量很多，而其它样本的数量很少）；
④输出的可解释性不强，无法给出任何数据的基础结构信息。

知识要点：
①k-NN是一种基本分类与回归方法，其中作为分类方法，其输出还可以取多类。
②k-NN三个基本要素：k值的选择、距离度量、分类决策规则。
③k-NN的特殊情况是当k=1时，称为最近邻算法。
④特征空间中，对每个训练实例点xi，距离该点比其他点更近的所有点组成的一个区域，叫作单元（cell）。
⑤距离度量的方法有欧氏距离、Lp距离或Minkowski距离。
⑥取较小的k值，会使得近似误差减小，而估计误差增大，预测结果对实例点十分敏感，易发生过拟合；而较大的k值会使得估计误差减小，近似误差增大，如果k太大，会导致模型太过简单，忽略训练实例中的大量有用信息。在应用中，k值一般取一个比较小的数值，通常采用交叉验证法来选取最优k值。
⑦k-NN最简单的实现方式是线性扫描，但是当训练集很大的时候，计算十分耗时。为了提高k近邻搜索的效率，可以采用特殊的结构存储训练数据的方法来减少计算距离的次数，比如**kd树（kd tree）**方法。

3 完整代码

'''
Created on Sep 16, 2010
kNN: k Nearest Neighbors

Input:      inX: vector to compare to existing dataset (1xN)
            dataSet: size m data set of known vectors (NxM)
            labels: data set labels (1xM vector)
            k: number of neighbors to use for comparison (should be an odd number)
            
Output:     the most popular class label

@author: pbharrin

'''
from numpy import *
import operator
from os import listdir

#KNN分类器
def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]#获取训练样本集的行数，即样本个数
    diffMat = tile(inX, (dataSetSize,1)) - dataSet#利用tile函数将inX向量构造成一个和dataset有相同行数列数的矩阵，并与之相减
    sqDiffMat = diffMat**2#各个元素分别平方
    sqDistances = sqDiffMat.sum(axis=1)#按列求和，即得到了每一个距离的平方
    distances = sqDistances**0.5#各个元素开平方即得到了距离矩阵
    sortedDistIndicies = distances.argsort()#把向量中每个元素进行排序，而它的结果是元素的索引形成的向量
    classCount={}
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]#把按值大小顺序排列的欧氏距离索引list前k个对应的labels遍历出来
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1#统计labels中各类出现的频次，以字典的形式输出
    #分解为元组列表，operator.itemgetter(1)按照第二个元素的次序对元组进行排序，reverse=True是逆序，即按照从大到小的顺序排列
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]

#创建测试数据集
def createDataSet():
    group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
    labels = ['A','A','B','B']
    return group, labels

#将待处理数据的格式改变为分类器可以接受的格式
def file2matrix(filename):
    fr = open(filename)
    numberOfLines = len(fr.readlines())#获取文件的行数
    returnMat = zeros((numberOfLines,3))#构造返回的矩阵
    classLabelVector = []#构造返回的labels列表
    fr = open(filename)
    index = 0
    for line in fr.readlines():
        line = line.strip()#按行去除头尾字符、空白符(包括\n、\r、\t、' '，即：换行、回车、制表符、空格)
        listFromLine = line.split('\t')#拆分字符串，通过指定分隔符对字符串进行切片，并返回分割后的字符串列表（list）
        returnMat[index,:] = listFromLine[0:3]#通过切片操作抽取特征向量
        classLabelVector.append(int(listFromLine[-1]))#获取labels
        index += 1
    return returnMat,classLabelVector

#归一化处理
def autoNorm(dataSet):
    minVals = dataSet.min(0)#返回矩阵中每一列的最小值
    maxVals = dataSet.max(0)#返回矩阵中每一列的最大值
    ranges = maxVals - minVals
    normDataSet = zeros(shape(dataSet))#构造一个shape和dataSet相同的全零矩阵
    m = dataSet.shape[0]#获取dataSet行数
    normDataSet = dataSet - tile(minVals, (m,1))#利用tile函数将minVals构造成一个和dataSet有相同行数列数的矩阵，并与之相减得到min-max标准化分子部分
    normDataSet = normDataSet/tile(ranges, (m,1))#利用tile函数将ranges构造成一个和dataSet有相同行数列数的矩阵得到分母部分，并完成整个数据集的归一化处理
    return normDataSet, ranges, minVals

#测试算法，得出错误率
def datingClassTest():
    hoRatio = 0.10#取10%作为测试样本
    datingDataMat,datingLabels = file2matrix('datingTestSet2.txt')#加载数据和标签
    normMat, ranges, minVals = autoNorm(datingDataMat)#归一化处理后载入
    m = normMat.shape[0]#获取normMat矩阵行数
    numTestVecs = int(m*hoRatio)#计算测试样本个数
    errorCount = 0.0#初始化错误计数器
    for i in range(numTestVecs):
        #取前numTestVecs个样本作为测试数据，依次导入classify0函数进行分类处理
        classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)
        print("the classifier came back with: %d, the real answer is: %d" % (classifierResult, datingLabels[i]))
        if (classifierResult != datingLabels[i]): errorCount += 1.0#如果结果不对则错误计数器+1
    print("the total error rate is: %f" % (errorCount/float(numTestVecs)))#输出错误率
    print(errorCount)

#使用算法预测输入样本的类别
def classifyPerson():
    resultList = ['not at all', 'in small doses', 'in large doses']
    percentTats = float(input("percentage of time spent playing video games?"))#输入参数1
    ffMiles = float(input("freguent flier miles earned per year?"))#输入参数2
    iceCream = float (input("liters of ice cream consumed per year?"))#输入参数3
    datingDataMat, datingLabels = file2matrix('datingTestSet2.txt')#导入数据集和标签并转换成可用格式
    normMat, ranges, minVals = autoNorm(datingDataMat)#归一化数据
    inArr = array([ffMiles, percentTats, iceCream])#构造输入数组
    classifierResult = classify0((inArr-minVals)/ranges, normMat, datingLabels, 3)#进行分类预测
    print("You will probably like this person: ", resultList[classifierResult - 1])#输出分类结果

#手写识别系统：将图像转换为测试向量
def img2vector(filename):
    returnVect = zeros((1,1024))#初始化一个1行1024列的向量
    fr = open(filename)
    for i in range(32):
        lineStr = fr.readline()#按行读取文件
        for j in range(32):
            returnVect[0,32*i+j] = int(lineStr[j])#将文件中的字符值逐个读入Numpy数组中
    return returnVect

#测试算法：使用KNN算法识别手写数字
def handwritingClassTest():
    hwLabels = []#初始化一个列表
    trainingFileList = listdir('trainingDigits')#通过os.listdir获取目标文件夹中的文件列表
    m = len(trainingFileList)#获取文件个数
    trainingMat = zeros((m,1024))#初始化数据集矩阵
    for i in range(m):
        fileNameStr = trainingFileList[i]#逐个获取文件名
        fileStr = fileNameStr.split('.')[0]
        classNumStr = int(fileStr.split('_')[0])#通过这两步对文件名称进行操作，逐个获取标签
        hwLabels.append(classNumStr)#将标签值逐个存入列表
        trainingMat[i,:] = img2vector('trainingDigits/%s' % fileNameStr)#对每个文件逐个进行数据转换，构建数据集矩阵
    testFileList = listdir('testDigits')#获取测试数据文件列表
    errorCount = 0.0#初始化错误计数器
    mTest = len(testFileList)#获取测试数据文件个数
    for i in range(mTest):
        fileNameStr = testFileList[i]#逐个获取测试数据文件名
        fileStr = fileNameStr.split('.')[0]
        classNumStr = int(fileStr.split('_')[0])#通过这两步对测试数据文件名称进行操作，逐个获取标签
        vectorUnderTest = img2vector('testDigits/%s' % fileNameStr)#将测试数据文件逐个转换成1x1024的向量
        classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3)#逐个输入分类器进行计算
        print("the classifier came back with: %d, the real answer is: %d" % (classifierResult, classNumStr))
        if (classifierResult != classNumStr): errorCount += 1.0#如果结果不对则错误计数器+1
    print("\nthe total number of errors is: %d" % errorCount)
    print("\nthe total error rate is: %f" % (errorCount/float(mTest)))#输出错误率

你可能感兴趣的:(机器学习)

Python机器学习：从零基础到项目实战 Yuner2000 Python 机器学习人工智能
目录第一部分：思想与基石——万法归宗，筑基问道第1章：初探智慧之境——机器学习世界观1.1何为学习？从人类学习到机器智能1.2机器学习的“前世今生”：一部思想与技术的演进史1.3为何是Python？——数据科学的“通用语”1.4破除迷思：AI是“神”还是“器”？第2章：工欲善其事——Python环境与核心工具链2.1“乾坤在握”：Anaconda与JupyterNotebook的安装与配置2.2“
数据集标准化:软件2.0的基石工程 AI大模型应用之禅 java python javascript kotlin golang 架构人工智能
数据集标准化,软件工程,数据质量,机器学习,人工智能,数据治理,数据可信度1.背景介绍在当今数据爆炸的时代，数据已成为企业和组织的核心资产。然而，海量的原始数据往往杂乱无章，格式不统一，质量参差不齐，这严重阻碍了数据价值的挖掘和应用。数据标准化作为解决这一问题的关键技术，已成为软件2.0时代不可或缺的基石工程。软件2.0时代，人工智能、机器学习等技术蓬勃发展，对数据质量提出了更高的要求。传统的软件
Day9: OpenCV学习（一）—— 图像基础
系列文章目录上一篇：Day8：Python工程化——模块、包文章目录系列文章目录前言一、安装和导入1.安装二、图像认识1.图像2.图像分类三、基础图像操作1.图像读取2.图像显示3.图像裁剪4.图形尺寸修改5.图像保存6.图像绘制7.视频捕获即显示总结前言OpenCV（OpenSourceComputerVisionLibrary）是一个开源的计算机视觉和机器学习软件库。由一系列C++类和函数构成
Python 现代时间序列预测第二版（五）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/22eab741fce9c15dfad894ecf37bdd51译者：飞龙协议：CCBY-NC-SA4.0第十七章：概率预测及更多在整本书中，我们学习了生成预测的不同技术，包括一些经典方法，使用机器学习以及一些深度学习架构。但我们一直在关注一种典型的预测问题——为连续时间序列生成点预测，并且没有层级关系且历史数据足够丰富。我们之所以这样做，是因为这
云服务器性能优化全攻略：CPU、内存、磁盘IO调优实战 Gloria歌洛莉亚 c语言数据库服务器 python 性能优化
在云计算时代，服务器性能直接影响应用响应速度、用户体验和运营成本。无论是高并发网站、实时数据分析还是机器学习训练，优化云服务器性能都是开发者必须掌握的核心技能。本攻略将从CPU调度、内存管理、磁盘IO三个维度，结合Linux系统特性和实际场景，提供可落地的优化方案。一、CPU性能调优：从调度策略到并行计算1.1CPU资源监控与瓶颈定位实时监控工具：top-c#动态查看进程CPU占用（按P键按CPU
AI 驱动自动化运维平台架构与实现大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 算法机器学习人工智能决策树大数据
摘要：随着云计算、容器化和大规模分布式系统的普及，传统人工运维方法已难以满足现代IT环境中海量指标、日志和拓扑关系的实时分析与故障响应需求。AI驱动的自动化运维（AIOps）平台通过融合机器学习、深度学习、图分析以及强化学习等多学科技术，实现对海量运维数据的智能感知、预测、诊断和自动化修复。本文深入探讨AI驱动自动化运维平台的整体架构设计与核心技术实现，涵盖数据采集与预处理、AI引擎设计、自动化执
开源模型应用落地-qwen模型小试-Qwen2.5-7B-Instruct-玩转ollama（一）开源技术探险家开源模型-实际应用落地 #深度学习自然语言处理语言模型
一、前言在AI大模型百花齐放的时代，很多人都对新兴技术充满了热情，都想尝试一下。然而，实际上要入门AI技术的门槛非常高。除了需要高端设备，还需要面临复杂的部署和安装过程，这让很多人望而却步。在这样的背景下，Ollama的出现为广大开发者和爱好者提供了一条便捷的道路，极大地降低了应用机器学习的门槛。Ollama的优势在于其极致的简化。通过这个平台，用户可以轻松下载、运行和管理各种机器学习模型，而无需
机器学习之——认识机器学习 -睡到自然醒~ golang 重构开发语言
首先，什么是机器学习？参照百度百科的讲解，“机器学习是一门多领域交叉学科，设计概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习能力，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。”什么意思呢？也就是说，机器学习是一门跨领域的学科，是一种能够让机器模仿人类学习能力的一种学科。在Andrew的课程中，提到了几个机器学习的定义：1，A
Epoch 老兵发新帖人工智能
在深度学习和机器学习中，Epoch（轮次或周期）是一个核心训练概念，指模型在整个训练数据集上完成一次完整遍历的过程。以下是关于Epoch的详细解析：一、核心定义基本含义Epoch表示模型将所有训练数据完整学习一次的过程。例如：若训练集有10,000个样本，则1个Epoch即模型用这10,000个样本训练一轮。与相关概念的关系Batch（批次）：数据集被分割成的小组（如每批32个样本）。Iterat
Python --- day 10 Opencv模块的使用 AnAn__kang python opencv 开发语言
系列文章目录前言今天博主带大家进入Opencv的学习，这是一个专门针对处理图像和视频的一个模块，大家以理解为主，增强自己的编程思维，再后续我们训练模型时会大批量的处理图片时会经常用到这个模块。1OpenCV介绍OpenCV（开放源代码计算机视觉库）是一个开源的计算机视觉和机器学习软件库。由一系列C++类和函数构成，用于图像处理、计算机视觉领域的算法实现。1.1OpenCV优势**开源免费：**完全
机器学习数据预处理阶段为什么需要——归一化处理
参考：https://www.cnblogs.com/bjwu/p/8977141.html通常，在DataScience中，预处理数据有一个很关键的步骤就是数据的标准化。这里主要引用sklearn文档中的一些东西来说明，主要把各个标准化方法的应用场景以及优缺点总结概括，以来充当笔记。提升模型精度在机器学习算法的目标函数(例如SVM的RBF内核或线性模型的l1和l2正则化)，许多学习算法中目标函数
车辆云端威胁情报共享系统的多维解析与发展路径百态老人大数据人工智能
第一部分：内容本质提取原始内容描述了一个闭环网络安全体系：“车辆实时上传异常行为日志至安全运营中心（VSOC），云端通过机器学习分析攻击模式并下发全局防御策略”。其核心架构包含：数据采集层：车辆端持续收集异常行为日志数据，包含CAN总线通信模式、网络流量特征及驾驶行为数据传输层：通过V2X通信协议和OTA更新通道实现车云双向通信分析层：安全运营中心(VSOC)采用CNN-BiSRU等深度学习模型进
过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶 Ryan_sz1
1、过拟合、欠拟合及其解决方案过拟合、欠拟合机器学习或者训练深度神经网络的时候经常会出现欠拟合和过拟合这两个问题，但是，一开始我们的模型往往是欠拟合的，也正是因为如此才有了优化的空间，我们需要不断的调整算法来使得模型的表达能拿更强。但是优化到了一定程度就需要解决过拟合的问题了。也就是说欠拟合是模型表达能力不够，达不到很好的表达效果。而过拟合是在训练集的范围内表达能力过强，导致完全拟合了训练集。解决
数字人系统：AI界的超级巨星，你准备好了吗？优秘智能UMI 数字人人工智能深度学习计算机视觉机器学习自然语言处理语言模型图像处理
在这个日新月异的科技时代，每一个创新的火花都可能点燃一场变革的燎原之火。今天，我们要聊的，正是那颗在AI领域熠熠生辉的璀璨新星——优秘数字人系统。它不仅仅是技术的飞跃，更是对未来生活方式的深刻重塑，一场关于人机交互、智能共生的美好预演。技术原理：深度解析与智能构建的奥秘1.深度学习：智能的基石数字人系统的核心技术之一在于深度学习。深度学习是一种模仿人脑神经网络结构和功能的机器学习技术，通过构建多层
聚焦基础研究突破，北电数智联合复旦大学等团队提出“AI安全”DDPA方法入选ICML CSDN资讯人工智能安全数据要素大数据
近日，由北电数智首席科学家窦德景教授牵头，联合复旦大学和美国奥本大学等科研团队共同研发，提出一种DDPA（DynamicDelayedPoisoningAttack）新型对抗性攻击方法，为机器学习领域的安全研究提供新视角与工具，相关论文已被国际机器学习大会（ICML2025）收录。ICML由国际机器学习学会（IMLS）主办，聚焦深度学习、强化学习、自然语言处理等机器学习前沿方向，是机器学习与人工智
阿里云态势感知和安骑士有什么区别？阿腾云
阿里云态势感知和安骑士均是阿里云云盾安全产品，态势感知属于安全管理类的产品，安骑士数据服务器安全类产品，阿里云百科网来详细说下阿里云态势感知和安骑士之间的区别：态势感知和安骑士的区别简单来说，安骑士是检测云服务器漏洞的，态势感知提供安全类的大数据分析服务。态势感知：安全大数据分析平台，通过机器学习和结合全网威胁情报，发现传统防御软件无法覆盖的网络威胁，溯源攻击手段、并且提供可行动的解决方案。安骑士
「日拱一码」035 机器学习——调参过程可视化胖达不服输「日拱一码」机器学习人工智能调参过程可视化神经网络 python 模型可解释性
目录超参数搜索的3D曲面可视化交互式3D可视化神经网络学习率的3D可视化SVM超参数的3D决策边界可视化超参数优化的3D动画超参数搜索的3D曲面可视化##超参数搜索的3D曲面可视化importnumpyasnpimportmatplotlib.pyplotaspltfrommpl_toolkits.mplot3dimportAxes3Dfromsklearn.datasetsimportmake_
数据质量是机器学习项目的核心痛点，AI技术能提供智能化解决方案。 zzywxc787 python pandas numpy 人工智能自动化运维 AI编程
一、数据质量诊断系统（Python实现）importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.clusterimportKMeansfromsklearn.ensembleimportIsolationForestfromtensorflow.keras.modelsimportSequentialfromte
7.机器学习-十大算法之一拉索回归（Lasso）算法原理讲解以山河作礼。 #机器学习算法机器学习算法回归
7.机器学习-十大算法之一拉索回归（Lasso）算法原理讲解一·摘要二·个人简介三·前言四·原理讲解五·算法流程六·代码实现6.1坐标下降法6.2最小角回归法七·第三方库实现7.1scikit-learn实现（坐标下降法）：7.2scikit-learn实现（最小角回归法）：一·摘要拉索回归（LassoRegression）是一种线性回归的正则化形式，它通过引入L1范数惩罚项来实现模型的稀疏性，从
机器学习算法之回归算法福葫芦机器学习回归算法
一、回归算法思维导图二、算法概念、原理、应用场景和实例代码1、线性回归1.1、概念‌‌线性回归算法是一种统计分析方法，用于确定两种或两种以上变量之间的定量关系。‌线性回归算法通过建立线性方程来预测因变量（y）和一个或多个自变量（x）之间的关系。其基本形式为y=wx+e，其中w是权重，x是自变量，e是误差项。1.2、算法原理线性回归算法的核心在于找到最佳的拟合直线，使得预测值与实际值之间的误差最小。
7篇1章7节：机器学习算法解读，与数值预测回归模型构建 MD分析用R探索医药数据科学机器学习算法回归 r语言数据挖掘
机器学习是当今数据分析和人工智能的核心工具之一，其算法广泛应用于分类、回归、排序和推荐等领域。本篇将详细讲解机器学习的四大经典算法类型，并以回归问题为例深入探讨数值预测的关键步骤，包括数据准备、线性回归模型构建、模型预测及误差评估，帮助读者更系统地理解和掌握机器学习的基础知识及实际应用。一、机器学习的算法在数据科学和人工智能的浪潮中，机器学习算法成为了解决各种数据问题的关键工具。机器学习主要处理四
支持向量机SVM 李昊哲小课 sklearn 人工智能机器学习支持向量机算法机器学习 sklearn 人工智能数据挖掘
支持向量机SVM一、支持向量机算法支持向量机（SupportVectorMachine，SVM）是一种用于分类和回归分析的机器学习算法。分类场景举例（更容易理解）假设现在有一个二维平面上散落着一些点，这些点分为两类，一类是红色的圆形点，另一类是蓝色的方形点。我们的任务就是找到一条直线，能够把这两类点尽可能准确地分开。支持向量机算法做的事情就和这个类似。算法核心思想它不是随便找一条能分开两类数据的直
高斯混合模型（GMM）中的协方差矩阵类型与聚类形状关系详解码字的字节机器学习机器学习人工智能高斯混合模型 GMM
高斯混合模型（GMM）简介高斯混合模型（GaussianMixtureModel,GMM）是概率统计与机器学习交叉领域的重要模型，其核心思想是通过多个高斯分布的线性组合来描述复杂数据分布。与单一高斯分布不同，GMM能够捕捉数据中的多模态特性，这使得它在处理真实世界非均匀分布数据时展现出独特优势。从数学形式上看，一个包含K个分量的GMM可表示为：其中(\pi_k)是第k个高斯分量的混合系数（满足(\
机器学习初学者理论初解 Mikhail_G 机器学习人工智能
大家好!为什么手机相册能自动识别人脸？为什么购物网站总能推荐你喜欢的商品？这些“智能”背后，都藏着一位隐形高手——机器学习（MachineLearning）。一、什么是机器学习？简单说，机器学习是教计算机从数据中自己找规律的技术。就像教孩子认猫：不是直接告诉他“猫有尖耳朵和胡须”，而是给他看100张猫狗照片，让他自己总结出猫的特征。传统程序vs机器学习传统程序：输入规则+数据→输出结果（例：按“温
Embedding与向量数据库玖月初玖大模型应用开发基础人工智能 embedding 数据库
1.Embedding是什么EmbeddingModel是一种机器学习模型，它的核心任务是将离散的、高维的符号（如单词、句子、图片、用户、商品等）转换成连续的、低维的向量（称为“嵌入”或“向量表示”），并且这个向量能有效地捕捉原始符号的语义、关系或特征。1.1通俗理解EmbeddingModel是让计算机“理解”世界的核心工具，把“文字、图片、音频”等信息变成一串有意义的数字我们称之为“向量”。类
2023年第10期(NeuroImage)：DomainATM：多中心医学图像数据标准化工具箱影浮科技ImageFlow
基本信息1.标题：DomainATM:Domainadaptationtoolboxformedicaldataanalysis.2.期刊：NeuroImage3.IF/JCR/分区：7.4/Q1/中科院一区4.DOI：10.1016/j.neuroimage.2023.119863目录1、导读2、背景动机3、研究目的4、工具箱介绍5、测试试验6、局限不足1导读域适应（DA）是基于机器学习的现代医
在NLP深层语义分析中，深度学习和机器学习的区别与联系
在自然语言处理（NLP）的深层语义分析任务中，深度学习与机器学习的区别和联系主要体现在以下方面：一、核心区别特征提取方式机器学习：依赖人工设计特征（如词频、句法规则、TF-IDF等），需要领域专家对文本进行结构化处理。例如，传统情感分析需人工定义“情感词库”或通过词性标注提取关键成分。深度学习：通过神经网络自动学习多层次特征。例如，BERT等模型可从原始文本中捕获词向量、句法关系甚至篇章级语义，无
迁移学习：知识复用的智能迁移引擎 | 从理论到实践的跨域赋能范式大千AI助手人工智能 Python #OTHER 迁移学习人工智能机器学习算法神经网络大模型迁移
让AI像人类一样“举一反三”的通用学习框架本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、核心定义与基本概念迁移学习（TransferLearning）是一种机器学习范式，其核心思想是：将源领域（SourceDomain）学到的知识迁移到目标领域（TargetDomain），以提升目标任务的性能
AI原生应用中的用户画像构建：从理论到实践全解析
AI原生应用中的用户画像构建：从理论到实践全解析关键词：用户画像、AI原生应用、特征工程、机器学习、个性化推荐、数据隐私、模型优化摘要：本文全面解析AI原生应用中用户画像构建的全过程，从基础概念到核心技术，再到实际应用和未来趋势。我们将用通俗易懂的方式讲解用户画像如何像"数字身份证"一样工作，深入探讨特征提取、模型构建等关键技术，并通过实际案例展示用户画像在推荐系统、精准营销等场景中的应用。文章还
Python爬虫【四十五章】爬虫攻防战：异步并发+AI反爬识别的技术解密程序员_CLUB Python入门到进阶 python 爬虫人工智能
目录引言：当爬虫工程师遇上AI反爬官一、异步并发基础设施层1.1混合调度框架设计1.2智能连接池管理二、机器学习反爬识别层2.1特征工程体系2.2轻量级在线推理三、智能决策系统3.1动态策略引擎3.2实时对抗案例四、性能优化实战4.1全链路压测数据4.2典型故障处理案例五、总结：构建智能化的爬虫生态系统Python爬虫相关文章（推荐）引言：当爬虫工程师遇上AI反爬官在大数据采集领域，我们正经历着技
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S