niehewang

机器学习实战（1）--KNN --约会网站

示例：在约会网站上使用k近邻算法

(1)收集数据：提供文本文件。

(2)准备数据: 使用python解析文本文件。

(3)分析数据：使用Matplotlib画二维扩散图。

(4)训练算法：此步驟不适用于k近邻算法。

(5)测试算法：使用海伦提供的部分数据作为测试样本。

测试样本和非测试样本的区别在于：测试样本是已经完成分类的数据，如果预测分类与实际类别不同，则标记为一个错误。

(6)使用算法：产生简单的命令行程序，然后海伦可以输入一些特征数据以判断对方是否为自己喜欢的类型。

准备数据：从文本文件中解析数据

#!/usr/bin/python
# -*- coding: UTF-8 -*-

import numpy as np
import operator
from openpyxl.chart.label import DataLabel

def file2matrix(filename):
    #打开文件
    fr = open(filename)
    #读取文件所有内容
    arrayOfLines = fr.readlines()
    #文件行数
    numberOfLines = len(arrayOfLines)
    #创建特征矩阵
    returnMat = np.zeros((numberOfLines,3))
    #创建标签数组
    classLabelVector = []
    index = 0
    for line in arrayOfLines:
        #移除字符串头尾空格
        line = line.strip()
        #按'\t'切片
        listFromLine = line.split('\t')
        #把特征存放到特征矩阵中
        returnMat[index,:] = listFromLine[0:3]
        #标签分类并存放到标签数组
        if listFromLine[-1] == 'didntLike':
            classLabelVector.append(1)
        elif listFromLine[-1] == 'smallDoses':
            classLabelVector.append(2)
        elif listFromLine[-1] == 'largeDoses':
            classLabelVector.append(3)
        index += 1
    return returnMat, classLabelVector

if __name__=='__main__':
    dataMat, DataLabel = file2matrix('datingTestSet.txt')
    print(dataMat)
    print(DataLabel)

分析数据：使用使用Matplotlib画二维扩散图

#!/usr/bin/python
# -*- coding: UTF-8 -*-

import numpy as np
import operator
from openpyxl.chart.label import DataLabel
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties
import matplotlib.lines as mlines
from IPython.core.pylabtools import figsize

def file2matrix(filename):
    #打开文件
    fr = open(filename)
    #读取文件所有内容
    arrayOfLines = fr.readlines()
    #文件行数
    numberOfLines = len(arrayOfLines)
    #创建特征矩阵
    returnMat = np.zeros((numberOfLines,3))
    #创建标签数组
    classLabelVector = []
    index = 0
    for line in arrayOfLines:
        #移除字符串头尾空格
        line = line.strip()
        #按'\t'切片
        listFromLine = line.split('\t')
        #把特征存放到特征矩阵中
        returnMat[index,:] = listFromLine[0:3]
        #标签分类并存放到标签数组
        if listFromLine[-1] == 'didntLike':
            classLabelVector.append(1)
        elif listFromLine[-1] == 'smallDoses':
            classLabelVector.append(2)
        elif listFromLine[-1] == 'largeDoses':
            classLabelVector.append(3)
        index += 1
    return returnMat, classLabelVector

def showDatas(dataMat, dataLabel):
    #把画布分成4块，即2行2列，并设置画布大小
    fig, axs = plt.subplots(nrows=2, ncols=2,figsize=(12,8))
    #用matplotlib画图后，如果要添加汉字标签，比如设置汉字格式
    font = FontProperties(fname=r"c:\Windows\Fonts\simsun.ttc", size=15)
    #创建标签数组
    labelColors = []
    #给不同的标签设置不同颜色
    for i in dataLabel:
        if 1 == i:
            labelColors.append('red')
        if 2 == i:
            labelColors.append('black')
        if 3 == i:
            labelColors.append('green')
    #给子图设置散列点，散列点颜色、大小
    axs[0][0].scatter(dataMat[:,0],dataMat[:,1],c=labelColors,s=5)
    axs[0][1].scatter(dataMat[:,0],dataMat[:,2],c=labelColors,s=5)
    axs[1][0].scatter(dataMat[:,1],dataMat[:,2],c=labelColors,s=5)
    #给子图设置标题
    axs[0][0].set_title('每年获得的飞行常客里程数与玩视频游戏所消耗时间的比',FontProperties=font)
    axs[0][1].set_title('每年获得的飞行常客里程数与每周消费的冰激淋公升数',FontProperties=font)
    axs[1][0].set_title('玩视频游戏所消耗时间占比与每周消费的冰激淋公升数',FontProperties=font)
    #子图的X轴标题
    axs[0][0].set_xlabel('每年获得的飞行常客里程数',FontProperties=font)
    axs[0][1].set_xlabel('每年获得的飞行常客里程数',FontProperties=font)
    axs[1][0].set_xlabel('玩视频游戏所耗时间百分比',FontProperties=font)
    #子图的Y轴标题
    axs[0][0].set_ylabel('玩视频游戏所耗时间百分比',FontProperties=font)
    axs[0][1].set_ylabel('每周消费的冰激淋公升数',FontProperties=font)
    axs[1][0].set_ylabel('每周消费的冰激淋公升数',FontProperties=font)   
    #图例设置
    didntLike = mlines.Line2D([], [], color='black', marker='.',markersize=6, label='didntLike')
    smallDoses = mlines.Line2D([], [], color='orange', marker='.',markersize=6, label='smallDoses')
    largeDoses = mlines.Line2D([], [], color='red', marker='.',markersize=6, label='largeDoses')
    #添加图例
    axs[0][0].legend(handles=[didntLike,smallDoses,largeDoses])
    axs[0][1].legend(handles=[didntLike,smallDoses,largeDoses])
    axs[1][0].legend(handles=[didntLike,smallDoses,largeDoses])
    #紧凑显示图片，居中显示，保证各子图的标签和标题不会互相覆盖
    plt.tight_layout()
    #显示图片
    plt.show()

if __name__=='__main__':
    dataMat, DataLabel = file2matrix('datingTestSet.txt')
    showDatas(dataMat,DataLabel)

准备数据：归一化数值

我们很容易发现，上面方程中数字差值最大的属性对计算结果的影响最大，也就是说，每年获取的飞行常客里程数对于计算结果的影响将远远大于其他两个特征— 玩视频游戏的和每周消费冰洪淋公升数— 的影响。而产生这种现象的唯一原因，仅仅是因为飞行常客里程数远大于其他特征值。但海伦认为这三种特征是同等重要的，因此作为三个等权重的特征之一，飞行常客里程数并不应该如此严重地影响到计算结果。

在处理这种不同取值范围的特征值时，我们通常采用的方法是将数值归一化，如将取值范围处理为0到1或者-1到1之间。可以用欧拉公式计算。

newValue = (oldValue - min) / (max - min)

#!/usr/bin/python
# -*- coding: UTF-8 -*-

import numpy as np
import operator
from openpyxl.chart.label import DataLabel
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties
import matplotlib.lines as mlines
from IPython.core.pylabtools import figsize

def file2matrix(filename):
    #打开文件
    fr = open(filename)
    #读取文件所有内容
    arrayOfLines = fr.readlines()
    #文件行数
    numberOfLines = len(arrayOfLines)
    #创建特征矩阵
    returnMat = np.zeros((numberOfLines,3))
    #创建标签数组
    classLabelVector = []
    index = 0
    for line in arrayOfLines:
        #移除字符串头尾空格
        line = line.strip()
        #按'\t'切片
        listFromLine = line.split('\t')
        #把特征存放到特征矩阵中
        returnMat[index,:] = listFromLine[0:3]
        #标签分类并存放到标签数组
        if listFromLine[-1] == 'didntLike':
            classLabelVector.append(1)
        elif listFromLine[-1] == 'smallDoses':
            classLabelVector.append(2)
        elif listFromLine[-1] == 'largeDoses':
            classLabelVector.append(3)
        index += 1
    return returnMat, classLabelVector

def showDatas(dataMat, dataLabel):
    #把画布分成4块，即2行2列，并设置画布大小
    fig, axs = plt.subplots(nrows=2, ncols=2,figsize=(12,8))
    #用matplotlib画图后，如果要添加汉字标签，比如设置汉字格式
    font = FontProperties(fname=r"c:\Windows\Fonts\simsun.ttc", size=15)
    #创建标签数组
    labelColors = []
    #给不同的标签设置不同颜色
    for i in dataLabel:
        if 1 == i:
            labelColors.append('red')
        if 2 == i:
            labelColors.append('black')
        if 3 == i:
            labelColors.append('green')
    #给子图设置散列点，散列点颜色、大小
    axs[0][0].scatter(dataMat[:,0],dataMat[:,1],c=labelColors,s=5)
    axs[0][1].scatter(dataMat[:,0],dataMat[:,2],c=labelColors,s=5)
    axs[1][0].scatter(dataMat[:,1],dataMat[:,2],c=labelColors,s=5)
    #给子图设置标题
    axs[0][0].set_title('每年获得的飞行常客里程数与玩视频游戏所消耗时间的比',FontProperties=font)
    axs[0][1].set_title('每年获得的飞行常客里程数与每周消费的冰激淋公升数',FontProperties=font)
    axs[1][0].set_title('玩视频游戏所消耗时间占比与每周消费的冰激淋公升数',FontProperties=font)
    #子图的X轴标题
    axs[0][0].set_xlabel('每年获得的飞行常客里程数',FontProperties=font)
    axs[0][1].set_xlabel('每年获得的飞行常客里程数',FontProperties=font)
    axs[1][0].set_xlabel('玩视频游戏所耗时间百分比',FontProperties=font)
    #子图的Y轴标题
    axs[0][0].set_ylabel('玩视频游戏所耗时间百分比',FontProperties=font)
    axs[0][1].set_ylabel('每周消费的冰激淋公升数',FontProperties=font)
    axs[1][0].set_ylabel('每周消费的冰激淋公升数',FontProperties=font)   
    #图例设置
    didntLike = mlines.Line2D([], [], color='black', marker='.',markersize=6, label='didntLike')
    smallDoses = mlines.Line2D([], [], color='orange', marker='.',markersize=6, label='smallDoses')
    largeDoses = mlines.Line2D([], [], color='red', marker='.',markersize=6, label='largeDoses')
    #添加图例
    axs[0][0].legend(handles=[didntLike,smallDoses,largeDoses])
    axs[0][1].legend(handles=[didntLike,smallDoses,largeDoses])
    axs[1][0].legend(handles=[didntLike,smallDoses,largeDoses])
    #紧凑显示图片，居中显示，保证各子图的标签和标题不会互相覆盖
    plt.tight_layout()
    #显示图片
    plt.show()
    
def autoNorm(dataSet):
    minVals = dataSet.min(0)
    maxVals = dataSet.max(0)
    #最小值和最大值的差
    ranges = maxVals - minVals
    #shape(dataSet)返回dataSet的矩阵行列数
    normDataSet = np.zeros(np.shape(dataSet))
    #返回dataSet的行数
    m = dataSet.shape[0]
    #原始值减去最小值
    normDataSet = dataSet - np.tile(minVals, (m,1))
    #除以最大值和最小值的差，得到的归一化的数据
    normDataSet = normDataSet / np.tile(ranges,(m,1))
    return normDataSet, ranges, minVals

if __name__=='__main__':
    dataMat, DataLabel = file2matrix('datingTestSet.txt')
    nornMat, ranges, minVals = autoNorm(dataMat)
    print(nornMat)
    print(ranges)
    print(minVals)

测试算法：作为完整程序验证分类器

我们巳经将数据按照需求做了处理，现在我们将测试分类器的效果，如果分类器的正确率满足要求，海伦就可以使用这个软件来处理约会网站提供的约会名单了。机器学习算法一个很重要的工作就是评估算法的正确率，通常我们只提供已有数据的90%作为训练样本来训练分类器，而使用其余的10%数据去测试分类器，检测分类器的正确率。关于选取测试样本有很多方法，这里我们还是采用最原始的做法。需要注意的是，10%的测试数据应该是随机选择的，由于海伦提供的数据并没有按照特定目的来排序，所以我们可以随意选择10%数据而不影响其随机性

前面我们巳经提到可以使用错误率来检测分类器的性能。对于分类器来说，错误率就是分类器给出错误结果的次数除以测试数据的总数，完美分类器的错误率为0，而错误率为1.0的分类器不会给出任何正确的分类结果。代码里我们定义一个计数器变量，每次分类器错误地分类数据，计数器就加1, 程序执行完成之后计数器的结果除以数据点总数即是错误率。

#!/usr/bin/python
# -*- coding: UTF-8 -*-

import numpy as np
import operator
from openpyxl.chart.label import DataLabel
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties
import matplotlib.lines as mlines
from IPython.core.pylabtools import figsize

def file2matrix(filename):
    #打开文件
    fr = open(filename)
    #读取文件所有内容
    arrayOfLines = fr.readlines()
    #文件行数
    numberOfLines = len(arrayOfLines)
    #创建特征矩阵
    returnMat = np.zeros((numberOfLines,3))
    #创建标签数组
    classLabelVector = []
    index = 0
    for line in arrayOfLines:
        #移除字符串头尾空格
        line = line.strip()
        #按'\t'切片
        listFromLine = line.split('\t')
        #把特征存放到特征矩阵中
        returnMat[index,:] = listFromLine[0:3]
        #标签分类并存放到标签数组
        if listFromLine[-1] == 'didntLike':
            classLabelVector.append(1)
        elif listFromLine[-1] == 'smallDoses':
            classLabelVector.append(2)
        elif listFromLine[-1] == 'largeDoses':
            classLabelVector.append(3)
        index += 1
    return returnMat, classLabelVector

def showDatas(dataMat, dataLabel):
    #把画布分成4块，即2行2列，并设置画布大小
    fig, axs = plt.subplots(nrows=2, ncols=2,figsize=(12,8))
    #用matplotlib画图后，如果要添加汉字标签，比如设置汉字格式
    font = FontProperties(fname=r"c:\Windows\Fonts\simsun.ttc", size=15)
    #创建标签数组
    labelColors = []
    #给不同的标签设置不同颜色
    for i in dataLabel:
        if 1 == i:
            labelColors.append('red')
        if 2 == i:
            labelColors.append('black')
        if 3 == i:
            labelColors.append('green')
    #给子图设置散列点，散列点颜色、大小
    axs[0][0].scatter(dataMat[:,0],dataMat[:,1],c=labelColors,s=5)
    axs[0][1].scatter(dataMat[:,0],dataMat[:,2],c=labelColors,s=5)
    axs[1][0].scatter(dataMat[:,1],dataMat[:,2],c=labelColors,s=5)
    #给子图设置标题
    axs[0][0].set_title('每年获得的飞行常客里程数与玩视频游戏所消耗时间的比',FontProperties=font)
    axs[0][1].set_title('每年获得的飞行常客里程数与每周消费的冰激淋公升数',FontProperties=font)
    axs[1][0].set_title('玩视频游戏所消耗时间占比与每周消费的冰激淋公升数',FontProperties=font)
    #子图的X轴标题
    axs[0][0].set_xlabel('每年获得的飞行常客里程数',FontProperties=font)
    axs[0][1].set_xlabel('每年获得的飞行常客里程数',FontProperties=font)
    axs[1][0].set_xlabel('玩视频游戏所耗时间百分比',FontProperties=font)
    #子图的Y轴标题
    axs[0][0].set_ylabel('玩视频游戏所耗时间百分比',FontProperties=font)
    axs[0][1].set_ylabel('每周消费的冰激淋公升数',FontProperties=font)
    axs[1][0].set_ylabel('每周消费的冰激淋公升数',FontProperties=font)   
    #图例设置
    didntLike = mlines.Line2D([], [], color='black', marker='.',markersize=6, label='didntLike')
    smallDoses = mlines.Line2D([], [], color='orange', marker='.',markersize=6, label='smallDoses')
    largeDoses = mlines.Line2D([], [], color='red', marker='.',markersize=6, label='largeDoses')
    #添加图例
    axs[0][0].legend(handles=[didntLike,smallDoses,largeDoses])
    axs[0][1].legend(handles=[didntLike,smallDoses,largeDoses])
    axs[1][0].legend(handles=[didntLike,smallDoses,largeDoses])
    #紧凑显示图片，居中显示，保证各子图的标签和标题不会互相覆盖
    plt.tight_layout()
    #显示图片
    plt.show()
    
def autoNorm(dataSet):
    minVals = dataSet.min(0)
    maxVals = dataSet.max(0)
    #最小值和最大值的差
    ranges = maxVals - minVals
    #shape(dataSet)返回dataSet的矩阵行列数
    normDataSet = np.zeros(np.shape(dataSet))
    #返回dataSet的行数
    m = dataSet.shape[0]
    #原始值减去最小值
    normDataSet = dataSet - np.tile(minVals, (m,1))
    #除以最大值和最小值的差，得到的归一化的数据
    normDataSet = normDataSet / np.tile(ranges,(m,1))
    return normDataSet, ranges, minVals

def classify0(inX, dataSet, labels, k):
    #numpy函数shape[0]返回dataSet的行数
    dataSetSize = dataSet.shape[0]
    diffMat = np.tile(inX, (dataSetSize, 1)) - dataSet
    #二维特征相减后平方
    sqDiffMat = diffMat**2
    #sum()所有元素相加，sum(0)列相加，sum(1)行相加
    sqDistances = sqDiffMat.sum(axis=1)
    #开方，计算出距离
    distances = sqDistances**0.5
    #返回distances中元素从小到大排序后的索引值
    sortedDistIndices = distances.argsort()
    #定一个记录类别次数的字典
    classCount = {}
    for i in range(k):
        #取出前k个元素的类别
        voteIlabel = labels[sortedDistIndices[i]]
        #dict.get(key,default=None),字典的get()方法,返回指定键的值,如果值不在字典中返回默认值。
        #计算类别次数
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
    sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
    #返回次数最多的类别,即所要分类的类别
    return sortedClassCount[0][0]

def datingClassTest():
    #打开的文件名
    filename = "datingTestSet.txt"
    #特征向量和标签数组
    datingDataMat, datingLabels = file2matrix(filename)
    #取所有数据的百分之十
    hoRatio = 0.10
    #数据归一化,返回归一化后的矩阵,数据范围,数据最小值
    normMat, ranges, minVals = autoNorm(datingDataMat)
    #获得normMat的行数
    m = normMat.shape[0]
    #百分之十的测试数据的个数
    numTestVecs = int(m * hoRatio)
    #分类错误计数
    errorCount = 0.0

    for i in range(numTestVecs):
        #前面的numTestVecs个数据作为测试集,后m-numTestVecs个数据作为训练集
        classifierResult = classify0(normMat[i,:], normMat[numTestVecs:m,:],
            datingLabels[numTestVecs:m], 3)
        print("分类结果:%d\t真实类别:%d" % (classifierResult, datingLabels[i]))
        if classifierResult != datingLabels[i]:
            errorCount += 1.0
    print("错误率:%f%%" %(errorCount/float(numTestVecs)*100))


if __name__=='__main__':
    #dataMat, DataLabel = file2matrix('datingTestSet.txt')
    #nornMat, ranges, minVals = autoNorm(dataMat)
    datingClassTest()

使用算法：构建完整可用系统

上面我们已经在数据上对分类器进行了测试，现在终于可以使用这个分类器为海伦来对人们分类。我们会给海伦一小段程序，通过该程序海伦会在约会网站上找到某个人并输入他的信息。程序会给出她对对方喜欢程度的预测值。

#!/usr/bin/python
# -*- coding: UTF-8 -*-

import numpy as np
import operator
from openpyxl.chart.label import DataLabel
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties
import matplotlib.lines as mlines
from IPython.core.pylabtools import figsize
from click._compat import raw_input

def file2matrix(filename):
    #打开文件
    fr = open(filename)
    #读取文件所有内容
    arrayOfLines = fr.readlines()
    #文件行数
    numberOfLines = len(arrayOfLines)
    #创建特征矩阵
    returnMat = np.zeros((numberOfLines,3))
    #创建标签数组
    classLabelVector = []
    index = 0
    for line in arrayOfLines:
        #移除字符串头尾空格
        line = line.strip()
        #按'\t'切片
        listFromLine = line.split('\t')
        #把特征存放到特征矩阵中
        returnMat[index,:] = listFromLine[0:3]
        #标签分类并存放到标签数组
        if listFromLine[-1] == 'didntLike':
            classLabelVector.append(1)
        elif listFromLine[-1] == 'smallDoses':
            classLabelVector.append(2)
        elif listFromLine[-1] == 'largeDoses':
            classLabelVector.append(3)
        index += 1
    return returnMat, classLabelVector

def showDatas(dataMat, dataLabel):
    #把画布分成4块，即2行2列，并设置画布大小
    fig, axs = plt.subplots(nrows=2, ncols=2,figsize=(12,8))
    #用matplotlib画图后，如果要添加汉字标签，比如设置汉字格式
    font = FontProperties(fname=r"c:\Windows\Fonts\simsun.ttc", size=15)
    #创建标签数组
    labelColors = []
    #给不同的标签设置不同颜色
    for i in dataLabel:
        if 1 == i:
            labelColors.append('red')
        if 2 == i:
            labelColors.append('black')
        if 3 == i:
            labelColors.append('green')
    #给子图设置散列点，散列点颜色、大小
    axs[0][0].scatter(dataMat[:,0],dataMat[:,1],c=labelColors,s=5)
    axs[0][1].scatter(dataMat[:,0],dataMat[:,2],c=labelColors,s=5)
    axs[1][0].scatter(dataMat[:,1],dataMat[:,2],c=labelColors,s=5)
    #给子图设置标题
    axs[0][0].set_title('每年获得的飞行常客里程数与玩视频游戏所消耗时间的比',FontProperties=font)
    axs[0][1].set_title('每年获得的飞行常客里程数与每周消费的冰激淋公升数',FontProperties=font)
    axs[1][0].set_title('玩视频游戏所消耗时间占比与每周消费的冰激淋公升数',FontProperties=font)
    #子图的X轴标题
    axs[0][0].set_xlabel('每年获得的飞行常客里程数',FontProperties=font)
    axs[0][1].set_xlabel('每年获得的飞行常客里程数',FontProperties=font)
    axs[1][0].set_xlabel('玩视频游戏所耗时间百分比',FontProperties=font)
    #子图的Y轴标题
    axs[0][0].set_ylabel('玩视频游戏所耗时间百分比',FontProperties=font)
    axs[0][1].set_ylabel('每周消费的冰激淋公升数',FontProperties=font)
    axs[1][0].set_ylabel('每周消费的冰激淋公升数',FontProperties=font)   
    #图例设置
    didntLike = mlines.Line2D([], [], color='black', marker='.',markersize=6, label='didntLike')
    smallDoses = mlines.Line2D([], [], color='orange', marker='.',markersize=6, label='smallDoses')
    largeDoses = mlines.Line2D([], [], color='red', marker='.',markersize=6, label='largeDoses')
    #添加图例
    axs[0][0].legend(handles=[didntLike,smallDoses,largeDoses])
    axs[0][1].legend(handles=[didntLike,smallDoses,largeDoses])
    axs[1][0].legend(handles=[didntLike,smallDoses,largeDoses])
    #紧凑显示图片，居中显示，保证各子图的标签和标题不会互相覆盖
    plt.tight_layout()
    #显示图片
    plt.show()
    
def autoNorm(dataSet):
    minVals = dataSet.min(0)
    maxVals = dataSet.max(0)
    #最小值和最大值的差
    ranges = maxVals - minVals
    #shape(dataSet)返回dataSet的矩阵行列数
    normDataSet = np.zeros(np.shape(dataSet))
    #返回dataSet的行数
    m = dataSet.shape[0]
    #原始值减去最小值
    normDataSet = dataSet - np.tile(minVals, (m,1))
    #除以最大值和最小值的差，得到的归一化的数据
    normDataSet = normDataSet / np.tile(ranges,(m,1))
    return normDataSet, ranges, minVals

def classify0(inX, dataSet, labels, k):
    #numpy函数shape[0]返回dataSet的行数
    dataSetSize = dataSet.shape[0]
    diffMat = np.tile(inX, (dataSetSize, 1)) - dataSet
    #二维特征相减后平方
    sqDiffMat = diffMat**2
    #sum()所有元素相加，sum(0)列相加，sum(1)行相加
    sqDistances = sqDiffMat.sum(axis=1)
    #开方，计算出距离
    distances = sqDistances**0.5
    #返回distances中元素从小到大排序后的索引值
    sortedDistIndices = distances.argsort()
    #定一个记录类别次数的字典
    classCount = {}
    for i in range(k):
        #取出前k个元素的类别
        voteIlabel = labels[sortedDistIndices[i]]
        #dict.get(key,default=None),字典的get()方法,返回指定键的值,如果值不在字典中返回默认值。
        #计算类别次数
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
    sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
    #返回次数最多的类别,即所要分类的类别
    return sortedClassCount[0][0]

def datingClassTest():
    #打开的文件名
    filename = "datingTestSet.txt"
    #特征向量和标签数组
    datingDataMat, datingLabels = file2matrix(filename)
    #取所有数据的百分之十
    hoRatio = 0.10
    #数据归一化,返回归一化后的矩阵,数据范围,数据最小值
    normMat, ranges, minVals = autoNorm(datingDataMat)
    #获得normMat的行数
    m = normMat.shape[0]
    #百分之十的测试数据的个数
    numTestVecs = int(m * hoRatio)
    #分类错误计数
    errorCount = 0.0

    for i in range(numTestVecs):
        #前面的numTestVecs个数据作为测试集,后m-numTestVecs个数据作为训练集
        classifierResult = classify0(normMat[i,:], normMat[numTestVecs:m,:],
            datingLabels[numTestVecs:m], 3)
        print("分类结果:%d\t真实类别:%d" % (classifierResult, datingLabels[i]))
        if classifierResult != datingLabels[i]:
            errorCount += 1.0
    print("错误率:%f%%" %(errorCount/float(numTestVecs)*100))

def classifyPerson():
    #输出结果列表
    resultList = ['not at all','in small doses','in large doses']
    #输入特征
    percentTats = float(input('game：'))
    ffMiles = float(input('fly：'))
    iceCream = float(input('iceCream：'))
    #打开的文件名
    filename = "datingTestSet.txt"
    #打开并处理数据
    datingDataMat, datingLabels = file2matrix(filename)
    #训练集归一化
    normMat, ranges, minVals = autoNorm(datingDataMat)
    #生成NumPy数组,测试集
    inArr = np.array([percentTats, ffMiles, iceCream])
    #测试集归一化
    norminArr = (inArr - minVals) / ranges
    #返回分类结果
    classifierResult = classify0(norminArr, normMat, datingLabels, 3)
    #打印结果
    print("you %s the people" % (resultList[classifierResult-1]))


if __name__=='__main__':
    classifyPerson()

麦萌短剧技术解构《我跑江湖那些年》：从“仇恨驱动型算法”到“多方安全计算的自我救赎” 短剧萌算法安全
《我跑江湖那些年》以慕青青的复仇与蜕变为主线，展现了分布式系统中的信任崩塌与对抗性博弈的模型优化。本文将从机器学习视角拆解这场“江湖算法”的技术隐喻，探讨如何在数据污染的困境中实现参数净化。1.初始训练集：暴力采样与特征空间坍缩慕青青（Agent_M）的成长环境可视为一个高偏差训练集：数据污染事件：村主任（Node_V）通过恶意共识算法（如嫉妒驱动的PoW机制），煽动村民（Sub_Nodes）对果
学习pytorch 阿什么名字不会重复呢学习 pytorch 人工智能
学习PyTorch是一个很好的选择，尤其是如果你对深度学习和机器学习感兴趣。以下是一个详细的学习计划，可以帮助你系统地掌握PyTorch的基本概念和应用。学习计划概览学习周期：8周（每周约4-5小时）目标：掌握PyTorch基础，能够实现简单的深度学习模型。第1周：基础知识目标：了解深度学习的基础知识，掌握Python和NumPy基础。任务：学习Python基础（数据类型、控制流、函数、类）。资源
【机器学习-基础知识】统计和贝叶斯推断人类发明了工具 ML&DL学习分享机器学习概率论人工智能
1.概率论基本概念回顾1.概率分布定义：概率分布（ProbabilityDistribution）指的是随机变量所有可能取值及其对应概率的集合。它描述了一个随机变量可能取的所有值以及每个值被取到的概率。对于离散型随机变量，使用概率质量函数来描述。对于连续型随机变量，使用概率密度函数来描述。举例说明：投掷一颗六面骰子，每个面上的数字（1到6）都有相同的概率（1/6）出现，这就是一个简单的概率分布例子
AI驱动的代码重构与优化技术 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
AI驱动的代码重构与优化技术概述什么是AI驱动的代码重构与优化？AI驱动的代码重构与优化技术，是指利用人工智能，特别是机器学习和深度学习的算法，对软件代码进行自动分析和改进的技术。这种技术能够通过学习大量的代码样本，识别出代码中的模式、问题和改进点，从而自动完成代码的重构和优化。重构的定义重构（Refactoring）是改进代码内部结构而不改变外部行为的过程。其目的通常是为了提高代码的可读性、可维
机器学习Pandas_learn3 XW-ABAP 机器学习 pandas
frompandasimportDataFrameimportnumpypaints={"车名":["奥迪Q5L","哈弗H6","奔驰GLC"],"最低报价":[numpy.nan,9.80,numpy.nan],"最高报价":[49.80,23.10,58.78]}goods_in=DataFrame(paints,index=[1,2,3])print(goods_in)goods_in_n
机器学习中输入输出Tokens的概念详解爱吃土豆的程序员机器学习基础机器学习人工智能 Tokens
随着深度学习技术的快速发展，大语言模型（LargeLanguageModels,LLMs）已经成为自然语言处理（NLP）领域的一个热点研究方向。这些模型不仅能够生成高质量的文本，还能在多种任务中展现出卓越的表现，比如机器翻译、问答系统、文本摘要等。在大语言模型的工作流程中，Tokens的概念扮演着至关重要的角色。本文将详细介绍大语言模型如何使用Tokens，以及如何计算Tokens的数量。什么是T
【sklearn 01】人工智能概述 @金色海岸人工智能 sklearn python
一、人工智能，机器学习，深度学习人工智能指由人类制造出的具有智能的机器。这是一个非常大的范围，长远目标是让机器实现人工智能，但目前我们仍处在非常初始的阶段，甚至不能称为智能机器学习是指通过数据训练出能完成一定功能的模型，是实现人工智能的手段之一，也是目前最主流的人工智能实现方法深度学习则是机器学习的分支，超过8层的神经网络模型就叫深度学习，深度即层数。深度学习目前在语音、图像等领域取得很好的效果
【AI】使用Python实现机器学习小项目教程丶2136 AI 人工智能 python 机器学习
引言在本教程中，我们将带领您使用Python编程语言实现一个经典的机器学习项目——鸢尾花（Iris）分类。通过这个项目，您将掌握机器学习的基本流程，包括数据加载、预处理、模型训练、评估和优化等步骤。论文AIGC检测，降AIGC检测，AI降重，三连私信免费获取：ReduceAIGC9折券！DetectAIGC立减2元券！AI降重9折券！目录引言一、项目背景与目标二、开发环境准备2.1所需工具2.2环
AI人工智能中的概率论与统计学原理与Python实战：Python实现概率模型 AI天才研究院 AI实战 AI大模型企业级应用开发实战大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能技术的不断发展，概率论与统计学在人工智能领域的应用越来越广泛。概率论与统计学是人工智能中的基础知识之一，它们在机器学习、深度学习、自然语言处理等领域都有着重要的作用。本文将介绍概率论与统计学的核心概念、算法原理、具体操作步骤以及Python实现方法，并通过具体代码实例进行详细解释。2.核心概念与联系2.1概率论与统计学的区别概率论是一门数学学科，它研究随机事件发生的可能性。
技术解析麦萌短剧《月光下的你》：从「时间序列的对抗扰动」到「加密身份的收敛证明」萌萌短剧重构
《月光下的你》以十六年的时间跨度展开一场关于「数据污染」与「身份验证」的深度博弈，本文将用机器学习视角拆解这场跨越时空的模型纠偏实验。1.数据污染事件：十六年前的对抗攻击许芳菲（Agent_Xu）的遭遇可视为时间序列上的对抗样本注入：标签篡改攻击：许清清（Adversary_XuQing）通过伪造标签（Label_Tampering）将Agent_Xu与傅临州（Node_Fu）强行关联，触发道德约
机器学习 [白板推导]（三）[线性分类] 神齐的小马机器学习分类人工智能
4.线性分类4.1.线性分类的典型模型硬分类：输出结果只有0或1这种离散结果；感知机线性判别分析Fisher软分类：会输出0-1之间的值作为各个类别的概率；概率生成模型：高斯判别分析GDA、朴素贝叶斯，主要建模的是p(x⃗,y)p(\vec{x},y)p(x,y)概率判别模型：逻辑回归，主要建模的是p(y∣x⃗)p(y|\vec{x})p(y∣x)4.2.感知机4.2.1.基本模型模型：f(x
Ollama 基本概念 Mr_One_Zhang 学习Ollama ai
Ollama是一个本地化的、支持多种自然语言处理（NLP）任务的机器学习框架，专注于模型加载、推理和生成任务。通过Ollama，用户能够方便地与本地部署的大型预训练模型进行交互。1.模型（Model）在Ollama中，模型是核心组成部分。它们是经过预训练的机器学习模型，能够执行不同的任务，例如文本生成、文本摘要、情感分析、对话生成等。Ollama支持多种流行的预训练模型，常见的模型有：deepse
人工智能直通车系列24【机器学习基础】（机器学习模型评估指标（回归））浪九天人工智能直通车开发语言 python 机器学习深度学习神经网络人工智能
目录机器学习模型评估指标（回归）1.均方误差（MeanSquaredError,MSE）2.均方根误差（RootMeanSquaredError,RMSE）3.平均绝对误差（MeanAbsoluteError,MAE）4.决定系数（CoefficientofDetermination,R2）机器学习模型评估指标（回归）1.均方误差（MeanSquaredError,MSE）详细解释均方误差是回归问
从零开始学机器学习——构建一个推荐web应用努力的小雨机器学习机器学习前端人工智能
首先给大家介绍一个很好用的学习地址：https://cloudstudio.net/columns今天，我们终于将分类器这一章节学习完活了，和回归一样，最后一章节用来构建web应用程序，我们会回顾之前所学的知识点，并新增一个web应用用来让模型和用户交互。所以今天的主题是美食推荐。美食推荐Web应用程序首先，请不要担心，本章节并不会涉及过多的前端知识点。我们此次的学习重点在于机器学习本身，因此我们
Python自动化炒股：利用XGBoost和LightGBM进行股票市场预测的实战案例云策量化 Python自动化炒股量化投资量化软件 python 量化交易 QMT PTrade 量化炒股量化投资 deepseek
推荐阅读：《程序化炒股：如何申请官方交易接口权限？个人账户可以申请吗？》Python自动化炒股：利用XGBoost和LightGBM进行股票市场预测的实战案例在当今快节奏的金融市场中，自动化交易和预测模型成为了投资者和交易者的重要工具。Python以其强大的数据处理能力和丰富的机器学习库，成为了实现这些模型的首选语言。本文将带你了解如何使用XGBoost和LightGBM这两个流行的机器学习算法来
【sklearn 04】DNN、CNN、RNN @金色海岸 sklearn dnn cnn
DNNDNN（DeepNeuralNetworks，深度神经网络）是一种相对浅层机器学习模型具有更多参数，需要更多数据进行训练的机器学习算法CNNCNN（convolutionalNeuralNetworks，卷积神经网络）是一种从局部特征开始学习并逐渐整合的神经网络。卷积神经网络通过卷积层来进行特征提取，通过池化层进行降维，相比较全连接的神经网络，卷积神经网络降低了模型复杂度，减少了模型的参数，
【sklearn 02】监督学习、非监督下学习、强化学习 @金色海岸 sklearn 学习人工智能
监督学习、非监督学习、强化学习**机器学习通常分为无监督学习、监督学习和强化学习三类。-第一类：无监督学习（unsupervisedlearning），指的是从信息出发自动寻找规律，分析数据的结构，常见的无监督学习任务有聚类、降维、密度估计、关联分析等。-第二类：监督学习（supervisedlearning），监督学习指的是使用带标签的数据去训练模型，并预测未知数据的标签。监督学习有两种，当预测
从LLM出发：由浅入深探索AI开发的全流程与简单实践（全文3w字）码事漫谈 AI 人工智能
文章目录第一部分：AI开发的背景与历史1.1人工智能的起源与发展1.2神经网络与深度学习的崛起1.3Transformer架构与LLM的兴起1.4当前AI开发的现状与趋势第二部分：AI开发的核心技术2.1机器学习：AI的基础2.1.1机器学习的类型2.1.2机器学习的流程2.2深度学习：机器学习的进阶2.2.1神经网络基础2.2.2深度学习的关键架构2.3Transformer架构：现代LLM的核
纳米尺度仿真软件：Quantum Espresso_（20）.机器学习在QuantumEspresso中的应用 kkchenjj 分子动力学2 机器学习人工智能模拟仿真仿真模拟分子动力学
机器学习在QuantumEspresso中的应用在现代材料科学和纳米技术的研究中，机器学习（ML）技术已经成为一种强大的工具，用于加速和优化量子力学计算。QuantumEspresso是一个广泛使用的开源软件包，用于进行第一性原理计算，特别是在纳米尺度材料的模拟中。本节将介绍如何将机器学习技术应用于QuantumEspresso，以提高计算效率、预测材料性质和优化结构。1.机器学习与第一性原理计算
新手村：数据预处理-异常值检测方法嘉羽很烦机器学习机器学习
机器学习中异常值检测方法一、前置条件知识领域要求编程基础Python基础（变量、循环、函数）、JupyterNotebook或PyCharm使用。统计学基础理解均值、中位数、标准差、四分位数、正态分布、Z-score等概念。机器学习基础熟悉监督/无监督学习、分类、聚类、回归等基本概念。数据预处理数据清洗、特征缩放（标准化/归一化）、数据可视化（Matplotlib/Seaborn）。二、渐进式学习
新手村：数据预处理-特征缩放嘉羽很烦机器学习线性回归算法机器学习
新手村：数据预处理-特征缩放特征缩放（FeatureScaling）是数据预处理中的一个重要步骤，特别是在应用某些机器学习算法时。特征缩放可以使不同尺度的特征具有相同的量级，从而提高模型训练的效率和性能。常见的特征缩放方法包括标准化（Standardization）和归一化（Normalization）。常见的特征缩放方法标准化（Standardization）将特征转换为均值为0，标准差为1的标
过拟合：机器学习中的“死记硬背”陷阱彩旗工作室人工智能机器学习人工智能
在机器学习中，过拟合（Overfitting）是一个几乎每个从业者都会遇到的经典问题。它像一把双刃剑：当模型过于“聪明”时，可能会陷入对训练数据的过度依赖，从而失去处理新问题的能力。本文将从原理到实践，深入探讨过拟合的本质及应对策略。1.什么是过拟合？过拟合是指模型在训练数据上表现极佳，但在新数据（测试数据或真实场景数据）上表现显著下降的现象。通俗来说，模型像一个“死记硬背的学生”，记住了训练集中
【Python】已解决：pip安装第三方模块（库）与PyCharm中不同步的问题（PyCharm添加本地python解释器）屿小夏 python pip pycharm
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
如何在github上参与开源项目这个懒人 github 开源软件
1.创建GitHub账号如果你还没有GitHub账号，首先需要注册一个：访问GitHub官网。点击右上角的“Signup”按钮，填写注册信息并完成注册。2.找到感兴趣的项目GitHub上有成千上万的开源项目，你可以通过以下方式找到感兴趣的项目：搜索项目：在GitHub首页的搜索框中输入关键词，例如“机器学习”、“Web开发”等。使用高级搜索功能，通过语言、标签等过滤条件找到合适的项目。浏览Tren
【AI大模型智能应用】Deepseek生成测试用例柳柳的博客 AI大模型测试用例
在软件开发过程中，测试用例的设计和编写是确保软件质量的关键。然而，软件系统的复杂性不断增加，手动编写测试用例的工作量变得异常庞大，且容易出错。DeepSeek基于人工智能和机器学习，它能够依据软件的需求和设计文档，自动生成高质量的测试用例，显著减轻人工编写测试用例的负担。体验一把用DeepSeek编写测试用例，还生成清晰直观的思维导图，整个流程十分顺畅。这篇文章讲解如何使用deepseek生成功能
Python依赖管理工具分析 xdpcxq1029 python 开发语言
Python的依赖管理工具一直没有标准化，原因主要包括：历史发展的随意性：Python发展早期对于依赖管理的重视程度不足，缺乏从一开始就进行统一规划和设计的意识社区的分散性：Python社区庞大且分散，众多开发者和团队各自为政，根据自己的需求和偏好开发工具，缺乏统一的协调和整合机制多样化的使用场景：Python应用场景广泛，从Web开发到数据科学、机器学习、系统管理脚本等。不同场景对依赖管理有着不
【人工智能基础2】机器学习、深度学习总结 roman_日积跬步-终至千里人工智能习题人工智能机器学习深度学习
文章目录一、人工智能关键技术二、机器学习基础1.监督、无监督、半监督学习2.损失函数：四种损失函数3.泛化与交叉验证4.过拟合与欠拟合5.正则化6.支持向量机三、深度学习基础1、概念与原理2、学习方式3、多层神经网络训练方法一、人工智能关键技术领域基础原理与逻辑机器学习机器学习基于数据，研究从观测数据出发寻找规律，利用这些规律对未来数据进行预测。基于学习模式，机器学习可以分为监督、无监督、强化学习
Python精进系列： K-Means 聚类算法调用库函数和手动实现对比分析进一步有进一步的欢喜 Python 精进系列算法 python kmeans
一、引言在机器学习领域，聚类分析是一种重要的无监督学习方法，用于将数据集中的样本划分为不同的组或簇，使得同一簇内的样本具有较高的相似性，而不同簇之间的样本具有较大的差异性。K-Means聚类算法是最常用的聚类算法之一，它以其简单性和高效性在数据挖掘、图像分割、模式识别等领域得到了广泛应用。本文将详细介绍K-Means聚类算法，并分别给出调用现成函数和不调用任何现成函数实现K-Means聚类的代码示
热门AI创作助手推荐【第一期】量子星澜文心一言 AI写作 chatgpt
星游AI创作助手人工智能在现代科技中的应用非常广泛，涵盖了诸多领域，包括但不限于以下几个方面：1.语音识别和自然语言处理：人工智能技术被广泛应用于语音识别和自然语言处理领域，例如智能助手、翻译系统、语音交互系统等。2.机器学习和数据分析：人工智能的机器学习算法被用于数据分析、预测建模、用户个性化推荐等领域，帮助企业做出更准确的商业决策。3.计算机视觉：人工智能在计算机视觉领域的应用包括图像识别、视
新手村：线性回归-实战-波士顿房价预测嘉羽很烦机器学习线性回归算法回归
新手村：线性回归-实战-波士顿房价预测前置条件阅读：新手村：线性回归了解相关概念实验目的1.熟悉机器学习的一般流程2.掌握基础的数据处理方法3.理解常用的回归算法教学例子：预测房价（以波士顿房价数据集为例）本次实验，你将使用真实的波士顿房价数据集建立起一个房价预测模型，并且了解到机器学习中的若干重要概念和评价方法，请通过机器学习建立回归模型，即:Y=θ0+θ1×X1+θ2×X2+θ3×X3+⋯+θ
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。