weixin_30267785

用Python从零开始实现K近邻算法

KNN算法的定义：

KNN通过测量不同样本的特征值之间的距离进行分类。它的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。K通常是不大于20的整数。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

下面通过一个简单的例子说明一下：如下图，绿色圆要被决定赋予哪个类，是红色三角形还是蓝色四方形？如果K=3，由于红色三角形所占比例为2/3，绿色圆将被赋予红色三角形那个类，如果K=5，由于蓝色四方形比例为3/5，因此绿色圆被赋予蓝色四方形类。

由此也说明了KNN算法的结果很大程度取决于K的选择。

KNN算法的好处在于新数据进来，分类器可以马上学习并适应，但是计算成本也是线性增长，存储也是问题。

数学中的几个距离概念：

先上图比较直观：下图中红线代表曼哈顿距离，绿色代表欧氏距离，也就是直线距离，而蓝色和黄色代表等价的曼哈顿距离。曼哈顿距离——两点在南北方向上的距离加上在东西方向上的距离，即d（i，j）=|xi-xj|+|yi-yj|。

http://www.cnblogs.com/turingbrain/p/7711387.html

1. 欧氏距离

最常见的两点之间或多点之间的距离表示法，又称之为欧几里得度量，它定义于欧几里得空间中，如点 x = (x1,...,xn) 和 y = (y1,...,yn) 之间的距离为：

(1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离：

(2)三维空间两点a(x1,y1,z1)与b(x2,y2,z2)间的欧氏距离：

(3)两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的欧氏距离：

也可以用表示成向量运算的形式：

2. 曼哈顿距离

我们可以定义曼哈顿距离的正式意义为L1-距离或城市区块距离，也就是在欧几里得空间的固定直角坐标系上两点所形成的线段对轴产生的投影的距离总和。例如在平面上，坐标（x1, y1）的点P1与坐标（x2, y2）的点P2的曼哈顿距离为：要注意的是，曼哈顿距离依赖座标系统的转度，而非系统在座标轴上的平移或映射。

通俗来讲，想象你在曼哈顿要从一个十字路口开车到另外一个十字路口，驾驶距离是两点间的直线距离吗？显然不是，除非你能穿越大楼。而实际驾驶距离就是这个“曼哈顿距离”，此即曼哈顿距离名称的来源，同时，曼哈顿距离也称为城市街区距离(City Block distance)。

(1)二维平面两点a(x1,y1)与b(x2,y2)间的曼哈顿距离

(2)两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的曼哈顿距离

3. 切比雪夫距离

若二个向量或二个点p 、and q，其座标分别为及，则两者之间的切比雪夫距离定义如下：，

这也等于以下Lp度量的极值：，因此切比雪夫距离也称为L∞度量。

以数学的观点来看，切比雪夫距离是由一致范数（uniform norm）（或称为上确界范数）所衍生的度量，也是超凸度量（injective metric space）的一种。

在平面几何中，若二点p及q的直角坐标系坐标为及，则切比雪夫距离为：。

玩过国际象棋的朋友或许知道，国王走一步能够移动到相邻的8个方格中的任意一个。那么国王从格子(x1,y1)走到格子(x2,y2)最少需要多少步？。你会发现最少步数总是max( | x2-x1 | , | y2-y1 | ) 步。有一种类似的一种距离度量方法叫切比雪夫距离。（此处可在草稿纸上推导）

(1)二维平面两点a(x1,y1)与b(x2,y2)间的切比雪夫距离

(2)两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的切比雪夫距离　　

这个公式的另一种等价形式是

（2^5=32,3^5=243……只能帮到这了）

4. 闵可夫斯基距离(Minkowski Distance)

闵氏距离不是一种距离，而是一组距离的定义。

(1) 闵氏距离的定义

两个n维变量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的闵可夫斯基距离定义为：

其中p是一个变参数。

当p=1时，就是曼哈顿距离

当p=2时，就是欧氏距离

当p→∞时，就是切比雪夫距离

根据变参数的不同，闵氏距离可以表示一类的距离。

理论基础打好了，下面演示如何使用sklearn中的KNN算法（还是万年不变的标准化后的鸢尾花数据集）：

如何选择 k 是一个重点，并且需要标准化数据。例子中用到的minkowski distance （闵可夫斯基距离）是普通的 Euclidean （欧式距离）和 Manhattan distance （曼哈顿距离）的扩展。

K近邻算法

（或简称kNN）是易于理解和实现的算法，而且是你解决问题的强大工具。

http://python.jobbole.com/87407/

在本教程中，你将基于Python（2.7）从零开始实现kNN算法。该实现主要针对分类问题，将会用鸢尾花分类问题来演示。

这篇教程主要针对Python程序员，或者你可以快速上手Python，并且对如何从零实现kNN算法感兴趣。

什么是kNN

kNN算法的模型就是整个训练数据集。当需要对一个未知数据实例进行预测时，kNN算法会在训练数据集中搜寻k个最相似实例。对k个最相似实例的属性进行归纳，将其作为对未知实例的预测。

相似性度量依赖于数据类型。对于实数，可以使用欧式距离来计算。其他类型的数据，如分类数据或二进制数据，可以用汉明距离。

对于回归问题，会返回k个最相似实例属性的平均值。对于分类问题，会返回k个最相似实例属性出现最多的属性。

kNN如何工作

kNN属于基于实例算法簇的竞争学习和懒惰学习算法。

基于实例的算法运用数据实例（或数据行）对问题进行建模，进而做出预测决策。kNN算法算是基于实例方法的一种极端形式，因为其保留所有的训练集数据作为模型的一部分。

kNN是一个竞争学习算法，因为为了做出决策，模型内部元素（数据实例）需要互相竞争。数据实例之间客观相似度的计算，促使每个数据实例都希望在竞争中“获胜”或者尽可能地与给定的未知数据实例相似，继而在预测中做出贡献。

懒惰学习是指直到需要预测时算法才建立模型。它很懒，因为它只在最后一刻才开始工作。优点是只包含了与未知数据相关的数据，称之为局部模型。缺点是，在大型训练数据集中会重复相同或相似的搜索过程，带来昂贵的计算开销。

最后，kNN的强大之处在于它对数据不进行任何假设，除了任意两个数据实例之间距离的一致计算。因此，它被称为成为无参数或者非线性的，因为它没有预设的函数模型。

使用测量值对鸢尾花分类

本教程中我们演示的是鸢尾花分类问题。

原始数据集由来自3个品种鸢尾花的150个观察结果组成。对每一朵花有四个测量值：萼片长度、萼片宽度、花瓣长度、花瓣宽度，单位都是厘米。待预测鸢尾花属于Setosa，Versicolour，Virginica三个种类之一。

这是一个标准的数据集，所有示例的种类都是已知的。因此我们可以将数据集分割成训练数据集和测试数据集，并使用预测结果来评估实现的算法。这个问题，比较好的分类算法的准确度在90%以上，通常为96%甚至更好。

你可以从iris.data上免费下载数据集，更多细节见参考资料部分。

怎样用Python实现k-Nearest Neighbors

本教程将KNN算法分为如下几步：

数据处理：打开CSV文件获取数据，将原始数据分为测试集/训练集。

相似性度量：计算每两个数据实例之间的距离。

近邻查找：找到k个与当前数据最近的邻居。

结果反馈：从近邻实例反馈结果。

精度评估：统计预测精度。

主函数：将上述过程串起来。

1. 数据处理

我们首先要做的是把文件中的数据加载进来。这些数据以CSV形式存放在文件中，不包含header行和其它任何引用。我们可以使用open函数打开这些文件，然后使用csv module中的reader函数去读取文件。

import csv

with open('iris.data', 'rb') as csvfile:

lines = csv.reader(csvfile)

for row in lines:

print ', '.join(row)

接下来，我们需要将这些数据拆分为kNN用于做预测的训练集(training dataset)和用来评估模型精度的测试集(test dataset)。

首先，我们需要将以字符串形式载入的鸢尾花测量数据转换为容易处理的数组。接下来，我们需要将数据集随机的分为训练集与测试集。通常训练集/测试集的划分比例标准为67/33。

将上述步骤合在一起，我们可以定义一个叫loadDataset的函数，该函数可以加载指定的CSV文件，并按照指定的比例随机分为训练集与测试集。

import csv

import random

def loadDataset(filename, split, trainingSet=[] , testSet=[]):

with open(filename, 'rb') as csvfile:

lines = csv.reader(csvfile)

dataset = list(lines)

for x in range(len(dataset)-1):

for y in range(4):

dataset[x][y] = float(dataset[x][y])

if random.random() < split:

trainingSet.append(dataset[x])

else:

testSet.append(dataset[x])

将鸢尾花数据集的csv文件下载到本地目录，我们可以用鸢尾花数据集按照如下方式测试这个函数：

trainingSet=[]

testSet=[]

loadDataset('iris.data', 0.66, trainingSet, testSet)

print 'Train: ' + repr(len(trainingSet))

print 'Test: ' + repr(len(testSet))

2.相似性度量

为了进行预测我们需要计算任意两个数据实例的相似性。这是必要的，因为对于给定的每一个测试集中的数据实例，我们都可以在训练集中找出k个相似性最高的数据实例，这样就可以依次进行预测。

假定鸢尾花的4个测量数据都为数值形式且单位相同，我们可以直接采用欧氏距离(Euclidean distance)进行相似性度量。欧式距离定义为：两组向量对应元素之差的平方和再做平方根运算。

另外，我们要控制哪个字段参与欧式距离的计算。具体来讲，我们只想包括前四个属性。一种方法是采用固定长度的向量来限制欧式距离，忽略最后的维度。

将上述步骤合在一起，我们可以将euclideanDistance函数定义为：

import math

def euclideanDistance(instance1, instance2, length):

distance = 0

for x in range(length):

distance += pow((instance1[x] - instance2[x]), 2)

return math.sqrt(distance)

我们可以用一些样本数据来测试这个函数，具体如下：

data1 = [2, 2, 2, 'a']

data2 = [4, 4, 4, 'b']

distance = euclideanDistance(data1, data2, 3)

print 'Distance: ' + repr(distance)

3. 近邻查找

由于我们有相似性度量的方法，因此可以采用该方法寻找未知数据实例的k个相似性最高的实例。

处理过程直接计算所有样本点到给定点的欧式距离，进而筛选距离最近的样本点子集。

下面是getNeighbors函数，该函数遍历训练集并返回与测试实例距离最近的k个近邻样本点（采用已经定义好的euclideanDistance函数）。

import operator

def getNeighbors(trainingSet, testInstance, k):

distances = []

length = len(testInstance)-1

for x in range(len(trainingSet)):

dist = euclideanDistance(testInstance, trainingSet[x], length)

distances.append((trainingSet[x], dist))

distances.sort(key=operator.itemgetter(1))

neighbors = []

for x in range(k):

neighbors.append(distances[x][0])

return neighbors

我们可以按如下方法来测试这个函数：

trainSet = [[2, 2, 2, 'a'], [4, 4, 4, 'b']]

testInstance = [5, 5, 5]

k = 1

neighbors = getNeighbors(trainSet, testInstance, 1)

print(neighbors)

4. 结果反馈

我们已经找到了测试实例的最近的邻居，下一步就是基于这些近邻做出预测结果。

我们可以让每个邻居对测试实例的类别属性进行投票，最终以票数多者做为预测结果。

下面的函数提供了从近邻投票中反馈多数投票结果的机制。该函数假定每个邻居的最后一列为类别属性。

import operator

def getResponse(neighbors):

classVotes = {}

for x in range(len(neighbors)):

response = neighbors[x][-1]

if response in classVotes:

classVotes[response] += 1

else:

classVotes[response] = 1

sortedVotes = sorted(classVotes.iteritems(), key=operator.itemgetter(1), reverse=True)

return sortedVotes[0][0]

我们可以输入近邻数据测试该函数，结果如下：

neighbors = [[1,1,1,'a'], [2,2,2,'a'], [3,3,3,'b']]

response = getResponse(neighbors)

print(response)

该方法在平局的情况下依然会有一个返回结果，但是我们可以对其特殊处理，例如返回空值或者选择一个无偏随机结果

5. 精度评估

我们已经具备了所有的kNN算法片段。还有一件事情仍需我们重点关注，那就是就是如何评估预测精度。

评估模型精度最简单的方法就是计算正确预测结果数量占全部预测结果数量的比例，称为分类精度。

下面是getAccuracy函数，该函数统计所有的正确预测并返回正确分类的百分比精度。

def getAccuracy(testSet, predictions):

correct = 0

for x in range(len(testSet)):

if testSet[x][-1] is predictions[x]:

correct += 1

return (correct/float(len(testSet))) * 100.0

我们可以采用测试集与预测结果来测试该函数，结果如下：

testSet = [[1,1,1,'a'], [2,2,2,'a'], [3,3,3,'b']]

predictions = ['a', 'a', 'a']

accuracy = getAccuracy(testSet, predictions)

print(accuracy)

6. 主函数

目前为止，我们已经具备了所有的算法组成元素，下面我们将这些元素串起来，组成主函数。

下面是从零开始实现的kNN算法完整Python代码。

# Example of kNN implemented from Scratch in Python

import csv

import random

import math

import operator

def loadDataset(filename, split, trainingSet=[] , testSet=[]):

with open(filename, 'rb') as csvfile:

lines = csv.reader(csvfile)

dataset = list(lines)

for x in range(len(dataset)-1):

for y in range(4):

dataset[x][y] = float(dataset[x][y])

if random.random() < split:

trainingSet.append(dataset[x])

else:

testSet.append(dataset[x])

def euclideanDistance(instance1, instance2, length):

distance = 0

for x in range(length):

distance += pow((instance1[x] - instance2[x]), 2)

return math.sqrt(distance)

def getNeighbors(trainingSet, testInstance, k):

distances = []

length = len(testInstance)-1

for x in range(len(trainingSet)):

dist = euclideanDistance(testInstance, trainingSet[x], length)

distances.append((trainingSet[x], dist))

distances.sort(key=operator.itemgetter(1))

neighbors = []

for x in range(k):

neighbors.append(distances[x][0])

return neighbors

def getResponse(neighbors):

classVotes = {}

for x in range(len(neighbors)):

response = neighbors[x][-1]

if response in classVotes:

classVotes[response] += 1

else:

classVotes[response] = 1

sortedVotes = sorted(classVotes.iteritems(), key=operator.itemgetter(1), reverse=True)

return sortedVotes[0][0]

def getAccuracy(testSet, predictions):

correct = 0

for x in range(len(testSet)):

if testSet[x][-1] == predictions[x]:

correct += 1

return (correct/float(len(testSet))) * 100.0

def main():

# prepare data

trainingSet=[]

testSet=[]

split = 0.67

loadDataset('iris.data', split, trainingSet, testSet)

print 'Train set: ' + repr(len(trainingSet))

print 'Test set: ' + repr(len(testSet))

# generate predictions

predictions=[]

k = 3

for x in range(len(testSet)):

neighbors = get

Neighbors(trainingSet, testSet[x], k)

result = getResponse(neighbors)

predictions.append(result)

print('> predicted=' + repr(result) + ', actual=' + repr(testSet[x][-1]))

accuracy = getAccuracy(testSet, predictions)

print('Accuracy: ' + repr(accuracy) + '%')

main()

运行上述实例代码，你将会看到每一项预测分类结果和与之对应的测试集的实际分类结果。在运行的结尾，你将会看到整个模型的预测精度。当前的实例的预测精度略高于98%。

...

> predicted='Iris-virginica', actual='Iris-virginica'

Accuracy: 98.0392156862745%

思路扩展

本节向读者提供了一些思路扩展，以便大家在本教程实现代码的基础上进一步应用和探索。

回归问题：你可以将本实现应用到一些回归问题（预测基于数值的属性）。对近邻实例的汇总可能涉及要预测属性的平均数或者中位数
归一化：当属性之间的度量单位不同时，很容易造成某些属性在距离度量层面成为主导因素。对于这类问题，你应该在相似性度量前将属性值都放缩到0-1范围内（称为归一化）。将模型升级以支持数据归一化。
多种距离度量：通常有许多距离度量方法可供选用，如果你愿意，甚至可以创造出针对特定领域的距离度量方法。实现替代的距离度量方法，例如曼哈顿距离(Manhattan distance)或向量点积(vector dot product)。

该算法还有很多扩展形式可以探索。这里给出两个扩展思路，包括基于距离权重的k-most相似性实例去预测以及更进一步的基于树形结构查找相似度去查找。

最流行的4个机器学习数据集

Iris

Iris也称鸢尾花卉数据集，是一类多重变量分析的数据集。通过花萼长度，花萼宽度，花瓣长度，花瓣宽度4个属性预测鸢尾花卉属于（Setosa，Versicolour，Virginica）三个种类中的哪一类。

数据集特征:	`多变量`	记录数:	`150`	领域:	`生活`
属性特征:	`实数`	属性数目:	`4`	捐赠日期	`1988-07-01`
相关应用:	`分类`	缺失值?	`无`	网站点击数:	`563347`

Adult

该数据从美国1994年人口普查数据库抽取而来，可以用来预测居民收入是否超过50K$/year。该数据集类变量为年收入是否超过50k$，属性变量包含年龄，工种，学历，职业，人种等重要信息，值得一提的是，14个属性变量中有7个类别型变量。

数据集特征:	`多变量`	记录数:	`48842`	领域:	`社会`
属性特征:	`类别型，整数`	属性数目:	`14`	捐赠日期	`1996-05-01`
相关应用:	`分类`	缺失值?	`有`	网站点击数:	`393977`

Wine

这份数据集包含来自3种不同起源的葡萄酒的共178条记录。13个属性是葡萄酒的13种化学成分。通过化学分析可以来推断葡萄酒的起源。值得一提的是所有属性变量都是连续变量。

数据集特征:	`多变量`	记录数:	`178`	领域:	`物理`
属性特征:	`整数，实数`	属性数目:	`13`	捐赠日期	`1991-07-01`
相关应用:	`分类`	缺失值?	`无`	网站点击数:	`337319`

Car Evaluation

这是一个关于汽车测评的数据集，类别变量为汽车的测评，（unacc，ACC，good，vgood）分别代表（不可接受，可接受，好，非常好），而6个属性变量分别为「买入价」，「维护费」，「车门数」，「可容纳人数」，「后备箱大小」，「安全性」。值得一提的是6个属性变量全部是有序类别变量，比如「可容纳人数」值可为「2，4，more」，「安全性」值可为「low, med, high」。

数据集特征:	`多变量`	记录数:	`1728`	领域:	`N/A`
属性特征:	`类别型`	属性数目:	`6`	捐赠日期	`1997-06-01`
相关应用:	`分类`	缺失值?	`无`	网站点击数:	`272901`

小结

通过比较以上4个数据集的差异，简单地总结：当需要试验较大量的数据时，我们可以想到「Adult」；当想研究变量之间的相关性时，我们可以选择变量值只为整数或实数的「Iris」和「Wine」；当想研究logistic回归时，我们可以选择类变量值只有两种的「Adult」；当想研究类别变量转换时，我们可以选择属性变量为有序类别的「Car Evaluation」。更多的尝试还需要对这些数据集了解更多才行。以上数据集下载地址：http://archive.ics.uci.edu/ml/



作者：紫松
链接：http://www.jianshu.com/p/be23b3870d2e
來源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

总结

在本教程中，你了解了k近邻算法的工作原理，其中一些隐喻可以用来思考本算法，并延伸到其他算法。我们用python从零开始实现了kNN算法，你理解了每一行代码，因此你可以基于本实现去探索扩展，满足你自己的项目需求。

以下是本教程涉及的5类学习算法：

K近邻算法：理解和实现起来较简单的算法，非常强大的非参数算法
基于实例的算法：使用数据集（观察值）对问题建模
竞争算法：通过模型元素之间的内部竞争来做出预测决策
懒惰学习：需要做出预测时才开始建立模型
相似性计算：计算数据实例之间的客观距离是该算法的一个关键特征

转载于:https://www.cnblogs.com/csj007523/p/7794425.html

你可能感兴趣的:(数据结构与算法,python,人工智能)

C++使用Onnxruntime/TensorRT模型推理奇华智能 AI c++开发语言人工智能 AI 计算机视觉
onnxruntime和tensorrt是我们常用的两种推理方式，下面整理了两个推理示例，仅供参考。步骤流程模型训练，python下生成pytorch的模型.pth，并基于.pth模型进行推理python下依据模型推理实现从.pth转向.onnxpython下基于.onnx进行推理，与后续两种推理方式种的推理结果进行比较环境windows10+RTX308015GB显存cuda11.3onnxru
数据分类分级：如何用AI自动打标签（附Python代码示例）活力板蓝根数据治理人工智能分类 python
数据分类分级：如何用AI自动打标签（附Python代码示例）1.引言在当今数字化时代，数据的安全管理变得越来越重要。数据分类分级不仅是合规要求，更是保护核心资产的重要手段。然而，随着数据量的激增，传统的人工分类方式已经难以应对这个问题。本文将介绍如何利用AI技术实现数据的自动分类分级。希望大家享用愉快！2.技术方案概述2.1问题定义目标：将数据按照敏感度（公开、内部、机密）和业务类型（财务、人事、
郑州人工智能计算中心成果发布会成功举办埃文科技共建AI生态人工智能
2024年3月1日，由郑州市科学技术局主办，郑州联通、华为技术有限公司联合承办的郑州人工智能计算中心成果发布会在郑州隆重举行，郑州埃文科技有限公司（以下简称“埃文科技”）作为河南省人工智能领军企业受邀参会。大会以“全面拥抱智能化，共筑算力新底座”为主题，郑州市委副书记、代市长庄建球，河南联通党委书记、总经理华豫民等领导，以及300余位行业专家、企业代表齐聚一堂，共同见证中部地区首个政府主导的智能算
DeepSeek×博云AIOS：突破算力桎梏，开启AI普惠新纪元 deepseek
背景在全球人工智能技术高速迭代的背景下，算力成本高企、异构资源适配复杂、模型部署效率低下等问题，始终是制约企业AI规模化应用的关键。DeepSeek以创新技术直击产业痛点，而博云先进算力管理平台AIOS的全面适配，则为这一技术落地提供了坚实底座。两者的深度融合，正在重塑AI产业化的技术范式。DeepSeek：算法创新定义AI新范式DeepSeek凭借技术突破，为AI领域树立了新标杆：DeepSee
【Python】使用Python脚本生成文件头注释哇咔咔哇咔 Python脚本 python
文章目录一、引言二、详细代码三、运行实例一、引言在大家平常编写代码的过程中，可能会需要生成文件头来说明代码的作者信息、版权、联系方式、编写时间、文件名、使用的软件、代码简单概述等来说明代码文件详情。此代码会自动化创建符合规范的Python文件头注释二、详细代码#-*-coding:utf-8-*-#@Time:2024/10/0518:17#@Author:哇咔咔哇咔#@Email:yannbao
Python使用browser_cookie3库来读取浏览器Cookies 飞起来fly呀 Python python 浏览器 cookies
browser_cookie3是一个强大且实用的Python模块，用于从各种常用浏览器中提取Cookies。这在进行Web请求时特别有用，因为它允许您直接使用登录会话Cookies进行操作，而无需手动输入凭据。以下是关于如何使用browser_cookie3模块从浏览器中提取Cookies的详细步骤：1.安装browser_cookie3模块首先，确保您的工作环境中已安装了browser_cook
【Python 开发网络爬虫抓取客户订单网站数据】局外人_Jia python 爬虫数据库开发语言字符串正则表达式
以下是使用Python开发网络爬虫抓取客户订单网站数据的完整指南，包含技术实现、注意事项和法律合规性说明：一、准备工作：法律与合规性确认合法性：检查目标网站的robots.txt文件（如https://example.com/robots.txt）。确保遵守网站的《服务条款》（TermsofService）。如果涉及用户隐私数据（如订单详情），需获得明确授权。推荐替代方案：优先使用网站提供的API
【python数据挖掘之numpy】-数组及对象属性和数据转换 sc.溯琛 python 数据挖掘 numpy
Numpy是一个Python库，用于处理多维数组和矩阵，以及针对这些数组执行数学运算的函数。它提供了高效的数组对象和相关的操作，可以用于快速处理大量数据。Numpy的主要功能包括：创建数组、数组运算、数组索引和切片、线性代数、随机数生成等。Numpy在科学计算、数据分析、机器学习等领域都广泛应用。tips：（本博文在jupyter中实训）目录一、创建数组对象1.array（）函数来创建数组的对象2
【数据分析之道-NumPy(二)】多种方式创建数组_创建一个3行4列的二维数组(1) 2401_84159839 程序员数据分析 numpy 数据挖掘
专栏导读✍作者简介：i阿极，CSDNPython领域新星创作者，专注于分享python领域知识。✍本文录入于《数据分析之道》，本专栏针对大学生、初级数据分析工程师精心打造，对python基础知识点逐一击破，不断学习，提升自我。✍订阅后，可以阅读《数据分析之道》中全部文章内容，包含python基础语法、数据结构和文件操作，科学计算，实现文件内容操作，实现数据可视化等等。✍还可以订阅进阶篇《数据分析之
spaCy 入门：自然语言处理的高效工具 zru_9602 人工智能自然语言处理人工智能
spaCy入门：自然语言处理的高效工具引言spaCy是一个功能强大的开源Python库，专注于工业级的自然语言处理（NLP）。它以其高效的性能、简洁的API和对多种语言的支持而闻名。无论是进行文本分析、信息提取还是构建智能聊天机器人，spaCy都是一个不可或缺的工具。本文将从零开始，介绍spaCy的基本功能和使用方法，并通过示例代码帮助你快速上手。1.安装spaCy在开始之前，首先需要安装spaC
Transformer架构简略：DeepSeek 的底层基石 windwant 人工智能人工智能 transformer 架构
2017年，一篇名为《AttentionisAllYouNeed》的论文横空出世，提出了Transformer架构，彻底改变了自然语言处理（NLP）领域的格局。它不仅在各种NLP任务上取得了突破性进展，更成为了当今人工智能领域最具影响力的架构之一。一、从RNN到Transformer：突破瓶颈，开创先河在Transformer出现之前，循环神经网络（RNN）及其变体（如LSTM、GRU）是处理序列
Python 基本语法全解析：从安装到应用木觞清 7天熟练Python python 开发语言
Python是一种广泛使用的高级编程语言，因其简洁易懂的语法和强大的功能而受到开发者的喜爱。从数据分析到人工智能，Python都在各个领域占据着重要地位。如果你是编程新手，Python是一个非常适合入门的语言。本篇博客将带你从安装Python到理解其基础语法，再到实际应用中常见的内置函数、文件操作及第三方库的使用。1.Python安装与环境配置在开始编写Python程序之前，你首先需要在你的电脑上
大智能：大数据+大模型+大算力_大算力大数据大模型 AI学习不迷路大数据大模型人工智能语言模型 ai 产品经理算力
在近日举行的“2022中国人工智能产业年会”主论坛上，中国人工智能学会监事长、中国工程院院士蒋昌俊在报告中表示，人工智能的发展已经历了数十年的过程，大模型ChatGPT在今年春节前后突然出现，大家还没有来得及深度思考就已经“扑面而来”。蒋昌俊大智能的研究进展科学技术的研究约分为两大范式，一是牛顿力学奠定了理论计算的范式，二是开普勒开启数据的范式。之后经历了实验归纳、理论的逻辑推演，以及计算模拟、最
神经网络:人工智能的核心技术 m0_75126181 人工智能神经网络深度学习
神经网络简介神经网络是一种模仿生物神经系统的计算模型,由大量相互连接的神经元组成。它通过学习大量的数据来完成复杂的模式识别和决策任务,是当前人工智能和机器学习领域最重要的技术之一。神经网络的基本结构包括输入层、隐藏层和输出层。输入层接收外部数据,隐藏层对数据进行处理和特征提取,输出层产生最终结果。神经元之间通过带权重的连接相互作用,通过调整这些权重来实现学习过程。神经网络的工作原理神经网络的工作原
isdigit（）和isdecimal（） CptainLee python str方法
在Python中，`isdecimal()`和`isdigit()`是字符串方法，用于检查字符串是否只包含数字。虽然它们看起来功能相似，但它们在处理某些特殊字符时的行为有所不同。以下是它们的详细区别和使用场景。---###**1.`isdigit()`**####**定义**`isdigit()`方法用于检查字符串是否只包含数字字符。它返回`True`如果所有字符都是数字，否则返回`False`。
不可不知的dataclasses | python小知识 aiweker 跟我学python python
不可不知的dataclasses|python小知识在Python中，dataclasses模块自Python3.7版本引入以来，便成为了许多开发者管理数据结构的首选工具。它简化了类的定义，特别是对于那些主要用于存储数据的类。本文将详细介绍dataclasses的功能、应用场景，并通过代码例子进行解释说明。1.基本功能与用法dataclasses提供了一个@dataclass装饰器，通过它，可以极
DeepSeek与ChatGPT：AI语言模型的全面对决与开发者洞察硅基打工人 AI 人工智能 chatgpt 语言模型媒体经验分享自然语言处理
大家好，我是硅基打工人呀！在2025年的人工智能领域，DeepSeek与ChatGPT两大语言模型的竞争成为全球开发者关注的焦点。本文将从技术架构、性能表现、应用场景及生态策略等维度，结合最新行业动态与用户实测数据，为开发者呈现这场技术对决的核心要点。一、技术架构对比：效率与规模的博弈DeepSeek的差异化设计混合专家（MoE）架构：通过动态激活部分参数（如R1模型每次仅调用370亿参数），显著
RagFlow专题四、RagFlow 代码实战：基于通义千问（百炼平台）的检索增强生成（RAG）实现伯牙碎琴大模型 RagFlow RAG 检索增强
RagFlow代码实战：基于通义千问（百炼平台）的检索增强生成（RAG）实现在本篇文章中，我们将从代码实战的角度，讲解如何使用RagFlow结合通义千问（百炼平台API）进行检索增强生成（RAG），实现一个完整的AI检索+生成应用。1.环境搭建在本次代码实战中，我们需要完成以下准备工作：安装Python运行环境安装依赖库（向量数据库+检索库+通义千问APISDK）配置API密钥搭建RagFlow基
数据结构与算法必知基础知识程序员bigsai 文章精选数据结构与算法数据结构算法数据结构与算法
原创公众号：bigsai文章已收录在全网都在关注的数据结构与算法学习仓库欢迎star前言数据结构与算法是程序员内功体现的重要标准之一，且数据结构也应用在各个方面，业界更有程序=数据结构+算法这个等式存在。各个中间件开发者，架构师他们都在努力的优化中间件、项目结构以及算法提高运行效率和降低内存占用，在这里数据结构起到相当重要的作用。此外数据结构也蕴含一些面向对象的思想，故学好掌握数据结构对逻辑思维处
模板注入漏洞（SSTI）学习笔记栀寒老醑学习笔记网络安全安全 web安全系统安全安全架构
模板注入漏洞（SSTI）学习笔记1.模板注入简介什么是模板引擎？模板引擎用于将动态数据渲染到静态页面（如HTML）。例如，Jinja2（Python）、Twig（PHP）等。示例：#Flask中使用Jinja2渲染模板fromflaskimportrender_template@app.route('/')defindex():user_input=request.args.get('name')
【数据结构与算法】试卷一 Want595 C语言数据结构与算法算法数据结构链表
目录试卷一1.选择题2.填空题3.判断题其他试卷试卷一1.选择题1.计算机算法指的是（）A.计算方法B.排序方法C.解决问题的有限运算序列D.调度方法2.表达式a*(b+c)-d的后缀表达式是（）A.abcd+-B.abc+*d-C.abc*+d-D.-+*abcd3.一个栈的入栈序列是a,b,c,d,e，则栈的不可能的输出序列是（）A.edcbaB.decbaC.dceabD.abcde4.非空
【2025年春季】全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！白帽子凯哥 web安全学习安全 CTF夺旗赛网络安全
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、SQL注入（7-8天）2、文件上传（7-8天）3、其他漏洞（14-15
Python基础（字符串与列表）练习羡江007 python 开发语言
###题干#做一个简单的用户信息管理系统：#提示用户依次输入姓名，年龄和爱好#并且在输入完成之后，一次性将用户输入的数据展示出来'''user_name=input('请输入您的姓名：')user_age=input('请输入您的年龄：')user_hobby=input('请输入您的爱好：')print(f'以下是您的信息：\n姓名：{user_name}\n年龄：{user_age}\n爱好：
别只会用别人的模型了，自学Ai大模型，顺序千万不要搞反了！刚入门的小白必备！ ai大模型应用开发人工智能 pdf 机器学习面试 AI
在使用诸如DeepSeek、ChatGPT、豆包、文心一言等大模型之余，你是否知道这些大模型背后的技术原理是什么？假如让你从头开始学习大模型，你知道应该遵循什么样的路线嘛？今天给大家介绍一下Ai大模型的学习路线，顺序千万不要搞反了！，大家可以按照这个路线进行学习。一、前置阶段数学：线性代数、高等数学自然语言处理：Word2Vec、Seq2SeqPython：Pyotch、Tensorflow二、基
Python的标准库heapq模块的介绍和简单应用新时代先锋理论知识 python 算法开发语言数据结构
文章目录1.堆的基本概念2.`heapq`模块的基本使用2.1创建堆2.2插入元素2.3弹出元素3.其他重要函数3.1`heappushpop`3.2`heapreplace`3.3`nlargest`和`nsmallest`3.4`merge`4.堆的应用场景4.1优先队列4.2堆排序5.结论heapq是Python标准库中一个非常有用的模块，主要用于实现堆（Heap）数据结构，特别是最小堆（M
嵌入式仿真实验教学平台比Proteus更具有教学优势嵌入式仿真实验教学平台学习 proteus 嵌入式实时数据库 stm32 嵌入式硬件
近年来，随着物联网、人工智能等技术的快速发展，嵌入式系统教学的实践性和创新性需求日益增强。传统仿真工具如Proteus虽曾占据重要地位，但其局限性逐渐暴露。相比之下，嵌入式仿真实验教学平台凭借其高仿真度、资源整合能力及虚实结合的教学模式，正在成为高校和教育机构的新选择。本文将从技术演进、教学痛点、平台优势及实际应用等角度，解析嵌入式仿真实验教学平台为何能全面超越Proteus，成为教学创新的核心工
C#开发串口通讯软件如何如何避免串口通讯中的资源竞争？ openwin_top c#串口应用开发问题系列 c#开发语言串口上位机通讯
microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位在C#中开发串口通讯软件时，避免资源竞争是确保系统稳定性和数据完整性的关键。资源竞争通常发生在多个线程或进程同时访问同一个串口资源时。为了避免这种情况，可以采取以下措施：使用锁机制（Lock）：使用
2024 年 AI 垂直应用迅速落地，人人都可以获得AI红利 yimifx AI AIGC 人工智能人工智能 ai AI写作 AIGC agi AI编程 AI作画
演示站点：https://ai.uaai.cn技能模块官方论坛：www.jingyuai.com京娱AI随着人工智能技术的持续发展与突破，2024年AI辅助研发正成为科技界和工业界瞩目的焦点。从医药研发到汽车设计，从软件开发到材料科学，AI正逐渐渗透到研发的各个环节，变革着传统的研发模式。在这一背景下，AI辅助研发不仅提升了研发效率，降低了成本，更在某种程度上解决了复杂问题，推动了科技进步。202
ai垂直领域和水平领域如何理解? 王摇摆 ChatGPT 人工智能
在AI领域中，"垂直领域"和"水平领域"是两个相关但不同的概念。垂直领域（VerticalDomain）：指的是在特定行业或领域中应用人工智能技术和解决方案的情况。在垂直领域中，AI技术被专门应用于解决该领域内的具体问题。例如，医疗保健、金融、零售、交通运输等都是垂直领域。在这些领域中，AI技术被用于医学诊断、风险评估、销售预测、智能交通管理等特定领域的应用。水平领域（HorizontalDoma
（一）spark是什么？一智哇大数据框架学习 spark big data 大数据
1.spark是什么？spark是一个用来实现快速，通用的集群计算平台spark适用于各种各样原先需要多种不同的分布式平台的场景，包括批处理，迭代算法，交互式查询，流处理。通过在一个统一的框架下支持这些不同的计算，spark使我们可以简单而低耗地把各种处理流程整合在一起。2.spark的用途（1）：数据科学任务具备SQL、统计、预测建模（机器学习）等方面的经验，以及一定的python，matlab
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟

用Python从零开始实现K近邻算法

什么是kNN

kNN如何工作

使用测量值对鸢尾花分类

怎样用Python实现k-Nearest Neighbors

1. 数据处理

2.相似性度量

3. 近邻查找

4. 结果反馈

5. 精度评估

6. 主函数

思路扩展

更多的学习资源

问题

代码

参考书籍

最流行的4个机器学习数据集

Iris

Adult

Wine

Car Evaluation

小结

总结

你可能感兴趣的:(数据结构与算法,python,人工智能)