Rookie’Program

[cs231n]Assignment1_Knn 代码学习

部分资料来源于网络，仅做个人学习之用

1. Download the CIFAR10 datasets, and load it

2. Define a K Nearest Neighbor Class

3. Train and Test

4. Cross Validation

1. Download the CIFAR10 datasets, and load it

Setup code

import random
import numpy as np
from cs231n.data_utils import load_CIFAR10
import matplotlib.pyplot as plt

#这是使matplotlib图形内联出现在笔记本中而不是在一个新的窗口 的一个小技巧
%matplotlib inline
plt.rcParams['figure.figsize'] = (10.0, 8.0) # 设置显示图像的最大范围
plt.rcParams['image.interpolation'] = 'nearest' #设置插值的方式：最邻近差值
plt.rcParams['image.cmap'] = 'gray' # 灰度空间 0-255

%load_ext autoreload
%autoreload 2
""" 在执行用户代码前，重新装入软件的扩展和模块。
 autoreload 意思是自动重新装入。它后面可带参数。参数意思你要查你自己的版本帮助文件。
一般说：
无参：装入所有模块。
0：不执行 装入命令。
1： 只装入所有 %aimport 要装模块
2：装入所有 %aimport 不包含的模块。"""

Load the CIFAR10 data

cifar10_dir = 'cs231n/datasets/cifar-10-batches-py'
X_train, y_train, X_test, y_test = load_CIFAR10(cifar10_dir) # 读取数据集

# 作为一个完整性检查，我们打印出训练和测试数据的大小。
print('Training data shape: ', X_train.shape)
print('Training labels shape: ', y_train.shape)
print('Test data shape: ', X_test.shape)
print('Test labels shape: ', y_test.shape)

Show some CIFAR10 images

classes = ['plane', 'car', 'bird', 'cat', 'dear', 'dog', 'frog', 'horse', 'ship', 'truck']
num_classes = len(classes) # 一共有10类
num_each_class = 7 # 每类选7个

"""
enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列，同时列出数据和数据下标，一般用在 for 循环当中。
即enumerate的里面是一个个的pair，第一维是下标，第二维是每一个值。 
y是pair的第一维也就是种类的下标，y_train是训练集里的每一个种类的值 因此就相当于把所有这个种类的抠出来组成一个下标的list

    >>>seasons = ['Spring', 'Summer', 'Fall', 'Winter']
    >>> list(enumerate(seasons))
    [(0, 'Spring'), (1, 'Summer'), (2, 'Fall'), (3, 'Winter')]
"""

for y, cls in enumerate(classes):
    idxs = np.flatnonzero(y_train == y)
"""
np.flatnonzero() 输入一个矩阵，返回了其中非零元素的位置.
np.flatnonzero(y_train == y):在作业中给出的用法：不走寻常路，用来返回某个特定元素的位置找出标签中y类的位置
"""
    idxs = np.random.choice(idxs, num_each_class, replace=False)
"""在所有的这些下标中，随机抽取num_each_class个下标，从中选出我们所需的7个样本，然后这个7个元素不能相同(replace=False)
"""
    for i, idx in enumerate(idxs):
# 对所选的样本的位置和样本所对应的图片在训练集中的位置进行循环
        plt_idx = i * num_classes + (y + 1)  # 计算在子图中所占位置
        plt.subplot(num_each_class, num_classes, plt_idx)  # 说明要画的子图的编号
"""
matplotlib.pyplot.subplot(XXX)：
该函数输入量为三个整数比如subplot(2,1,1)前两个数表示子图组成的矩阵的行列数，比如有6个子图，排列成3行2列，那就是subplot(3,2,X)。最后一个数表示要画第X个图了。

参数1代表行数、参数2代表列数、参数3代表第几个图，之所以每次都需要输入第1、2个参数，是因为这两个参数是可变的
"""
        plt.imshow(X_train[idx].astype('uint8'))  # 在上一条指令指定好绘制区域后，画图
        plt.axis('off')  # 不显示坐标尺寸
        if i == 0:
            plt.title(cls) # 写上标题，即类别名
plt.show()

为了更有效地执行代码，对数据进行子采样

# train numbers
num_train = 5000
mask = range(num_train)
X_train = X_train[mask]
y_train = y_train[mask]

# test numbers
num_test = 500
mask = range(num_test)
X_test = X_test[mask]
y_test = y_test[mask]

# change 4D to 2D, like (5000, 32, 32, 3) -> (5000, 3072)
"""
np.reshape(X_train.shape[0], -1)， 表示：只保留第一维，其余的纬度，
不管多少纬度，重新排列为一维。用-1是偷懒的做法，等同于 28*28。 
reshape后的数据是：共60000行，每一行是784个数据点（feature）。
参数-1就是不知道行数或者列数多少的情况下使用的参数，所以先确定除了参数-1之外的其他参数，
然后通过(总参数的计算) / (确定除了参数-1之外的其他参数) = 该位置应该是多少的参数。

X.reshape(X.shape[0], -1).T可以将一个维度为(a,b,c,d)的矩阵转换为维度为(b∗c∗d, a)的矩阵。
例子1：
>>> X.shape
(209, 64, 64, 3)
>>> X.shape[0]
209
然后，我们说shape[0]就是第一个列的行数，也就是209。
>>> X.reshape(X.shape[0], -1)
(209, 64*64*3)
通过reshape重新建立维度，第一个维度就是X.shape[0]，这就是正常的reshape操作；
第二个维度是-1，我们知道X的shape属性是多少，是(209, 64, 64, 3)，但是想让X变成209行，
列数不知道是多少，所以也就是209 * 64 * 64 * 3 / 209，也就是64 * 64 * 3。
>>> X.reshape(X.shape[0], -1).T
(64*64*3, 209)

"""
# 为了欧氏距离的计算，将得到的图像数据拉伸成行向量 eg: (32, 32, 3)->(3072,)
X_train = np.reshape(X_train, (X_train.shape[0], -1))
X_test = np.reshape(X_test, (X_test.shape[0], -1))
print('X_train shape: ', X_train.shape)
print('X_test shape: ', X_test.shape)

2. Define a K Nearest Neighbor Class

无循环计算欧氏距离

资料来源：https://blog.csdn.net/geekmanong/article/details/51524402

利用广播，只要注意P的形状为m*1, C的形状为1*n即可

广播（m, 1）（1, n）---> （m, n）

class KNearestNeighbor(object):
    """a KNN classifier with L2 distance"""

    def __init__(self):
        pass
    
    def train(self, X, y):
        """
       训练分类器。这只是记忆所有的训练数据。
        输入:
        - X:形状(num_train, D)的numpy数组，包含训练数据, 包含每个维D的num_train样本。
        - y:一个形状的numpy数组(num_train，)，包含训练标签，其中y[i]是X[i]的标签。
        """
        self.X_train = X
        self.y_train = y
    
    def predict(self, X, k = 1, num_loops = 0):
        """
        测试分类器。
        输入:
        - X:形状(num_test, D)的numpy数组，包含测试数据, 由各维D的num_test样本组成。
        - k:投票给预测标签的最近邻居的数量。
        - num_loops:确定是否使用for-loop来计算训练点和测试点之间的L2距离
        返回:
        - pred_y:预测输出y
        """

        # 计算test X and train X 之间的L2距离
        if num_loops == 0:
            # no for-loop, 矢量化
            dists = self.cal_dists_no_loop(X)
        elif num_loops == 1:
            # one for-loop, half-vectorized
            dists = self.cal_dists_one_loop(X)
        elif num_loops == 2:
            # two for-loop, no vectorized
            dists = self.cal_dists_two_loop(X)
        else:
            raise ValueError('Invalid value %d for num_loops' % num_loops)

        # predict the labels
        num_test = X.shape[0]
        y_pred = np.zeros(num_test)
        for i in range(num_test):
            dists_k_min = np.argsort(dists[i])[0:k]    # the closest k distance loc 
            """
argsort(): 输出的结果是从小到大排序后的下标，即结果列表中的第一个值是最小的数的下标，以此类推。

            首先利用距离矩阵dists找出k个与测试样本i最近的训练样本的label，利用np.argsort可以找                                    出dists中最小的k个值的index，然后利用index取出对应的label即可得到close_y
            """
            close_y = self.y_train[dists_k_min]    
# 用到了整型数组访问语法，即取出self.y_train中以dists_k_min中包含的值为下标的内容。
            y_pred[i] = np.argmax(np.bincount(close_y))    
            """
            在得到closest_y之后，找到k近邻中label出现次数最多的label返回，
利用np.bincount(close_y)可以统计y中元素出现的次数，并且返回出现次数，bincount的返回值a的每一项
对应一个值出现次数，例如a[0]代表的是y中0出现次数，a[1]代表y中1出现次数......然后利用argmax求出
出现次数最多的元素，返回即可：
eg: [0,3,1,3,3,1] -> 3　as y_pred[i]
            """
        return y_pred
    
    def cal_dists_no_loop(self, X):
        """
        不用循环的方法则有一点trick，首先将L2距离公式展开，然后分别求平方项以及叉积。
即把计算欧氏距离的式子差的平方展开，变成平方的和减去交叉项的2倍。
        计算没有for循环的距离
        输入:
        - X:形状(num_test, D)的numpy数组，包含测试数据
        由各维D的num_test样本组成。
        返回:
        测试X和训练X之间的距离
        """
        num_test = X.shape[0]
        num_train = self.X_train.shape[0]
        dists = np.zeros((num_test, num_train))
        # (X - X_train)*(X - X_train) = -2X*X_train + X*X + X_train*X_train
        d1 = np.multiply(np.dot(X, self.X_train.T), -2)    # shape (num_test, num_train)
        d2 = np.sum(np.square(X), axis=1, keepdims=True)    # shape (num_test, 1)
        d3 = np.sum(np.square(self.X_train), axis=1)    # shape (1, num_train)
        dists = np.sqrt(d1 + d2 + d3)
        
        return dists
    
    def cal_dists_one_loop(self, X):
        """
        一层循环中循环次数为测试样例的个数，所以在循环体中要实现vector和matrix的距离求解
        使用一个for循环计算距离
        输入:
        - X:形状(num_test, D)的numpy数组，包含测试数据
        由各维D的num_test样本组成。
        返回:
        测试X和训练X之间的距离
直接对整个训练集图片操作，此时self.X_train的大小为5000×3072，而X[i]的大小为1×3072，两者相减会自动对X[i]进行广播，
使其扩展到与self.X_train相同的大小。此时执行sum或者norm操作的话，还需要指定轴，令axis=1。根据我的理解，
不管多少维的矩阵，轴的序号总是从左向右计数，被指定的轴的大小在操作后会被改变。
        """
        num_test = X.shape[0]
        num_train = self.X_train.shape[0]
        dists = np.zeros((num_test, num_train))
        for i in range(num_test):
            dists[i] = np.sqrt(np.sum(np.square(self.X_train - X[i]), axis=1))
        
        return dists
    
    def cal_dists_two_loop(self, X):
        """
       使用两个for循环计算距离
        输入:
        - X:形状(num_test, D)的numpy数组，包含测试数据
        由各维D的num_test样本组成。
        返回:
        测试X和训练X之间的距离
        """
        num_test = X.shape[0]
        num_train = self.X_train.shape[0]
        dists = np.zeros((num_test, num_train))
        for i in range(num_test):
            for j in range(num_train):
                dists[i][j] = np.sqrt(np.sum(np.square(X[i] - self.X_train[j])))
                # 计算两个vector的L2距离
        return dists

3. Train and Test

Create a KNN classifier instance

KNN = KNearestNeighbor()
KNN.train(X_train, y_train)

Compare the value of distance_computation by no loop, one-loop and two-loop

按无循环、单循环和双循环比较distance_computation的值

dists_no_loop = KNN.cal_dists_no_loop(X_test)
dists_one_loop = KNN.cal_dists_one_loop(X_test)
dists_two_loop = KNN.cal_dists_two_loop(X_test)
diff1 = np.linalg.norm(dists_no_loop - dists_one_loop) # 求矩阵的二范数
diff2 = np.linalg.norm(dists_no_loop - dists_two_loop)
print('The difference between no-loop and one-loop is: %f' % diff1)
print('The difference between no-loop and two-loop is: %f' % diff2)
if diff1 < 0.001 and diff2 < 0.001:
    print('Good, the distance matrices are the same!')
else:
    print('Oh, the distance matrices are different')

Compare the speed of distance_computation by no-loop, one-loop and two-loop

def time_func(f, *args):
    """
    Call a function f with args and return the time (in seconds) that it took to execute.
    """
    import time
    
    t_st = time.time()
    f(*args)
    t_ed = time.time()
    
    return t_ed - t_st

# no-loop
no_loop_time = time_func(KNN.cal_dists_no_loop, X_test)
print('No loop time: %f seconds' % no_loop_time)
one_loop_time = time_func(KNN.cal_dists_one_loop, X_test)
print('One loop time: %f seconds' % one_loop_time)
two_loop_time = time_func(KNN.cal_dists_two_loop, X_test)
print('Two loop time: %f seconds' % two_loop_time)

Predict test dataset

# k = 1
y_pred = KNN.predict(X_test, k=1)
num_correct = np.sum(y_pred == y_test)
accuracy = np.mean(y_pred == y_test)  #mean()求均值 
print('Correct %d/%d: The accuracy is %f' % (num_correct, X_test.shape[0], accuracy))

# k = 5
y_pred = KNN.predict(X_test, k=5)
num_correct = np.sum(y_pred == y_test)
accuracy = np.mean(y_pred == y_test)
print('Correct %d/%d: The accuracy is %f' % (num_correct, X_test.shape[0], accuracy))

4. Cross Validation

我们不确定哪个k值是最好的选择。因此，我们现在将通过交叉验证来确定这个超参数的最佳值。

采用5折交叉验证：一份作为测试集，其余作为训练集

"""
首先是把训练集分为5组，使用array_split即可。但需要注意的是，分割结果是一个列表，而不是矩阵。
请务必注意列表和矩阵的区别：列表是Python的基本数据类型，而矩阵是NumPy中的数据类型。
如果弄混了这一点，后面的程序将会非常难以理解。接下来，很关键的一点是如何按照5折交叉验证的要求组合训练集。
"""
num_folds = 5    # split the training dataset to 5 parts
k_classes = [1, 3, 5, 8, 10, 12, 15, 20, 50, 100]    # all k, determine the best k

# Split up the training data into folds
X_train_folds = []
y_train_folds = []
X_train_folds = np.split(X_train, num_folds)
y_train_folds = np.split(y_train, num_folds)

# 一本包含不同k值的准确性的字典,即以字典形式存储k和accuracy
k_accuracy = {}

"""
先对k_to_accuracies赋初始值[]，利用两层循环进行交叉验证，外层循环为folds数，内层循环为不同的k值
"""
for k in k_classes:
    accuracies = []
    #knn = KNearestNeighbor()
    for i in range(num_folds):
  # 使用concatenate将4个训练集拼在一起,axis=0可以省略
        Xtr = np.concatenate(X_train_folds[:i] + X_train_folds[i+1:]) 
        ytr = np.concatenate(y_train_folds[:i] + y_train_folds[i+1:])
        Xcv = X_train_folds[i]
        ycv = y_train_folds[i]
        KNN.train(Xtr, ytr)
        ycv_pred = KNN.predict(Xcv, k=k, num_loops=0)
        accuracy = np.mean(ycv_pred == ycv)
        accuracies.append(accuracy)
    k_accuracy[k] = accuracies
"""
concatenate()函数根据指定的维度，对一个元组、列表中的list或者ndarray进行连接，函数的参数应当为待连接的矩阵组成的元组。而在这行代码中，并没有传入元组，而是传入了两个列表相加的结果。
首先，这里是列表相加而不是矩阵相加，Python的加号运算符用于列表时会直接把两个列表连接起来。因此相加的结果是一个长度为4的列表，列表中每个元素都是1000×3072的矩阵。将列表传入vstack后，会自动调用元组的构造函数tuple(list)将其转换为元组。之后，在0号轴上连接这4个矩阵，得到一个4000×3072的矩阵。
"""
# Print the accuracy
for k in k_classes:
    for i in range(num_folds):
        print('k = %d, fold = %d, accuracy: %f' % (k, i+1, k_accuracy[k][i]))

绘制交叉验证

for k in k_classes:
    plt.scatter([k] * num_folds, k_accuracy[k])
# 用与标准偏差相对应的误差条绘制趋势线
accuracies_mean = [np.mean(k_accuracy[k]) for k in k_accuracy]
accuracies_std = [np.std(k_accuracy[k]) for k in k_accuracy]
plt.errorbar(k_classes, accuracies_mean, yerr=accuracies_std)
plt.title('Cross-validation on k')
plt.xlabel('k')
plt.ylabel('Cross-validation accuracy')
plt.show()

Choose the best k

best_k = k_classes[np.argmax(accuracies_mean)]
# Use the best k, and test it on the test data
KNN = KNearestNeighbor()
KNN.train(X_train, y_train)
y_pred = KNN.predict(X_test, k=best_k, num_loops=0)
num_correct = np.sum(y_pred == y_test)
accuracy = np.mean(y_pred == y_test)
print('Correct %d/%d: The accuracy is %f' % (num_correct, X_test.shape[0], accuracy))

【RKNN系列】常用函数：使用RGA加速画框 jcfszxc RKNN系列 Rockchip rknn-toolkit2 c++RKNN
以下是针对convert_and_draw_rectangle函数的详细使用说明：convert_and_draw_rectangle函数功能在给定的图像数据上使用RGA（RockchipGraphicsAcceleration）绘制矩形框。语法IM_STATUSconvert_and_draw_rectangle(uint8_t*dst_data,intwidth,intheight,const
2. 下载rknn-toolkit2项目 jcfszxc RKNN系列 rknn-toolkit2 RKNN
官网链接：https://github.com/airockchip/rknn-toolkit2安装好git：[[1.Git的安装]]下载项目：gitclonehttps://github.com/airockchip/rknn-toolkit2.git或者直接去github下载压缩文件，解压即可。
3. 测试Docker镜像 jcfszxc RKNN系列 RKNN rknn-toolkit2
运行命令进入Docker镜像：dockerrun-t-i--privileged\-v/dev/bus/usb:/dev/bus/usb\-v/path/to/your/project:/examples\rknn-toolkit2:2.1.0-cp38\/bin/bash参数解释：dockerrun:这是Docker的基本命令，用于创建和启动一个新的容器。-t:分配一个伪终端（pseudo-TT
1. 下载安装RKNN的docker镜像 jcfszxc RKNN系列 c++Rockchip
安装好docker：1.Docker的安装进入网盘，下载镜像文件：网盘链接：https://console.zbox.filez.com/l/I00fc3密码：rknn下载最新的版本，当前最新版本2.1.0，（[[2024-09-01]]）：下载路径：GPU-Group01的分享/RKNPU2SDK/2.1.0/release/rknn-toolkit2-2.1.0-cp38-docker.tar
机器学习实战笔记5——线性判别分析绍少阿机器学习笔记可视化机器学习 python 人工智能
任务安排1、机器学习导论8、核方法2、KNN及其实现9、稀疏表示3、K-means聚类10、高斯混合模型4、主成分分析11、嵌入学习5、线性判别分析12、强化学习6、贝叶斯方法13、PageRank7、逻辑回归14、深度学习线性判别分析（LDA）Ⅰ核心思想对于同样一件事，站在不同的角度，我们往往会有不同的看法，而降维思想，亦是如此。同上节课一样，我们还是学习降维的算法，只是提供了一种新的角度，由上
理论+实践，一文带你读懂线性回归的评价指标木东居士
关于作者：饼干同学，某人工智能公司交付开发工程师/建模科学家。专注于AI工程化及场景落地，希望和大家分享成长中的专业知识与思考感悟。0x00前言：本篇内容是线性回归系列的第三篇。在《模型之母：简单线性回归&最小二乘法》、《模型之母：简单线性回归&最小二乘法》中我们学习了简单线性回归、最小二乘法，并完成了代码的实现。在结尾，我们抛出了一个问题：在之前的kNN算法（分类问题）中，使用分类准确度来评价算
毕设项目基于特征熵值分析的网站分类系统实现（源码+论文） iuidfds 毕业设计毕设
文章目录0项目说明1研究目的2研究方法3研究结论4各模块介绍4.1爬虫模块功能与技术4.2网页处理模块功能与技术4.3特征提取与文本特征表示模块功能与技术4.4分类器模块功能与技术5项目源码6论文目录7最后0项目说明基于特征熵值分析的网站分类系统实现提示：适合用于课程设计或毕业设计，工作量达标，源码开放1研究目的本设计对KNN算法的缺陷产生原因进行详细地分析，并针对缺陷对算法进行了引入属性熵值等一
【机器学习】K近邻可口的冰可乐机器学习机器学习人工智能
2.K近邻K近邻算法（KNN）的基本思想是通过计算待分类样本与训练集中所有样本之间的距离，选取距离最近的K个样本，根据这些样本的标签进行分类或回归。KNN属于非参数学习算法，因为它不假设数据的分布形式，主要依赖距离度量来进行决策。优点简单易懂：KNN算法非常直观，容易理解和实现。无假设：KNN算法对数据没有假设，适用于复杂分布的数据集。适用于多类分类问题：KNN能够处理多类分类问题，只需在投票过程
高通成都linux engineer intern 一面面经 2301_78234743 java
题解|#KNN算法#在*******里有个叫《题解--2024华南理工校赛.pdf》的文件高通成都linuxengineerintern一面面经两个面试官共25min就结束了，面试氛围还可以，问的很快。1.自我介绍2.问对高通了解多少3.对牛客鼠人传（第四十四集，2024/4/22）刷题：尝试补昨天D，题解看了半天似懂非懂，遂放弃改天再补。做题老是把复杂的问题想简单，简单的问题想复京东物流管理培训
knn分类代码实现（超详解）小锐->技术成就梦想,梦想成就辉煌。 python 分类机器学习算法
本文未赘述原理，觉得知道knn的优秀的同志们都有一定的了解，直接上代码，本代码作为一个参考，希望大家能够结合本人的代码自己去做一遍，虽然可以直接调knn或有数据集，本文呈现的更多的是底层。1.创建knn.py#定义一个knn函数，后期方便调用.classKNN(object):def__init__(self,k=3):#定义内置函数，方便自己传参，默认k值为3self.k=k#用于整个函数可以使
K近邻(KNN)算法详解及Python实现天明豆豆
K近邻(KNN)算法详解及Python实现今天浏览网页看到一篇用Python实现K近邻(KNN)算法的详解教程，果断收藏下来，虽然是五年前的文章，可能有些语法已经不适合，但文章语法思路还是可以值得借鉴的，收藏之后以后慢慢研究。KNN依然是一种监督学习算法KNN（KNearestNeighbors,K近邻）算法是机器学习所有算法中理论最简单，最好理解的。KNN是一种基于实例的学习，通过计算新数据与训
每天一个数据分析题（五百一十二）- 数据标准化跟着紫枫学姐学CDA 数据分析题库数据分析数据挖掘
在完整的机器学习流程中，数据标准化（DataStandardization）一直是一项重要的处理流程。不同模型对于数据是否标准化的敏感程度不同，以下哪个模型对变量是否标准化不敏感？A.决策树B.KNNC.K-MeansD.SVM数据分析认证考试介绍：点击进入题目来源于CDA模拟题库点击此处获取答案数据分析专项练习题库内容涵盖Python，SQL，统计学，数据分析理论，深度学习，可视化，机器学习，S
R语言机器学习 KNN 2个例子 waterHBO r语言机器学习开发语言
代码的写法，参考来源是这本书:MachineLearningwithR,2ndEdition.pdf相关的资源我已经上传了，包括代码，数据，以及这行本书。下载链接–免积分下载。https://download.csdn.net/download/waterHBO/896756871.第一个例子，代码和过程，全部来自书上#我根据书中第三章KNN的内容来做的。#第3章，KNN,K-NearestNei
【机器学习】以KNN为例的交叉验证网格搜索 de-feedback 机器学习算法人工智能
KNNK-NearestNeighbors简称为KNN，根据k个最近的邻居的类别判断当前样本的类别，k一般取奇数。k个邻居中哪种类别的样本多，就判断这个为这个类别距离判断knn首先要判断两个样本之间的距离，距离有多种表示方式欧氏距离生活中常用的距离公式，二维空间中的两点(x1,y1)(x2,y2)(x_1,y_1)(x_2,y_2)(x1,y1)(x2,y2)距离表示为(x1−x2)2+(y1−y
ES 近一年新版本，关于knn的新功能与优化水的精神 Elasticsearch ES搜索优化 elasticsearch 大数据搜索引擎
近一年，es发布了很多个版本。本文，主要整理了es关于knn搜索相关的优化项。也放了官方文档的链接。8.8版本What’snewin8.8|ElasticsearchGuide[8.8]|ElasticReciprocalRankFusion(RRF)改添加了倒数排名融合(RRF)，它遵循将结果集合并在一起的基本公式，sum(1/(k+d))其中k是排名常量，d是文档在查询结果集中的得
计算机毕业设计Hadoop+Spark知识图谱体育赛事推荐系统体育赛事热度预测系统体育赛事数据分析体育赛事可视化体育赛事大数据机器学习大数据毕业设计大数据毕设机器学习人工智能计算机毕业设计大全
开发技术前端：vue.js、element-ui、echarts后端：springboot、mybatis大数据：spark、hadoop数据库：mysql关系型数据库、neo4j图数据库算法：协同过滤推荐算法、MLP深度学习模型、SVD神经网络混合推荐算法、lstm模型、KNN、CNN、Sklearn、K-Means第三方平台：百度AI、阿里云短信、支付宝沙箱支付爬虫：Pythonchrome-
2011705918 qq_28091803
iOS传感器应用开发最佳实践_PDF电子书下载带书签目录完整版http://pan.baidu.com/s/1dDtSP2LNode应用程序构建使用MongoDB和Backbone_PDF电子书下载带书签目录完整版http://pan.baidu.com/s/1c04KnNMPhoneGap移动应用开发手册_PDF电子书下载带书签目录完整版http://pan.baidu.com/s/1mgssE
云计算的PDF qq2011705918 IT 电子书 pdf
iOS传感器应用开发最佳实践_PDF电子书下载带书签目录完整版http://pan.baidu.com/s/1dDtSP2LNode应用程序构建使用MongoDB和Backbone_PDF电子书下载带书签目录完整版http://pan.baidu.com/s/1c04KnNMPhoneGap移动应用开发手册_PDF电子书下载带书签目录完整版http://pan.baidu.com/s/1mgssE
【机器学习】5. K近邻（KNN） pen-ai 机器学习机器学习人工智能数据挖掘深度学习神经网络
K近邻（KNN）1.K-NearestNeighbour1.1特点：计算复杂1.2K的设置1.3加权近邻Weightednearestneighbor1.4决策边界DecisionboundaryVoronoiregion2.KNN总结1.K-NearestNeighbourK:超参数(hyperparameter)定义一种距离，参考第三节距离公式计算预测点到其他训练数据的距离找到最近的K个邻居预
机器学习：knn算法实现图像识别夜清寒风机器学习算法人工智能
1、概述使用K-近邻（K-NearestNeighbors,KNN）算法对手写数字进行识别的过程。通过读取一张包含多个手写数字的图片，将其分割成单独的数字图像，并将其作为训练和测试数据集。2、数据处理思路1、图像分割该数据有50行100列，每个数字占据20*20个像素点，可以进行切分2、划分出训练集和测试集3、每个数据的像素点为20*20，将其全部变成一列1*400格式，转换成数值特征4、最后使用
计算机毕业设计hadoop+spark知识图谱高考分数预测系统高考志愿推荐系统高考可视化大屏高考大数据高考数据分析高考爬虫大数据毕业设计计算机毕业设计大全
开发技术hadoopsparkspringbootvue.jsPython爬虫、机器学习、深度学习mybatis-plusneo4j知识图谱图数据库mysql协同过滤算法(基于物品、基于用户模式)MLP模型SVD神经网络CNN、KNN、GNN卷积神经网络预测算法阿里云平台百度AI平台阿里大于短信平台lstm模型创新点4种机器学习推荐算法进行高考志愿学校推荐1种深度学习模型进行高考分数线预测hado
【机器学习理论基础】一文看尽朴素贝叶斯算法大数据AI Machine Learning 机器学习
在所有的机器学习分类算法中，朴素贝叶斯和其他绝大多数的分类算法都不同。对于大多数的分类算法，比如决策树,KNN,逻辑回归，支持向量机等，他们都是判别方法，也就是直接学习出特征输出Y和特征X之间的关系，要么是决策函数Y=f(X)Y=f(X)Y=f(X),要么是条件分布P(Y∣X)P(Y|X)P(Y∣X)。但是朴素贝叶斯却是生成方法，也就是直接找出特征输出YYY和特征XXX的联合分布P(X,Y)P(X
多模态大模型Internvl-1.5-26B微调后部署及测试实录（附代码）写代码的中青年大模型 prompt python 大模型 swift 微调 lora
大模型相关目录大模型，包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容从0起步，扬帆起航。基于Dify的智能分类方案：大模型结合KNN算法（附代码）OpenCompass：大模型测评工具一文读懂多模态大模型基础架构大模型管理平台：one-api使用指南大模型RAG、ROG、RCG概念科普RAGOnMedicalKG：大模型
COMP315 JavaScript Cloud Computing for E Commerce zhuyu0206girl javascript 开发语言 ecmascript
Assignment1:Javascript1IntroductionAcommontaskincloudcomputingisdatacleaning,whichistheprocessoftakinganinitialdatasetthatmaycontainerroneousorincompletedata,andremovingorfixingthoseelementsbeforeform
机器学习笔记（KNN算法）空木幻城机器学习 python 机器学习算法
情景分析现在一个二维平面上有众多点(x1,y1),(x2,y2)...(xn,yn)(x_1,y_1),(x_2,y_2)...(x_n,y_n)(x1,y1),(x2,y2)...(xn,yn)，我也知道它们所属哪个类别，现在给出一个点(x,y)(x,y)(x,y)，问这个点是属于哪个类的。这是一个典型的分类问题重要概念相邻点的个数K相邻点的个数Kknn中最重要的概念就是这个了，也是唯一需要理解
机器学习-近邻KNN算法学习笔记不会敲代码的陈序员机器学习算法人工智能
目录一、算法定义KNN算法性能：欠拟合和过拟合KNN算法优缺点二、算法原理算法通俗解释算法的公式欧氏距离曼哈顿距离三、算法实现与应用模型搭建思路KNN算法模型源码代码运行效果图四、总结一、算法定义K最近邻（K-NearestNeighbors，KNN）算法是一种用于分类和回归的监督学习算法。KNN算法的主要思想可以简单概括如下：训练阶段：在训练阶段，KNN算法将所有的训练样本和它们对应的标签存储在
【机器学习笔记】7 KNN算法 RIKI_1 机器学习机器学习笔记算法
距离度量欧氏距离(Euclideandistance)欧几里得度量（EuclideanMetric）（也称欧氏距离）是一个通常采用的距离定义，指在维空间中两个点之间的真实距离，或者向量的自然长度（即该点到原点的距离）。在二维和三维空间中的欧氏距离就是两点之间的实际距离。曼哈顿距离(Manhattandistance)想象你在城市道路里，要从一个十字路口开车到另外一个十字路口，驾驶距离是两点间的直线
Elasticsearch：什么是 kNN? Elastic 中国社区官方博客 Elasticsearch AI Elastic elasticsearch 大数据搜索引擎全文检索人工智能
kNN-K-nearestneighbor定义kNN（即k最近邻算法）是一种机器学习算法，它使用邻近度将一个数据点与其训练并记忆的一组数据进行比较以进行预测。这种基于实例的学习为kNN提供了“惰性学习（lazylearning）”名称，并使算法能够执行分类或回归问题。kNN的假设是相似的点可以在彼此附近找到——物以类聚。作为一种分类算法，kNN将新数据点分配给其邻居中的多数集。作为一种回归算法，k
数据挖掘十大经典算法之KNN 我姓许啊
一、knn介绍1.K最近邻(k-NearestNeighbor，KNN)分类算法，属于有监督学习中的分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。2.KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本
【机器学习算法】KNN鸢尾花种类预测案例和特征预处理。全md文档笔记（已分享，附代码）机器学习python算法
本系列文章md笔记（已分享）主要讨论机器学习算法相关知识。机器学习算法文章笔记以算法、案例为驱动的学习，伴随浅显易懂的数学知识，让大家掌握机器学习常见算法原理，应用Scikit-learn实现机器学习算法的应用，结合场景解决实际问题。包括K-近邻算法，线性回归，逻辑回归，决策树算法，集成学习，聚类算法。K-近邻算法的距离公式，应用LinearRegression或SGDRegressor实现回归预
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round

[cs231n]Assignment1_Knn 代码学习

1. Download the CIFAR10 datasets, and load it

Setup code

Load the CIFAR10 data

Show some CIFAR10 images

为了更有效地执行代码，对数据进行子采样

2. Define a K Nearest Neighbor Class

3. Train and Test

Create a KNN classifier instance

Compare the value of distance_computation by no loop, one-loop and two-loop

Compare the speed of distance_computation by no-loop, one-loop and two-loop

Predict test dataset

4. Cross Validation

绘制交叉验证

Choose the best k

你可能感兴趣的:(cs231n,assignment1,knn)