Ce Ma

手把手教你K最近邻分类器分类CIFAR-10

KNN算法全称为k-Nearest Neighbor Classifier，即k最近邻分类器。它可以看作是Nearest Neighbor Classifier最近邻分类器的加强版，无论是最近邻分类器还是k最近邻分类器，其原理都比较简单，其算法在CIFAR-10图像分类的效果上其正确率远低于人类识别图像的正确率（约94%），但也略高于随即猜测的10%的正确率（CIFAR-10有10个分类，随机猜测的正确率为10%）。

基于最近邻分类器的CIFAR-10的图像分类

CIFAR-10可视化可参考：https://blog.csdn.net/qq_36552550/article/details/105835108

1.最近邻分类器原理

前面的CIFAR可视化将200副图像保存在了10个文件夹当中，观察ship文件夹中的前两幅图片“8.jpg”以及“62.jpg”，如图1所示。直观上来看，天空和大海都是蓝色的，船则是白色的，位于图像正中间；照此推理，相似的类别的图像，比如船，图像大致是类似的。

图5-3-1 ship文件夹中前两幅图像对比

那么，要判断test_batch中的某一幅图像属于哪一个类别，可以将该图像和data_batch1至data_batch5的图像依次比对，找出最相似的一副图像，这样就认为该图像和最相似图像属于一个类别。

具体实现上，将test_batch中的图像的每一个像素的RGB数值依次减去data_batch1至data_batch5的图像的每一个像素的RGB数值，将相减的数求绝对值，然后将所有的绝对值相加，得出和值，依照这个和值的大小来判断两幅图像的相似度；两幅图像相似程度越高，这个和值应该越低。以此，可以推断test_batch中图像属于哪一个类别。

该过程可以视作求取两向量L1距离的过程。因为每幅图像在CIFAR-10中以行向量进行保存，则可认为两幅图像为两个向量I1、I2，求两向量的L1距离即可得出结果：

（L1距离为求差值的绝对值，而L2距离则是求平方和的开平方；这里使用L1距离的好处就是计算量更小）

Numpy的广播机制、sum()函数以及argmin()函数

test_batch文件同样是一行代表一副图片，然后将该行依次减去data_batch_1至5的每一行，如果将data_batch_1至5的图像数据全部拼接在一起，相当于是一个1*3072的数组减去一个50000*3072的数组的每一行。这里面就涉及两个编程实现的问题——1.data_batch_1至5的数据拼接；2.一个1*3072的数组减去一个50000*3072的数组的每一行的实现。

首先，看一下数据拼接的问题。将data_batch_1至5文件中字典dictionary类型里面的图像数据和标签读出，读出后为列表list类型，进行计算的时候需要提前将list类型转换成Numpy的array类型，并且维度也要符合50000*3072需要。

接下来看一个简单的程序例子，如程序1所示。

程序1 数据拼接示例

import numpy as np

x = []
a = [[1,2],[3,4]]
b = [[5,6],[7,8]]
print(a)
print(b)
x.append(a)
print(x)
x.append(b)
print(x)

xb = np.array(x)
print(xb)
print(xb.shape)

xa = np.concatenate(x)
print(xa)
print(xa.shape)

首先看第2行至第11行，通过append()函数，列表x依次将列表a和列表b放入自己的列表中；如图2所示。

图2 列表x续接结果示意图

这个时候如果直接转为Numpy的array类型，即13行至15行，那么得到的结果如图3所示，是一个2*2*2的数组。

图3 拼接后直接转数组array类型结果示意图

如果想拼接位一个4行2列的数组怎么办呢？这时候可以使用numpy中的concatenate()函数，具体该函数的用法可以自行查阅资料。程序1中将2*2*2的列表类型转换为了4*2的数组类型。

图4 拼接后

拼接问题解决后，就可以实现一个1*3072的数组减去一个50000*3072的数组的每一行，当然，这里写for语句循环也可以。但是Numpy提供更简单的方法——广播机制。一个示例如果程序2所示。

程序2 广播机制示例

import numpy as np

a = np.array([[1,2],[3,4],[5,6]])
b = np.array([1,1])
c = np.array([[1],[1]])

r1 = a - b
#r2 = a - c #error
r3 = b + c
r4 = b - a
#r5 = c - a  #error
print(r1)
print(r3)
print(r4)

分别创建数组a,b,c，其维度分别为3*2，1*2，2*1。

第7行a-b可以认为a加上一个负的b，可以看到a数据每一行都加上了一个负的b，如图5所示。

5 a-b结果示意图

同理，b-a可以认为b加上一个负的a，如图6所示。

图6 b-a结果示意图。

可以看到，广播机制可以自动补齐数组，以方便进行俩数组的加减。第9行1*2数组b和2*1数组c亦可以进行加减。但是，第8行以及第11行的无法通过填补实现广播机制。

完成两个数组的减法后，还需要对获得的每一行的数值进行求绝对值的和，并且在求和后的结果中找到最小的那个数。这需要用到两个求和函数sum()以及获取数组中最小数值的下标函数argmin()，如程序3所示。

程序3 sum()以及argmin()使用示例

import numpy as np

arr1 = np.array([[10,20],[-3,-4],[5,6],[0,1]])
arr2 = np.abs(arr1)
print(arr2)

arr_row_sum = np.sum(arr2,axis = 1)
print(arr_row_sum)
print(arr_row_sum.shape)

min_sum = np.argmin(arr_row_sum)
print(min_sum)

程序结果如图7所示。

图7 程序3结果示意图

创建4行3列数组arr1，对arr1求绝对值获得arr2，打印arr2；第7行调用sum()函数实现对arr2进行求和，其中第二个参数axis等于0时对列求和，等于1时对行求和；打印arr_row_sum可看到结果为[30 7 11 1]，虽然是横向显示，但查看该数组的shape属性，可以看到是4行的数组，而非4列。最后调用argmin()函数获取arr_row_sum中的最小值的下标，可以看到结果返回了3，对应的数字1。

实现CIFAR-10图像分类

测试计算机装Window 10系统，4G内存，安装有常用软件；但一次性读取data_batch1至data_batch5时直接内存爆炸。

为了防止将五个训练集文件全部读取造成内存不足的情况出现，该小节程序只选择了data_batch1以及data_batch2作为训练集。

CIFAR-10图像分类实现如程序4所示。

程序4 基于最近邻分类器实现CIFAR-10图像分类

import pickle
import os
import numpy as np

n = 2

def unpickle_as_array(filename):
    with open(filename, 'rb') as f:
        dic = pickle.load(f,encoding='latin1')
        dic_data = dic['data']
        dic_labels = dic['labels']
        dic_data = np.array(dic_data).astype('int')   
        dic_labels = np.array(dic_labels).astype('int')  
        return dic_data, dic_labels

def load_batches(root,n):
    train_data = []
    train_labels = []
    for i in range(1,n+1,1):
        f = os.path.join(root,'data_batch_%d' %i)
        data, labels = unpickle_as_array(f)
        train_data.append(data)
        train_labels.append(labels)
    train_data_r = np.concatenate(train_data)   
    train_labels_r = np.concatenate(train_labels)
    del train_data, train_labels
    test_data, test_labels = unpickle_as_array(os.path.join(root, 'test_batch'))
    return train_data_r, train_labels_r, test_data, test_labels

def nn_classification(train_d, test_d, train_l):
    count = 0
    result = np.zeros(10000)   
    for i in range(10000):
        d_value = test_d[i] - train_d   
        distance = np.sum(np.abs(d_value), axis=1) 
        min_dis = np.argmin(distance)  
        result[i] = train_l[min_dis]
        print('the %dth image\'s label:  %d' % (count, result[i]))
        count = count + 1
    return result

train_data, train_labels, test_data, test_labels = load_batches('E:/cifar/cifar-10-batches-py', n)
result = nn_classification(train_data, test_data, train_labels)
print('the algorithm\'s accuracy: %f' % (np.mean(result == test_labels)))

第5行的n表示使用多少个训练集，如计算机内存较小，一次使用5个容易造成内存爆炸，在本程序中设置为2，如果想读取5个进行测试可将n赋值改为5即可；其次，训练集越大，需要计算的时间也越长。

（跑完以上程序的参考时间：Intel(R) Core(TM) i5-6200U CPU @ 2.3GHz 2.40GHz，64位系统，完成以上程序耗时大约70分钟）

16至28行代码实现了函数load_batches()，将n个训练集文件读入，root为文件的根路径，函数实现使用了append()以及concatenate()函数，前文已经讲过，这里不再累述。

30至40行代码实现了最近邻分类器——nn_classification()函数，结果保存在一个10000行的result中，因为测试集总共10000副图片，对应10000行，所以需要循环10000次得到所有结果，for循环语句内通过广播机制、求绝对值的和值、找到最小值下标等操作，得到result。

为了获取最近邻分类器的准确度，通过将测试集最终结果result和测试集真实的标签之间进行比对，然后求其均值，得到最终的准确度。

以上程序输出结果如图8所示。

图8 基于最近邻分类器实现CIFAR-10图像分类结果截图

可以看出，最终的识别准确率虽然只达到了33.85%，但比随机猜测的10%要高出来很多。

2.k最近邻分类器

k最近邻分类器原理

当使用最近邻分类器进行test_batch中图像的预测时，只选取了最类似图像的标签。除此之外，还可以使用k最近邻分类器。有了最近邻分类器，这个k最近邻分类器就很简单了：最近邻分类器是在训练集中找到最接近的1个图像，而k最近邻分类器则是找到最接近的K个图像，最接近的K个图像中最多的那个标签类别即分类结果。可知，当k=1时，K最近邻分类器即最近邻分类器。

k最近邻分类的函数实现

这里只需要更改程序1中的NNClassTest()函数即可，新的KNNClassTest()函数如下2所示。

程序5 K最近邻分类器的函数实现

import pickle
import os
import numpy as np

n = 2

def unpickle_as_array(filename):
    with open(filename, 'rb') as f:
        dic = pickle.load(f,encoding='latin1')
        dic_data = dic['data']
        dic_labels = dic['labels']
        dic_data = np.array(dic_data).astype('int')   
        dic_labels = np.array(dic_labels).astype('int')  
        return dic_data, dic_labels

def load_batches(root,n):
    train_data = []
    train_labels = []
    for i in range(1,n+1,1):
        f = os.path.join(root,'data_batch_%d' %i)
        data, labels = unpickle_as_array(f)
        train_data.append(data)
        train_labels.append(labels)
    train_data_r = np.concatenate(train_data)   
    train_labels_r = np.concatenate(train_labels)
    del train_data, train_labels
    test_data, test_labels = unpickle_as_array(os.path.join(root, 'test_batch'))
    return train_data_r, train_labels_r, test_data, test_labels

def knn_classification(train_d, test_d, train_l, k):
    count = 0
    result = np.zeros(10000)
    for i in range(10000):
        d_value = test_d[i] - train_d
        distance = np.sum(np.abs(d_value), axis=1)
        dis_sort = np.argsort(distance)
        vote_label = np.zeros(10)
        for j in range(k):
            vote_label[train_l[dis_sort[j]]] += 1
        result[i] = np.argmax(vote_label)
        print('the %dth image\'s label:  %d' % (count, result[i]))
        count = count + 1
    return result

train_data, train_labels, test_data, test_labels = load_batches('E:/cifar/cifar-10-batches-py', n)
result = knn_classification(train_data, test_data, train_labels,3)
print('the algorithm\'s accuracy: %f' % (np.mean(result == test_labels)))

K最近邻分类器程序实现只需在程序4上进行部分修改即可。程序5 的30行以前代码和4一致，这里不再在书中显示。

程序5在30行开始实现了knn_classification()函数，多了一个参数k，因为这里需要找到差值绝对值之和最小的k个图像。

那么，首先要对所求的差值进行排序，在36行代码中使用argsort()函数——返回数组值从小到大的索引值。

创建vote_label 数组，对差值绝对值之和最小的k个图像对应的标签进行记录。

第37至40行是关键——假定k=3，那么for循环循环3次，j分别为0,1,2；那么dis_sort[0]，dis_sort[1]，dis_sort[2]分别表示前3个最小的差值绝对值之和图像的索引，有了图像索引，就可以通过索引去找到该图像对应的标签，即train_l[dis_sort[j]]获得了对应的标签，那么就可以在该标签投一票；假如train_l[dis_sort[0]]，train_l[dis_sort[1]]，train_l[dis_sort[2]]分别为3,6,3（也就是对应标签为3,6,3）；那么标签3就有了两票，而6有了一票；其他标签0票，即 在for循环中，vote_label[train_l[dis_sort[j]]] 要加一，表示对应标签上面投一票，3次循环结束，vote_label应为[0,0,0,2,0,0,1,0,0,0]；可以看出vote_label中最大的值为2，再通过argmax()函数获取数组中最大值对应的下标，这里应该为3了，那么结果即为3。

47行调用knn_classification()函数，其中第四个参数k值为3，程序运行结果如图9所示。

图9 基于k最近邻分类器实现CIFAR-10图像分类结果截图

在某些场景下k-NN算法的效果要好于NN算法，但可以看出在本例中其准确度为0.3333，低于NN算法的准确度。

可以看到以上方法有着一些明显的缺点：最近邻分类的过程是通过比对所有数据集中训练集的图片来完成的，所以必须将所有图片读取在内存中，容易造成内存爆炸；其次，对一幅图像进行判断类别，需要比对所有训练集的图像，识别的过程消耗计算量巨大；最重要的是，该方法的识别正确率也差强人意，对于CIFAR-10数据集只有30%左右。

Python前沿技术：机器学习与人工智能 4.0啊 Python 人工智能 python 机器学习
Python前沿技术：机器学习与人工智能一、引言随着科技的飞速发展，机器学习和人工智能（AI）已经成为了计算机科学领域的热门话题。Python作为一门易学易用且功能强大的编程语言，已经成为了这两个领域的首选语言之一。本文将深入探讨Python在机器学习和人工智能领域的应用，以及一些前沿技术和工具。二、Python机器学习基础2.1机器学习概述机器学习是人工智能（AI）的一个关键子集，它的核心在于让
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
深度学习算法，该如何深入，举例说明 liyy614 深度学习
深度学习算法的深入学习可以从理论和实践两个方面进行。理论上，深入理解深度学习需要掌握数学基础（如线性代数、概率论、微积分）、机器学习基础和深度学习框架原理。实践上，可以通过实现和优化深度学习模型来提升技能。理论深入数学基础线性代数：理解向量、矩阵、特征值和特征向量等，对于理解神经网络的权重和偏置矩阵至关重要。概率论：用于理解模型的不确定性，如Dropout等正则化技术。微积分：理解梯度下降等优化算
Python 机器学习基础之数据表示与特征工程【分箱、离散化、线性模型与树 / 交互特征与多项式特征】的简单说明仙魁XAN Python 机器学习基础+实战案例机器学习 python 分箱离散化线性模型与树交互特征与多项式特征
Python机器学习基础之数据表示与特征工程【分箱、离散化、线性模型与树/交互特征与多项式特征】的简单说明目录Python机器学习基础之数据表示与特征工程【分箱、离散化、线性模型与树/交互特征与多项式特征】的简单说明一、简单介绍二、分箱、离散化、线性模型与树三、交互特征与多项式特征附录一、参考文献一、简单介绍Python是一种跨平台的计算机程序设计语言。是一种面向对象的动态类型语言，最初被设计用于
机器学习基础（四）——决策树与随机森林 Bayesian小孙机器学习基础决策树机器学习随机森林
决策树与随机森林文章目录决策树与随机森林一、知识概要（一）二、决策树使用的算法三、sklearn决策树API四、决策树的案例1.数据清洗2.特征工程3.调用决策树API五、集成学习方法-随机森林1.知识概要（二）2.集成学习API3.随机森林的案例importpandasaspdfromsklearn.feature_extractionimportDictVectorizerfromsklear
【机器学习基础】Anaconda与Pycharm使用叫我东方小巴黎机器学习基础人工智能
这里写目录标题指定py版本安装包指定py版本安装包condaenvlistactivatexxxcondalistpipinstallxxx
Datawhale X 李宏毅苹果书 AI夏令营｜机器学习基础之案例学习 Monyan 人工智能机器学习学习李宏毅深度学习
机器学习（MachineLearning,ML）：机器具有学习的能力，即让机器具备找一个函数的能力函数不同，机器学习的类别不同：回归（regression）：找到的函数的输出是一个数值或标量（scalar）。例如：机器学习预测某一个时间段内的PM2.5，机器要找到一个函数f，输入是跟PM2.5有关的的指数，输出是明天中午的PM2.5的值。分类（classification）：让机器做选择题，先准备
应用数学与机器学习基础 - 线性代数篇绎岚科技机器学习深度学习机器学习线性代数
线性代数1.标量、向量、矩阵、张量学习线性代数，会涉及以下几个数学概念：标量（scalar）：定义：一个标量就是一个单数的数，不同于线性代数中大多数概念会涉及到多个数。表示法：我们用斜体表示标量。标量通常赋予小写的变量名称。当我们介绍标量时，会明确它们是哪种类型的数。比如，在定义实数标量时，我们可能会说”让s∈Rs\in\mathbb{R}s∈R表示一条线的斜率“；在定义自然数标量时，我们可能会说
机器学习基础篇（八）——逻辑回归柚子味的羊数据分析机器学习机器学习算法逻辑回归
机器学习基础篇（八）——逻辑回归一、简介分类问题是机器学习中常见的一种问题，而逻辑回归则是非常适合二分类问题的一种算法。逻辑回归可以将数据集中的点划分成为两个类别。例如，我们可以将数据分成A类和B类。模型将给出特定数据点属于B类的概率，如果它低于0.5，那么就属于A类。如果高于0.5，那么该数据点属于B类。（大部分情况下阈值设为0.5，特定情况下也可以设置为其他值）举个栗子如图所示，学生考试是否成
深度学习如何入门？ nanshaws yolov5 深度学习
深度学习是机器学习的一个子领域，它基于人工神经网络的研究。入门深度学习可以分为以下几个步骤：基础知识准备：（1）掌握基础数学知识，特别是线性代数、概率论和统计学、微积分。（2）学习编程语言，Python是目前最流行的深度学习语言，因其简洁易学且有大量的库支持。（3）了解机器学习基础，包括监督学习和非监督学习的概念、模型评估与选择等。学习深度学习理论：（1）理解神经网络的基本组成，如神经元、激活函数
【机器学习基础】正则化为梦而生~ 机器学习机器学习人工智能
个人主页：为梦而生~关注我一起学习吧！专栏：机器学习欢迎订阅！后面的内容会越来越有意思~⭐特别提醒：针对机器学习，特别开始专栏：机器学习python实战欢迎订阅！本专栏针对机器学习基础专栏的理论知识，利用python代码进行实际展示，真正做到从基础到实战！往期推荐：【机器学习基础】机器学习入门（1）【机器学习基础】机器学习入门（2）【机器学习基础】机器学习的基本术语【机器学习基础】机器学习的模型评
机器学习基础（一）理解机器学习的本质昊昊该干饭了人工智能 python 机器学习人工智能 python
导读：在本文中，将深入探索机器学习的根本原理，包括基本概念、分类及如何通过构建预测模型来应用这些理论。目录机器学习机器学习概念相关概念机器学习根本：模型数据的语言：特征与标签训练与测试：模型评估机器学习的分类监督学习：有指导的学习过程非监督学习：自我探索的过程强化学习：通过试错学习构建与分析鸢尾花数据模型鸢尾花数据集简介加载数据集创建和训练模型进行预测与评估模型机器学习机器学习概念机器学习是人工智
【深度学习】讲透深度学习第3篇：TensorFlow张量操作（代码文档已分享）
本系列文章md笔记（已分享）主要讨论深度学习相关知识。可以让大家熟练掌握机器学习基础,如分类、回归（含代码），熟练掌握numpy,pandas,sklearn等框架使用。在算法上，掌握神经网络的数学原理，手动实现简单的神经网络结构，在应用上熟练掌握TensorFlow框架使用，掌握神经网络图像相关案例。具体包括：TensorFlow的数据流图结构，神经网络与tf.keras，卷积神经网络(CNN)
四、机器学习基础概念介绍 ITS_Oaij 脑电机器学习机器学习人工智能
四、机器学习基础概念介绍1_机器学习基础概念机器学习分类1.1有监督学习1.2无监督学习2_有监督机器学习—常见评估方法数据集的划分2.1留出法2.2校验验证法（重点方法）简单交叉验证K折交叉验证（单独流出测试集）（常用方法/Sklearn的默认方法）k折交叉验证（不单独留出测试集）留一法交叉验证Subject-wise交叉验证2.3bootstrap自助法3_有监督机器学习—学习评价指标3.1准
【机器学习 & 深度学习】开发工具Anaconda的安装与使用为梦而生~ 机器学习python实战机器学习深度学习 python conda pycharm 人工智能
个人主页：为梦而生~关注我一起学习吧！专栏：机器学习：相对完整的机器学习基础教学！机器学习python实战：用python带你感受真实的机器学习深度学习：现代人工智能的主流技术介绍往期推荐：【机器学习&深度学习】神经网络简述【机器学习&深度学习】卷积神经网络学习笔记【Python基础&机器学习】Python环境搭建（适合新手阅读的超详细教程）文章目录前言安装Anaconda关于Anaconda的介
跨模态行人重识别都需要学什么 ALGORITHM LOL 人工智能
跨模态行人重识别（Cross-ModalityPersonRe-identification,简称Cross-ModalityRe-ID）是计算机视觉领域的一项挑战性任务，旨在跨越不同模态之间（例如，可见光与红外线图像）识别同一行人。该任务涉及图像处理、特征提取、模态转换、深度学习等多个方面。1.基础知识计算机视觉与图像处理：理解图像基础（如像素、色彩空间）、图像变换、图像增强技术。机器学习基础：
ChatGPT学习大纲冷暖从容 ChatGPT chatgpt 学习人工智能
引言在2023年2月份左右开始使用ChatGPT时，就被它强大的理解能力和应答效果所折服，这期间一直在断断续续的学习和使用，也没形成一个完整的学习过程，最近刚好有空，就寻思着好好再学习总结一下，故写出了ChatGPT学习系列的文章，供与大家学习交流。第1周-ChatGPT基础知识ChatGPT简介了解ChatGPT的基本功能和应用场景。人工智能与机器学习基础学习AI和机器学习的基本概念，为理解
机器学习概述及流程机智的冷露机器学习人工智能机器学习 python
概述一、目标1、掌握机器学习基础环境安装2、掌握常用的科学计算库对数据进行展示、分析二、人工智能三要素1、数据2、算法2、算力：CPU适合I/O密集型程序，GPU适合计算密集型和易于并行的程序。三、人工智能主要分支1、计算机视觉（CV）2、自然语言处理（NLP）：文本挖掘/分类、机器翻译、语音识别3、机器人四、机器学习工作流程简介从数据中自动分析获得模型，再利用模型对未知数据进行预测。1、获取数据
机器学习基础——matplotlib.pyplot和seaborn的使用小螳螂
importmatplotlib.pyplotaspltimportnumpyasnp第一步生成数据集x=np.linspace(-3,3,50)#平均采样,[-3,3]采样50个x.shape(50,)y1=2*x+1y1.shape(50,)y2=x**2y2array([9.00000000e+00,8.28029988e+00,7.59058726e+00,6.93086214e+00,6
【深度学习】讲透深度学习第3篇：TensorFlow张量操作（代码文档已分享）程序员一诺 python笔记人工智能深度学习深度学习 tensorflow 人工智能
本系列文章md笔记（已分享）主要讨论深度学习相关知识。可以让大家熟练掌握机器学习基础,如分类、回归（含代码），熟练掌握numpy,pandas,sklearn等框架使用。在算法上，掌握神经网络的数学原理，手动实现简单的神经网络结构，在应用上熟练掌握TensorFlow框架使用，掌握神经网络图像相关案例。具体包括：TensorFlow的数据流图结构，神经网络与tf.keras，卷积神经网络(CNN)
机器学习入门-----sklearn 辣椒酱. python 机器学习 sklearn 人工智能
机器学习基础了解概念机器学习是人工智能的一个实现途径深度学习是机器学习的一个方法发展而来定义：从数据中自动分析获得模型，并利用模型对特征数据【数据集：特征值+目标值构成】进行预测算法数据集的目标值是类别的话叫做分类问题；目标值是连续的数值的话叫做回归问题；统称监督学习；另一类是无监督学习，这一类的数据集没有目标值，典型：聚类；做什么可以进行传统预测、图像识别、自然语言处理传统预测店铺销量预测、量化
【机器学习】科学库使用手册第2篇：机器学习任务和工作流程（已分享，附代码）程序员一诺 python笔记机器学习人工智能机器学习人工智能
本系列文章md笔记（已分享）主要讨论人工智能相关知识。主要内容包括，了解机器学习定义以及应用场景，掌握机器学习基础环境的安装和使用，掌握利用常用的科学计算库对数据进行展示、分析，学会使用jupyternotebook平台完成代码编写运行，应用Matplotlib的基本功能实现图形显示，应用Matplotlib实现多图显示，应用Matplotlib实现不同画图种类，学习Numpy运算速度上的优势，知
【深度学习】从0完整讲透深度学习第2篇：TensorFlow介绍和基本操作（代码文档已分享）程序员一诺 python笔记深度学习人工智能深度学习 tensorflow 人工智能
本系列文章md笔记（已分享）主要讨论深度学习相关知识。可以让大家熟练掌握机器学习基础,如分类、回归（含代码），熟练掌握numpy,pandas,sklearn等框架使用。在算法上，掌握神经网络的数学原理，手动实现简单的神经网络结构，在应用上熟练掌握TensorFlow框架使用，掌握神经网络图像相关案例。具体包括：TensorFlow的数据流图结构，神经网络与tf.keras，卷积神经网络(CNN)
2024-01-06-AI 大模型全栈工程师 - 机器学习基础流雨声人工智能机器学习
摘要2024-01-06阴杭州晴本节简介:a.数学模型&算法名词相关概念;b.学会数学建模相关知识；c.学会自我思考，提升认知，不要只会模仿；课程内容1.Fine-Tuning有什么作用？a.什么是模型训练（Training）b.什么是模型预训练（Pre-Training）c.微调（Fine-Tuning）d.轻量化微调（ParameterEfficientFine-Tuning,PEFT）2.什
机器学习基础、数学统计学概念、模型基础技术名词及相关代码个人举例是lethe先生机器学习人工智能
1.机器学习基础（1）机器学习概述机器学习是一种人工智能（AI）的分支，通过使用统计学和计算机科学的技术，使计算机能够从数据中学习并自动改进性能，而无需进行明确的编程。它涉及构建和训练机器学习模型，以便能够对未见过的数据进行预测或做出决策。机器学习的基本目标是通过从数据中发现模式和规律，自动提取和学习数据中的特征，并用这些特征构建预测模型或分类模型。（2）数学统计学概念1、概率论：概率论是研究随机
2024-01-06-AI 大模型全栈工程师 - 机器学习基础流雨声人工智能机器学习
摘要2024-01-06阴杭州晴本节简介:a.数学模型&算法名词相关概念;b.学会数学建模相关知识；c.学会自我思考，提升认知，不要只会模仿；课程内容1.Fine-Tuning有什么作用？a.什么是模型训练（Training）b.什么是模型预训练（Pre-Training）c.微调（Fine-Tuning）d.轻量化微调（ParameterEfficientFine-Tuning,PEFT）2.什
【机器学习 & 深度学习】卷积神经网络简述为梦而生~ 机器学习深度学习机器学习人工智能深度学习神经网络 cnn 计算机视觉自然语言处理
个人主页：为梦而生~关注我一起学习吧！专栏：机器学习欢迎订阅！相对完整的机器学习基础教学！⭐特别提醒：针对机器学习，特别开始专栏：机器学习python实战欢迎订阅！本专栏针对机器学习基础专栏的理论知识，利用python代码进行实际展示，真正做到从基础到实战！往期推荐：【机器学习基础】一元线性回归（适合初学者的保姆级文章）【机器学习基础】多元线性回归（适合初学者的保姆级文章）【机器学习基础】决策树（
【Python基础 & 机器学习】Python环境搭建（适合新手阅读的超详细教程）为梦而生~ 机器学习python实战 python 机器学习开发语言人工智能数据挖掘 pycharm
个人主页：为梦而生~关注我一起学习吧！重要专栏：机器学习：相对完整的机器学习基础教学！机器学习python实战：用python带你感受真实的机器学习深度学习：现代人工智能的主流技术介绍python网络爬虫从基础到实战：Python的主流应用领域之一，也可以与人工智能领域相结合的技术往期推荐：【机器学习&深度学习】神经网络简述【机器学习&深度学习】卷积神经网络简述【python爬虫开发实战&情感分析
深度学习知识点汇总-机器学习基础（5）深度学习模型优化
2.5分类算法的评估指标有哪些？图1混淆矩阵上图中术语解释：TP（Truepositives）。表示被正确地划分为正例的个数，即实际为正例且被分类器划分为正例的实例数；FP（Falsepositives）。表示被错误地划分为正例的个数，即实际为负例但被分类器划分为正例的实例数；FN（Falsenegatives）。表示被错误地划分为负例的个数，即实际为正例但被分类器划分为负例的实例数；TN（Tru
机器学习基础2 qingxi_ran 机器学习人工智能
提示：MachneLearning机器学习吴恩达目录一、JupyterNotebooks（数据分析神器）二、回归模型（线性回归）三、分类模型（离散）四、术语一、JupyterNotebooks（数据分析神器）机器学习和数据科学从业者使用最广泛的工具在命令行输入pipinstalljupyter在命令行输入jupyternotework熟练使用jupyternotebook（三天）二、回归模型（线性
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &