OzupeSir

KNN

- - 简介
  - 一、KNN算法的基本流程
  - 二、KNN三要素
  - - 1. 距离度量
    - 2. k值的选择
    - 3. 分类决策规则
  - 三、KNN的算法手写代码实现（Python）
  - 四、KNN算法在SKlearn中的调用
  - 五、KNN算法的优缺点
  - - 1.优点
    - 2.缺点
  - 五、Kd树
  - - 1.Kd树简介
    - 2.Kd树的构造
    - 3.搜索kd树

简介

领近算法，或者说K最近邻(kNN，k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。

KNN方法既可以做分类，也可以做回归，这点和决策树算法相同。KNN做回归和分类的主要区别在于最后做预测时候的决策方式不同。

KNN做分类预测时，一般是选择多数表决法，即训练集里和预测的样本特征最近的K个样本，预测为里面有最多类别数的类别。
KNN做回归时，一般是选择平均法，即最近的K个样本的样本输出的平均值作为回归预测值。

本文所写内容主要为分类算法。

一、KNN算法的基本流程

kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 kNN方法在类别决策时，只与极少量的相邻样本有关。由于kNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，kNN方法较其他方法更为适合。

如上图所示，在总体的类别里面共有两类，分别为class1（图中以三角形代替）以及class2（图中用方框代替）。现在有一个点所处的位置为问号处。

假如令K=1，在问号处找到最近邻的1个点为方框，根据投票选择，那么这个目标点所属类别应该为方块所代表的class2。
假如令K=2，在问号处找到最近领的5个点，包含了两个方框和三个三角形，那么这个目标点所属的类别应该为三角所代表的class1。

二、KNN三要素

距离度量、k值的选择及分类决策规则是k近邻法的三个基本要素。根据选择的距离度量（如曼哈顿距离或欧氏距离），可计算测试实例与训练集中的每个实例点的距离，根据k值选择k个最近邻点，最后根据分类决策规则将测试实例分类。

1. 距离度量

给定测试对象 $I t e m$ ，计算它与训练集中每个对象的距离。

特征空间中的两个实例点的距离是两个实例点相似程度的反映。常用的距离包括了闵可夫斯基距离（Minkowski distance,Lp
Lp距离），曼哈顿距离（Manhattan distance，L1），欧氏距离（Euclidean distance，L2），或者从另外的角度看，皮尔逊相关系数，余弦相似度的倒数也可以作为距离的代表。但是KNN中，较为常用的距离度量为欧氏距离。

关于常用的距离度量，可以查看：常用的距离以及相似度的计算 —https://blog.csdn.net/weixin_45611266/article/details/101619539

2. k值的选择

圈定距离最近的 $k$ 个训练对象，作为测试对象的近邻。

k值即为选择最近邻的k个点进行观察。K值的选择会对k近邻法的结果产生重大影响。在应用中，k值一般取一个比较小的数值，通常采用交叉验证法来选取最优的k值。

3. 分类决策规则

根据这k近邻归属的主要类别，来对测试对象进行分类。

k近邻法中的分类决策规则往往是投票法，由输入实例的k个邻近的训练实例中的多数类，决定输入实例的类。
但是，在有一些时候，也会为投票的规则加上一个系数，系数为距离的倒数。

三、KNN的算法手写代码实现（Python）

举一个具体的例子：
对某一个电影进行分类：

序号	电影名称	搞笑镜头	拥抱镜头	打斗镜头	电影类型
1	宝贝当家	45	2	9	喜剧片
2	美人鱼	21	17	5	喜剧片
3	澳门风云3	54	9	11	喜剧片
4	功夫熊猫3	39	0	31	喜剧片
5	谍影重重	5	2	57	动作片
6	叶问3	3	2	65	动作片
7	伦敦陷落	2	3	55	动作片
8	我的特工爷爷	6	4	21	动作片
9	奔爱	7	46	4	爱情片
10	夜孔雀	9	39	8	爱情片
11	代理情人	9	38	2	爱情片
12	新步步惊心	8	34	17	爱情片
13	唐人街探案	23	3	17	？

上面数据集中，已知前面12部电影的分类以及所使用的的三个标签：搞笑镜头、拥抱镜头、打斗镜头。已知前面12部电影的特征，以及《唐人街探案》的特征，对最后一部电影《唐人街探案》进行分类。

首先，将《唐人街探案》的特征和其他一部电影的特征求欧氏距离：
$\ Distance(X,Y)= \sqrt{\sum_{1}^N (x_i-y_i)^2}$
例如《宝贝当家》与《唐人街探案》的距离为
$\ Distance(X,Y) = \sqrt{(45-23)^2+(2-3)^2+(9-17)^2}=23.430749027719962$
可得:

序号	电影名称	与唐人街探案的距离	电影类型
0	宝贝当家	23.430749	喜剧片
1	美人鱼	18.547237	喜剧片
2	澳门风云3	32.140317	喜剧片
3	功夫熊猫3	21.470911	喜剧片
4	谍影重重	43.874822	动作片
5	叶问3	52.009614	动作片
6	伦敦陷落	43.416587	动作片
7	我的特工爷爷	17.492856	动作片
8	奔爱	47.686476	爱情片
9	夜孔雀	39.661064	爱情片
10	代理情人	40.570926	爱情片
11	新步步惊心	34.438351	爱情片

假定参数K=5，那么就对上面的距离进行排序，并找出前5个:

序号	电影名称	与唐人街探案的距离	电影类型	判断
7	我的特工爷爷	17.492856	动作片	√
1	美人鱼	18.547237	喜剧片	√
3	功夫熊猫3	21.470911	喜剧片	√
0	宝贝当家	23.430749	喜剧片	√
2	澳门风云3	32.140317	喜剧片	√
11	新步步惊心	34.438351	爱情片	×
9	夜孔雀	39.661064	爱情片	×
10	代理情人	40.570926	爱情片	×
6	伦敦陷落	43.416587	动作片	×
4	谍影重重	43.874822	动作片	×
8	奔爱	47.686476	爱情片	×
5	叶问3	52.009614	动作片	×

统计前5个的数量比：

类型	个数
动作片	1
喜剧片	4
爱情片	0

显然，在这里就直接可以将《唐人街探案》归为喜剧片一类

运用代码来判断如下：Python

import pandas as pd
movie_data = [["宝贝当家",45, 2, 9, "喜剧片"],
              ["美人鱼",21, 17, 5, "喜剧片"],
              ["澳门风云3",54, 9, 11, "喜剧片"],
              ["功夫熊猫3",39, 0, 31, "喜剧片"],
              ["谍影重重",5, 2, 57, "动作片"],
              ["叶问3",3, 2, 65, "动作片"],
              ["伦敦陷落",2, 3, 55, "动作片"],
              ["我的特工爷爷",6, 4, 21, "动作片"],
              ["奔爱",7, 46, 4, "爱情片"],
              ["夜孔雀",9, 39, 8, "爱情片"],
              ["代理情人",9, 38, 2, "爱情片"],
              ["新步步惊心",8, 34, 17, "爱情片"],
              ['唐人街探案',23,3,17,'?']]

movie_data = pd.DataFrame(movie_data,columns=['电影名称','搞笑镜头','拥抱镜头','打斗镜头','电影类型'])

def KNNClassifier(k,train_data=movie_data):
    '''
    func : KNN预测电影的类型
    params : 
        k : k值
        train_data : 原始数据
    return : print电影类型
    '''
    feature_data =movie_data.iloc[:-1,1:4] 
    labels = movie_data.iloc[:-1,-1]    # 筛选出训练集的特征和标签
    
    
    new_data=movie_data.iloc[-1,1:4]     # 找出测试集的特征
    
    distance = ((feature_data.iloc[:,:]-new_data)**2).sum(axis = 1)**0.5 # 计算电影之间的欧氏距离
    dist=pd.DataFrame({'distance':distance,'labels':labels})
    
    dr = dist.sort_values(by = 'distance')[:k]    # 找出最近邻的k部电影
    
    re = dr.loc[:,'labels'].value_counts()   # 统计电影的类型的个数
    
    result=re.index[0]   # 找出k值下个数最多的电影类型

    print('{}在K近邻(K值为 {} )的预测下，预测为"{}"'.format(movie_data.iloc[-1,0],k,result))
    
    
if __name__=='__main__':
    KNNClassifier(5)

输出结果：

唐人街探案在K近邻(K值为 5 )的预测下，预测为"喜剧片"

数据来源于 saltriver‘s Blog——K最近邻算法（KNN）

四、KNN算法在SKlearn中的调用

Nearest Neighbors在SKlearn——https://scikit-learn.org/stable/modules/neighbors.html#nearest-neighbors-classification

class sklearn.neighbors.KNeighborsClassifier (n_neighbors=5, weights=’uniform’,
algorithm=’auto’, leaf_size=30, p=2, metric=’minkowski’, metric_params=None, n_jobs=None, **kwargs)

KNN中的重要参数：

n_neighbors : k值，即为近邻的个数
weights ：⽤于决定是否使⽤距离作为惩罚因⼦的参数，默认是 “uniform”（或者是“auto”’）
可能输⼊的值有：
“uniform”：表示⼀点⼀票
“distance”：表示以每个点到测试点的距离的倒数计算该点的距离所占的权重，使得距离测试点更
近的样本点⽐离测试点更远的样本点具有更⼤的影响⼒。
algorithm：用于计算最近邻的算法
可输入的值：
‘ball_tree’ will use :class:BallTree
‘kd_tree’ will use :class:KDTree
‘brute’对应蛮力实现
‘auto’则会在上面三种算法中做权衡，选择一个拟合最好的最优算法。
leaf_size:将叶子的大小传递给BallTree或者是KDTree，默认值为30
p =2, metric = ’minkowski’：距离度量，默认为p=2的闵式距离，即为欧氏距离

下面举例用乳腺癌数据集来展示KNN在SKlearn中的具体调用：

import pandas as pd

from sklearn.neighbors import KNeighborsClassifier       # 读取sklearn的KNN分类器
from sklearn.datasets import load_breast_cancer          # 读取乳腺癌症数据集
from sklearn.model_selection import train_test_split     # 读取训练集测试集的划分模块

读取数据并且划分训练集、测试集

data = load_breast_cancer()
X = data.data
y = data.target

print(data.feature_names)

name = ['平均半径','平均纹理','平均周⻓','平均⾯积',
        '平均光滑度','平均紧凑度','平均凹度',
        '平均凹点','平均对称','平均分形维数',
        '半径误差','纹理误差','周⻓误差','⾯积误差',
        '平滑度误差','紧凑度误差','凹度误差',
        '凹点误差','对称误差','分形维数误差',
        '最差半径','最差纹理', '最差的边界',
        '最差的区域','最差的平滑度', '最差的紧凑性',
        '最差的凹陷','最差的凹点', '最差的对称性','最差的分形维数']

X = pd.DataFrame(X,columns=name)
Xtrain,Xtest,Ytrain,Ytest = train_test_split(X,y,test_size=0.3) # 划分训练集测试集

训练并且获得对测试集进行测试的准确度

clf = KNeighborsClassifier(n_neighbors=4)
clf = clf.fit(Xtrain,Ytrain)
score = clf.score(Xtest,Ytest)
print(score)

# 所得结果为： 0.9005847953216374

# 找出⼀个数据点的最近邻（返回距离以及最近的几个点的距离）
clf.kneighbors(Xtest.iloc[[30,20],:],return_distance=True)
#所得结果如下：
#(array([[15.96377519, 22.40015872, 25.32880508, 28.62115526],
#        [17.52571761, 22.0766338 , 25.89167197, 26.20683157]]),
# array([[ 99, 182,  10,  18],
#        [  5, 396,  41, 329]], dtype=int64))

当然也可以通过学习曲线来找到最优的K值选择

# 学习曲线
import matplotlib.pyplot as plt

score = []
krange = range(1,20)

for i in krange:
    clf = KNeighborsClassifier(n_neighbors=i)
    clf = clf.fit(Xtrain,Ytrain)
    score.append(clf.score(Xtest,Ytest))

plt.plot(krange,score)

五、KNN算法的优缺点

1.优点

简单，易于理解，易于实现，无需估计参数，无需训练；
适合对稀有事件进行分类；
特别适合于多分类问题(multi-modal,对象具有多个类别标签)， kNN比SVM的表现要好。

2.缺点

当样本不平衡时，如一个类的样本容量很大，而其他类样本容量很小时，有可能导致当输入一个新样本时，该样本的K个邻居中大容量类的样本占多数。该算法只计算“最近的”邻居样本，某一类的样本数量很大，那么或者这类样本并不接近目标样本，或者这类样本很靠近目标样本。无论怎样，数量并不能影响运行结果。
该方法的另一个不足之处是计算量较大，因为对每一个待分类的文本都要计算它到全体已知样本的距离，才能求得它的K个最近邻点。
抗噪性较弱，对噪声数据（异常值）较为敏感。最近邻分类器基于局部信息进⾏预测，⽽决策树和基于规则的分类器则试图找到⼀个拟合整个输⼊空间的全局模型。正是因为这样的局部分类决策，最近邻分类器（k很⼩时）对噪声⾮常敏感。

五、Kd树

参考文档：
机器学习系列之——Knn算法 kd树详解

在KNN的算法中，对特征空间进行划分的方法为计算新的输入实例与训练实例之间的距离，因为在特征空间中2个特征实例的相似程度可以用距离来表示。一般我们采用的是欧式距离，也就是说每个新的输入实例都需要与所有的训练实例计算一次距离并排序。当训练集非常大的时候，计算就非常耗时、耗内存，导致算法的效率降低。

为了提高Knn的搜索效率，这里介绍一种可以减少计算距离次数的方法———kd树方法。

1.Kd树简介

kd树（k-dimensional树的简称），是一种对k维空间中的实例点进行存储以便对其进行快速搜索的二叉树结构。利用kd树可以省去对大部分数据点的搜索，从而减少搜索的计算量。

kd 树是每个节点均为k维数值点的二叉树，其上的每个节点代表一个超平面，该超平面垂直于当前划分维度的坐标轴，并在该维度上将空间划分为两部分，一部分在其左子树，另一部分在其右子树。即若当前节点的划分维度为d，其左子树上所有点在d维的坐标值均小于当前值，右子树上所有点在d维的坐标值均大于等于当前值，本定义对其任意子节点均成立。

2.Kd树的构造

举例：存在集合(2,3)，(5,4)，(9,6)，(4,7)，(8,1)，(7,2)。

构建根节点时，此时的切分维度为x，如上点集合在x维从小到大排序为(2,3)，(4,7)，(5,4)，(7,2)，(8,1)，(9,6)；其中值为(7,2)。（注：2,4,5,7,8,9在数学中的中值为(5 + 7)/2=6，但因该算法的中值需在点集合之内，所以中值计算用的是len(points)//2=3, points[3]=(7,2) ）

(2,3)，(4,7)，(5,4)挂在(7,2)节点的左子树，(8,1)，(9,6)挂在(7,2)节点的右子树。

构建(7,2)节点的左子树时，点集合(2,3)，(4,7)，(5,4)此时的切分维度为y，中值为(5,4)作为分割平面，(2,3)挂在其左子树，(4,7)挂在其右子树。

构建(7,2)节点的右子树时，点集合(8,1)，(9,6)此时的切分维度也为y，中值为(9,6)作为分割平面，(8,1)挂在其左子树。至此k-d tree构建完成。
根据上面的步骤，kd树将二维空间的划分展示出来：

3.搜索kd树

实例1：

首先假设（2,3）为“当前最近邻点”。最邻近点肯定位于以查询点为圆心且通过叶子节点的圆域内。为了找到真正的最近邻，还需要进行“回溯”操作：算法沿搜索路径反向查找是否有距离查询点更近的数据点。此例中是由点（2,3）回溯到其父节点（5,4），并判断在该父节点的其他子节点空间中是否有距离查询点更近的数据点，发现该圆并不和超平面y = 4交割，因此不用进入（5,4）节点右子空间中去搜索。

再回溯到（7,2），以（2.1,3.1）为圆心，以0.1414为半径的圆更不会与x = 7超平面交割，因此不用进入（7,2）右子空间进行查找。
至此，搜索路径中的节点已经全部回溯完，结束整个搜索，返回最近邻点（2,3），最近距离为0.1414。

实例2：

首先假设（4,7）为当前最近邻点，计算其与目标查找点的距离为3.202。回溯到（5,4），计算其与查找点之间的距离为3.041，小于3.202，所以“当前最近邻点”变成（5,4）。

以目标点（2,4.5）为圆心，以目标点（2,4.5）到“当前最近邻点”（5,4）的距离（即3.041）为半径作圆，如上图所示。可见该圆和y = 4超平面相交，所以需要进入（5,4）左子空间进行查找，即回溯至（2,3）叶子节点（2,3）距离（2,4.5）比（5,4）要近，所以“当前最近邻点”更新为（2,3），最近距离更新为1.5。

回溯至（7,2），以（2,4.5）为圆心1.5为半径作圆，并不和x = 7分割超平面交割，如下图所示。至此，搜索路径回溯完。返回最近邻点（2,3），最近距离1.5。

至此，完成了KdTree的了解，在Sklearn中通过调整algorithm参数可以进行KdTree的设置。

以后慢慢补充

Linux系统编程（六）线程同步、互斥机制小仇学长 Linux linux 线程互斥锁信号量
本文目录前述：同步机制的引入及概念一、互斥锁1.定义2.互斥锁常用方法3.相关函数（1）头文件（2）创建互斥锁（3）销毁互斥锁（4）加锁（5）解锁4.使用例程二、条件变量1.相关函数（1）创建条件变量（2）注销条件变量（3）等待条件变量成立（4）条件变量激发（使条件变量成立）2.使用注意3.使用例程三、信号灯1.分类2.信号灯操作3.相关函数4.使用例程四、原子操作（内核层）1.优势2.常用的原子
线程安全之乐观锁和悲观锁
锁可以从不同的⻆度分类。其中，乐观锁和悲观锁是⼀种分类⽅式。悲观锁：悲观锁就是我们常说的锁。对于悲观锁来说，它总是认为每次访问共享资源时会发⽣冲突，所以必须对每次数据操作加上锁，以保证临界区的程序同⼀时间只能有⼀个线程在执⾏。乐观锁：乐观锁⼜称为“⽆锁”，顾名思义，它是乐观派。乐观锁总是假设对共享资源的访问没有冲突，线程可以不停地执⾏，⽆需加锁也⽆需等待。⽽⼀旦多个线程发⽣冲突，乐观锁通常是使⽤⼀
python基础语法复习08——模块化编程洛华363 python python 开发语言
python基础语法目录python基础语法01——基本类型python基础语法02——复合类型python基础语法03——语句构成python基础语法04——函数python基础语法05——递归及装饰器python基础语法06——类与对象python基础语法07——迭代器与生成器文章目录python基础语法目录前言一、模块（Module）1.1什么是模块？1.2模块使用1.3模块分类1.3.1系
OSPF知识之凹の鸥网络智能路由器
在网络工程师、系统工程师等岗位的面试中，OSPF（OpenShortestPathFirst，开放最短路径优先）是高频考点，尤其是对中高级网络岗位（如网络架构师、运维工程师）。以下是OSPF的核心考点和必须掌握的知识点，按优先级分类整理，帮助你高效备考：一、基础概念与核心机制OSPF的定义与特点定义：OSPF是一种基于链路状态（Link-State）的内部网关协议（IGP），用于在自治系统（AS）
分类模型（BERT）训练全流程巴伦是只猫人工智能分类 bert 数据挖掘
使用BERT实现分类模型的完整训练流程BERT(BidirectionalEncoderRepresentationsfromTransformers)是一种强大的预训练语言模型，在各种NLP任务中表现出色。下面我将详细梳理使用BERT实现文本分类模型的完整训练过程。1.准备工作1.1环境配置pipinstalltransformerstorchtensorflowpandassklearn1.2
【Android】UI布局工具及详解米莱虾 #Android ui android
ViewGroup1.简介ViewGroup是一种View，他是View容器，也就是里边可以包含其他View.分类：（1）layout布局类的ViewGroup（2）ScrollView带滚动条的ViewGroup（3）高级View容器（适配器View）（4）其他ViewGroup2.布局类的ViewGroup布局类的容器主要是用来控制子元素的排布方式和排列位置分类：（1）线性布局（2）相对布局（
开源模型应用落地-qwen模型小试-Qwen2.5-7B-Instruct-玩转ollama（一）开源技术探险家开源模型-实际应用落地 #深度学习自然语言处理语言模型
一、前言在AI大模型百花齐放的时代，很多人都对新兴技术充满了热情，都想尝试一下。然而，实际上要入门AI技术的门槛非常高。除了需要高端设备，还需要面临复杂的部署和安装过程，这让很多人望而却步。在这样的背景下，Ollama的出现为广大开发者和爱好者提供了一条便捷的道路，极大地降低了应用机器学习的门槛。Ollama的优势在于其极致的简化。通过这个平台，用户可以轻松下载、运行和管理各种机器学习模型，而无需
机器学习之——认识机器学习 -睡到自然醒~ golang 重构开发语言
首先，什么是机器学习？参照百度百科的讲解，“机器学习是一门多领域交叉学科，设计概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习能力，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。”什么意思呢？也就是说，机器学习是一门跨领域的学科，是一种能够让机器模仿人类学习能力的一种学科。在Andrew的课程中，提到了几个机器学习的定义：1，A
大模型微调技术的详细解析及对比老兵发新帖人工智能大数据
以下是四种主流大模型微调技术的详细解析及对比，结合技术原理、适用场景与性能表现进行说明：1.Full-tuning（全量微调）核心原理：加载预训练模型的所有参数，用特定任务数据（通常为指令-回答对）继续训练，更新全部权重。相当于对模型整体知识结构进行重构。操作流程：加载预训练模型；用任务数据集（如分类文本）和优化目标（如最小化误差）训练；所有参数参与梯度更新。优势：模型充分学习任务特征，效果通常最
Epoch 老兵发新帖人工智能
在深度学习和机器学习中，Epoch（轮次或周期）是一个核心训练概念，指模型在整个训练数据集上完成一次完整遍历的过程。以下是关于Epoch的详细解析：一、核心定义基本含义Epoch表示模型将所有训练数据完整学习一次的过程。例如：若训练集有10,000个样本，则1个Epoch即模型用这10,000个样本训练一轮。与相关概念的关系Batch（批次）：数据集被分割成的小组（如每批32个样本）。Iterat
Python --- day 10 Opencv模块的使用 AnAn__kang python opencv 开发语言
系列文章目录前言今天博主带大家进入Opencv的学习，这是一个专门针对处理图像和视频的一个模块，大家以理解为主，增强自己的编程思维，再后续我们训练模型时会大批量的处理图片时会经常用到这个模块。1OpenCV介绍OpenCV（开放源代码计算机视觉库）是一个开源的计算机视觉和机器学习软件库。由一系列C++类和函数构成，用于图像处理、计算机视觉领域的算法实现。1.1OpenCV优势**开源免费：**完全
macOS 上安装 Kubernetes（k8s）老兵发新帖 macos kubernetes 容器
在macOS上安装Kubernetes（k8s）主要有三种主流方案，以下根据安装复杂度、资源占用和适用场景分类说明，并附详细步骤：⚙️一、推荐方案：Minikube（单节点本地集群）适用场景：学习、开发测试、资源有限（需2-4GB内存）。安装步骤：安装依赖工具安装DockerDesktop（推荐）或VirtualBox：brewinstall--caskdocker或brewinstallvirt
深度学习图像分类数据集—百种病虫害分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：百种病虫害识别分类，训练集45095张，验证集7508张，测试集22619张具体类别为以下：insect_classes=["rice_leaf_roller","rice_leaf_caterpillar
草莓叶片病害识别与分类数据集 qq_38220914 分类数据挖掘人工智能
草莓作为一种重要的经济作物，在全球范围内广泛种植。然而，草莓生产过程中常常受到各种病害的困扰，其中叶片病害尤为严重。为了有效识别、检测和分类草莓叶片病害，构建一个高质量的数据集是至关重要的。本文介绍了一个针对草莓叶片病害识别检测与分类的数据集，该数据集涵盖了多种草莓叶片病害类型，包括白粉病、灰霉病、炭疽病、蛇眼病、叶斑病、黄萎病和根腐病。数据集构建过程中，采用了严格的图像采集、标注和预处理流程，确
机器学习数据预处理阶段为什么需要——归一化处理
参考：https://www.cnblogs.com/bjwu/p/8977141.html通常，在DataScience中，预处理数据有一个很关键的步骤就是数据的标准化。这里主要引用sklearn文档中的一些东西来说明，主要把各个标准化方法的应用场景以及优缺点总结概括，以来充当笔记。提升模型精度在机器学习算法的目标函数(例如SVM的RBF内核或线性模型的l1和l2正则化)，许多学习算法中目标函数
植物病害识别：YOLO甘蔗叶片病害识别分类数据集
YOLO甘蔗叶片病害识别数据集,包含尾孢菌叶斑病，眼斑病，健康，红腐病，锈病，黄叶病6个常见病类别，3300多张图像，yolo标注完整，全部原始图像，应用数据增强。适用于CV项目，毕设，科研，实验等需要此数据集或其他任何数据集请私信
基于小样本学习的图像分类综述 cdyyyyyyy 学习分类机器学习
目录引言基本概念小样本学习方法分类1、数据增强2、迁移学习3、元学习小样本学习主流方法1、基于度量的小样本学习2、基于Pretraining+FineTuning的方法3、基于元学习的小样本学习总结引言因为课程设计要求，所以进行了关于小样本学习的调研。目前小样本学习还是一个比较热门的研究，很多关于小样本学习的论文也陆续发表。本文只是一个概述，具体方法研究还有待深入。基本概念小样本学习（FSL：Fe
ARM指令集--简介小蘑菇二号 arm 指令集
目录1ARM指令集特点2ARM指令集分类3指令格式ARM指令集是专为ARM架构处理器设计的一系列机器指令集合。ARM（AdvancedRISCMachines）以其精简指令集计算机（RISC）设计理念为基础，提供了高效、低功耗的指令系统。ARM指令集历经多个版本迭代，目前最新的主流版本包括ARMv8-A（支持AArch64和AArch32两种执行状态）。1ARM指令集特点-**精简指令集**：指令
【软件测试】从软件测试到Bug评审：生命周期与管理技巧卜及中软件工程(测试)bug 测试工具软件工程
文章目录一、软件测试的生命周期软件生命周期软件测试生命周期各阶段内容二、Bugbug的概念bug要素bug级别1.按严重程度（Severity）分类2.按优先级（Priority）分类示例冲突场景bug的生命周期三、测试时与开发人员意见不统一Bug是否描述清楚？站在用户角度重新思考问题Bug定级要有依据Bug评审一、软件测试的生命周期软件生命周期我们知道：软件生命周期（SoftwareDevelo
【C++】深入理解C++迭代器：概念、分类与自定义实现
文章目录前言1.迭代器的概念2.迭代器的作用3.迭代器的分类3.1按功能分类3.2按能否修改数据分类4.迭代器的本质迭代器的内部实现5.如何为自定义容器编写迭代器5.1定义迭代器5.2使用自定义迭代器前言1.迭代器的概念在C++中，迭代器（iterator）可以看作是一种指向容器元素的对象，它提供了类似指针的接口来访问容器中的元素。通过迭代器，程序员能够在不关心容器内部实现的情况下，安全地遍历容器
车辆云端威胁情报共享系统的多维解析与发展路径百态老人大数据人工智能
第一部分：内容本质提取原始内容描述了一个闭环网络安全体系：“车辆实时上传异常行为日志至安全运营中心（VSOC），云端通过机器学习分析攻击模式并下发全局防御策略”。其核心架构包含：数据采集层：车辆端持续收集异常行为日志数据，包含CAN总线通信模式、网络流量特征及驾驶行为数据传输层：通过V2X通信协议和OTA更新通道实现车云双向通信分析层：安全运营中心(VSOC)采用CNN-BiSRU等深度学习模型进
过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶 Ryan_sz1
1、过拟合、欠拟合及其解决方案过拟合、欠拟合机器学习或者训练深度神经网络的时候经常会出现欠拟合和过拟合这两个问题，但是，一开始我们的模型往往是欠拟合的，也正是因为如此才有了优化的空间，我们需要不断的调整算法来使得模型的表达能拿更强。但是优化到了一定程度就需要解决过拟合的问题了。也就是说欠拟合是模型表达能力不够，达不到很好的表达效果。而过拟合是在训练集的范围内表达能力过强，导致完全拟合了训练集。解决
iOS 抓包工具有哪些？2025实用指南与场景推荐
在iOS平台调试网络请求，你可能会遇到无法代理、HTTPS加密、Pin验证、双向认证等诸多拦截。本文将围绕当下实用的iOS抓包工具进行全面介绍，从功能对比到典型场景帮助你找到最佳调试方案。工具分类及主要功能一览我们先从功能维度来看这些工具：工具名称HTTPS解密绕过Pin/双向认证App指定抓包拦截&修改网络层分析Charles✅❌❌✅❌Sniffmaster✅✅✅✅✅✅✅✅✅mitmproxy✅
数字人系统：AI界的超级巨星，你准备好了吗？优秘智能UMI 数字人人工智能深度学习计算机视觉机器学习自然语言处理语言模型图像处理
在这个日新月异的科技时代，每一个创新的火花都可能点燃一场变革的燎原之火。今天，我们要聊的，正是那颗在AI领域熠熠生辉的璀璨新星——优秘数字人系统。它不仅仅是技术的飞跃，更是对未来生活方式的深刻重塑，一场关于人机交互、智能共生的美好预演。技术原理：深度解析与智能构建的奥秘1.深度学习：智能的基石数字人系统的核心技术之一在于深度学习。深度学习是一种模仿人脑神经网络结构和功能的机器学习技术，通过构建多层
Java IO流
目录一、IO流的分类（一）字节流1、InputStreamInputStream类中的成员方法FileInputStream的构造方法read()和read(byte[]b)代码示例：2、利用Scanner进行字符读取代码示例：3、OutputStreamOutputStream中的成员方法FileOutputStream代码示例示例一：示例二：示例三：示例四：示例五：追加写：（二）字符流1、Re
聚焦基础研究突破，北电数智联合复旦大学等团队提出“AI安全”DDPA方法入选ICML CSDN资讯人工智能安全数据要素大数据
近日，由北电数智首席科学家窦德景教授牵头，联合复旦大学和美国奥本大学等科研团队共同研发，提出一种DDPA（DynamicDelayedPoisoningAttack）新型对抗性攻击方法，为机器学习领域的安全研究提供新视角与工具，相关论文已被国际机器学习大会（ICML2025）收录。ICML由国际机器学习学会（IMLS）主办，聚焦深度学习、强化学习、自然语言处理等机器学习前沿方向，是机器学习与人工智
R语言使用glmnet包拟合lasso-cox回归模型（包含生存时间和结果标签）、使用lasso-cox模型进行特征筛选、使用sapply函数对特征数据进行标准化z-score statistics.insight R语言入门课机器学习人工智能 r语言数据挖掘数据分析
R语言使用glmnet包拟合lasso-cox回归模型（包含生存时间和结果标签）、使用lasso-cox模型进行特征筛选、使用sapply函数对特征数据进行标准化z-score目录R语言使用glmnet包拟合lasso-cox回归模型（包含生存时间和结果标签）、使用lasso-cox模型进行特征筛选、使用sapply函数对特征数据进行标准化z-score分类模型（classification）决策
Python 线程优先队列 PriorityQueue - Python零基础入门教程猿说编程
目录一.Python线程队列Queue分类二.Python线程优先队列PriorityQueue简介三.Python线程优先队列PriorityQueue函数介绍四.Python线程优先队列PriorityQueue使用五.猜你喜欢零基础Python学习路线推荐:Python学习目录>>Python基础入门在线程队列Queue/线程队列LifoQueue文章中分别介绍了先进先出队列Queue和先进
阿里云态势感知和安骑士有什么区别？阿腾云
阿里云态势感知和安骑士均是阿里云云盾安全产品，态势感知属于安全管理类的产品，安骑士数据服务器安全类产品，阿里云百科网来详细说下阿里云态势感知和安骑士之间的区别：态势感知和安骑士的区别简单来说，安骑士是检测云服务器漏洞的，态势感知提供安全类的大数据分析服务。态势感知：安全大数据分析平台，通过机器学习和结合全网威胁情报，发现传统防御软件无法覆盖的网络威胁，溯源攻击手段、并且提供可行动的解决方案。安骑士
Zabbix企业级分布式监控付出不多 zabbix 分布式
目录一、zabbix监控系统1.1监控的五大核心类型1.2监控的五层逻辑架构（1）基础设施监控（2）系统层监控（3）应用层监控（4）业务监控（5）端用户体验监控二、监控系统的技术原理2.1监控系统的核心模块2.2数据采集协议分类2.3数据采集模式（1）被动模式（2）主动模式2.4分布式代理架构三、主流开源监控系统对比3.1Zabbix3.2Prometheus+Grafana3.3Nagios3.
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts

KNN

简介