Dragon少年

原理到实战手摸手带你掌握K近邻算法【机器学习入门必备】

前言

k近邻法 (k-nearest neighbor, k-NN）是一种基本分类与回归方法，是数据挖掘技术中原理最简单的算法之一，核心功能是解决有监督的分类问题。

KNN能够快速高效地解决建立在特殊数据集上的预测分类问题，但其不产生模型。

k近邻法的输入为实例的特征向量，对应与特征空间的点；输出为实例的类别，可以取多类。

k近邻法三个基本要素：k 值的选择、距离度量及分类决策规则。

算法过程

1 计算训练样本和测试样本中每个样本点的距离；
2 对上面所有的距离值进行排序；
3 选前k个最小距离的样本；
4 根据这k个样本的标签进行投票，得到最后的分类类别。

距离度量

特征空间中两个实例点的距离是两个实例点相似程度的反映。

在距离类模型，例如KNN中，有多种常见的距离衡量方法。如欧几里得距离、曼哈顿距离、闵科夫斯基距离、切比雪夫距离及余弦距离。其中欧几里得距离为最常见。

欧几里得距离(Euclidean Distance)

在欧几里得空间中，两点之间或多点之间的距离表示又称欧几里得度量。

曼哈顿距离(Manhattan Distance)

曼哈顿距离，正式意义为城市区块距离，也被称作街道距离，该距离在欧几里得空间的固定直角坐标所形成的线段产生的投影的距离总和。其计算方法相当于是欧式距离的1次方表示形式，其基本计算公式如下：

闵科夫斯基距离(Minkowski Distance)

闵氏距离不是一种距离，而是一组距离的定义，是对多个距离度量公式的概括性的表述。无论是欧式距离还是曼哈顿距离，都可视为闵可夫斯基距离的一种特例。

其中p是一个变参数：

当p=1时，就是曼哈顿距离；
当p=2时，就是欧氏距离；
当p→∞时，就是切比雪夫距离。

因此，根据变参数的不同，闵氏距离可以表示某一类 / 种的距离。

闵氏距离，包括曼哈顿距离、欧氏距离和切比雪夫距离都存在明显的缺点。
e.g. 二维样本（身高[单位:cm],体重[单位:kg]）, 现有三个样本：a(180,50)，b(190,50)，c(180,60)。那么a与b的闵氏距离（无论是曼哈顿距离、欧氏距离或切比雪夫距离）等于a与c的闵氏距离。但实际上身高的10cm并不能和体重的10kg划等号。
闵氏距离的缺点：
(1）将各个分量的量纲（scale），也就是"单位"相同的看待了;
(2）未考虑各个分量的分布（期望，方差等）可能是不同的。

切比雪夫距离 (Chebyshev Distance)

国际象棋中，国王可以直行、横行、斜行，所以国王走一步可以移动到相邻8个方格中的任意一个。国王从格子(xa,ya)走到格子(xb,yb)最少需要多少步？这个距离就叫切比雪夫距离。

余弦距离(Cosine Distance)

余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个样本差异的大小。余弦值越接近1，说明两个向量夹角越接近0度，表明两个向量越相似。几何中，夹角余弦可用来衡量两个向量方向的差异；机器学习中，借用这一概念来衡量样本向量之间的差异。

K值选择

k 值的选择会对KNN 算法的结果产生重大影响。

k 值的减小就意味着整体模型变得复杂，学习器容易受到由于训练数据中的噪声而产生的过分拟合的影响。
k 值的的增大就意味着整体的模型变得简单。如果k太大，最近邻分类器可能会将测试样例分类错误，因为k个最近邻中可能包含了距离较远的，并非同类的数据点。

在应用中，k 值一般选取一个较小的数值，通常采用交叉验证来选取最优的k 值。

分类决策规则

根据 “少数服从多数，一点算一票” 的原则进行判断，数量最多标签类别就是x的标签类别。其中涉及到的原理是"越相近越相似"，这也是KNN的基本假设。

算法不足

KNN算法作为一种较简单的算法，存在不足之处。

没有明显的训练过程，它是 "懒惰学习"的典型代表，它在训练阶段所做的仅仅是将样本保存起来，如果训练集很大，必须使用大量的存储空间，训练时间开销为零。
KNN必须对每一个测试点来计算到每一个训练数据点的距离，并且这些距离点涉及到所有的特征，当数据的维度很大，数据量也很大的时候，KNN的计算会成为诅咒。

kd树

由于上述的不足，为了提高KNN搜索的速度，可以利用特殊的数据存储形式来减少计算距离的次数。kd树就是一种以二叉树的形式存储数据的方法。

kd树就是对k维空间的一个划分。构造kd树相当于不断用垂直于坐标轴的超平面将k维空间切分，构成一系列k维超矩阵区域。kd树的每一个节点对应一个超矩阵区域。

代码实现

# 从sklearn.neighbors里导入 KNN分类器的类
from sklearn.neighbors import KNeighborsClassifier
# 通过类实例化一个knn分类器对象
# 类中的具体参数
# KNeighborsClassifier(n_neighbors=5,weights='uniform',algorithm='auto',leaf_size=30,p=2, metric='minkowski',metric_params=None,n_jobs=None,**kwargs,）
knn_clf = KNeighborsClassifier(n_neighbors=k）
# 通过对象调fit(）方法, 传入训练集， 训练模型
knn_clf.fit(X_train, y_train）X
# 训练好的模型， 通过其他接口， 传入测试集查看模型效果
knn_clf.score(X_test, y_test）
# 预测结果
knn_clf.predict(X_test)
knn_clf.predict_proba(X_test)

实现无监督最近邻KNN学习。它充当了三种不同的最近邻(nearest neighbors)算法的统一接口:BallTree、KDTree和基于sklear. metrics.pairwise例程的暴力算法。

邻居搜索算法的选择是通过关键字’algorithm’来控制的，它必须是 [‘auto’， ‘ball_tree’， ‘kd_tree’， ‘brute’] 之一。当默认值’auto’时，算法尝试从训练数据中确定最佳方法。

案例实战

1、鸢尾花

数据：鸢尾花数据集
https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib as mpl
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from matplotlib.colors import ListedColormap
#导入iris数据
from sklearn.datasets import load_iris
iris = load_iris()
X=iris.data[:,:2] #只取前两列
y=iris.target

X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y,random_state=42) #划分数据，random_state固定划分方式
#导入模型
from sklearn.neighbors import KNeighborsClassifier 
#训练模型
n_neighbors = 5
knn = KNeighborsClassifier(n_neighbors=n_neighbors)
knn.fit(X_train, y_train)
y_pred = knn.predict(X_test)
#查看各项得分
print("y_pred",y_pred)
print("y_test",y_test)
print("score on train set", knn.score(X_train, y_train))
print("score on test set", knn.score(X_test, y_test))
print("accuracy score", accuracy_score(y_test, y_pred))

# 可视化

# 自定义colormap
def colormap():
    return mpl.colors.LinearSegmentedColormap.from_list('cmap', ['#FFC0CB','#00BFFF', '#1E90FF'], 256)

x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
axes=[x_min, x_max, y_min, y_max]
xp=np.linspace(axes[0], axes[1], 500) #均匀500的横坐标
yp=np.linspace(axes[2], axes[3],500) #均匀500个纵坐标
xx, yy=np.meshgrid(xp, yp) #生成500X500网格点
xy=np.c_[xx.ravel(), yy.ravel()] #按行拼接，规范成坐标点的格式
y_pred = knn.predict(xy).reshape(xx.shape) #训练之后平铺

# 可视化方法一
plt.figure(figsize=(15,5),dpi=100)
plt.subplot(1,2,1)
plt.contourf(xx, yy, y_pred, alpha=0.3, cmap=colormap())
#画三种类型的点
p1=plt.scatter(X[y==0,0], X[y==0, 1], color='blue',marker='^')
p2=plt.scatter(X[y==1,0], X[y==1, 1], color='green', marker='o')
p3=plt.scatter(X[y==2,0], X[y==2, 1], color='red',marker='*')
#设置注释
plt.legend([p1, p2, p3], iris['target_names'], loc='upper right',fontsize='large')
#设置标题
plt.title(f"3-Class classification (k = {
       n_neighbors})", fontdict={
     'fontsize':15} )

# 可视化方法二
plt.subplot(1,2,2)
cmap_light = ListedColormap(['pink', 'cyan', 'cornflowerblue'])
cmap_bold = ListedColormap(['darkorange', 'c', 'darkblue'])
plt.pcolormesh(xx, yy, y_pred, cmap=cmap_light)

# Plot also the training points
plt.scatter(X[:, 0], X[:, 1], c=y, cmap=cmap_bold,
                edgecolor='k', s=20)
plt.xlim(xx.min(), xx.max())
plt.ylim(yy.min(), yy.max())
plt.title(f"3-Class classification (k = {
       n_neighbors})" ,fontdict={
     'fontsize':15})
plt.show()

输出结果：

2、乳腺癌

数据：乳腺癌数据集
https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_breast_cancer.html

获取数据

# 导入乳腺癌数据集的类及其他包
from sklearn.datasets import load_breast_cancer
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
# 实例化一份乳腺癌数据集对象
breast_cancer= load_breast_cancer()
# 查看数据
breast_cancer
# 数据的特征, 返回一个二维数组
X = breast_cancer['data']
X = pd.DataFrame(X)
name = ['平均半径','平均纹理','平均周长','平均面积','平均光滑度','平均紧凑度','平均凹度','平均凹点','平均对称','平均分形维数','半径误差','纹理误差','周长误差','面积误差','平滑度误差','紧凑度误差','凹度误差','凹点误差','对称误差','分形维数误差','最差半径','最差纹理','最差的边界','最差的区域','最差的平滑度','最差的紧凑性','最差的凹陷','最差的凹点','最差的对称性','最差的分形维数']
X.columns = name

# 数据的标签， 返回一个一维数组
y = breast_cancer['target']
# 划分数据，random_state固定划分方式
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y,random_state=42)

建立、训练及测试模型

# 实例化一个5个最近邻的knn分类器
knn_clf = KNeighborsClassifier(n_neighbors=5)
# 训练模型
knn_clf.fit(X_train, y_train)
# 测试模型的准确率
knn_clf.score(X_test, y_test)
# 0.9590643274853801

这里的最近邻k, 选取的是5，结果为0.9590643274853801。

下面我们需要思考两个问题：

1、前面提到 k值的大小将会影响模型效果，如何选择合适的k 值？

2、模型得分是否可以进一步其他，受哪些因素影响？

数据预处理

我们所用数据是sklearn.datasets 数据集，均是 ‘完美’ 数据，并不需要常规数据预处理（包括缺失值、异常值、重复值等）。

但 KNN是距离类模型，数据的量纲不统一将会严重影响其效果。在模型中，欧式距离的计算公式中存在着特征上的平方和：

若某个特征取值非常大而导致其掩盖了特征之间的距离对总距离的影响，这样距离模型便不能很好地将不同类别的特征区分开。

因此在使用KNN分类器，则需要先对数据集进行去量纲处理。即是将所有的数据压缩到同一个范围内。

数据的归一化或者标准化，主要目的是消除量纲对距离类模型的影响，并加速梯度下降等算法的迭代速度，使其更快找到最优解。

# 导入归一化类
from sklearn.preprocessing import MinMaxScaler
mms = MinMaxScaler() # 实例化对象
mms.fit(X_train) # 这一步是在学习训练集，生成训练集上的极小值和极差
X_train = mms.transform(X_train) # 用训练集上的极小值和极差归一化训练集
X_test = mms.transform(X_test) # 用训练集上的极小值和极差归一化测试集

归一化前：

归一化后：

归一化后等数据带入模型训练后得分：0.986013986013986 相比于归一化前模型的得分提高不少。

模型调参

K折交叉验证

是最长用交叉验证方法，其将数据划分为n份，依次使用其中一份作为测试集，其他n-1份作为训练集，这样就会出现n个准确率，我们再对这n个准确率求平均值。如果平均准确率高的，就说明泛化能力更强。

K折交叉验证对数据的分割方式是按顺序的，因此在使用交叉验证之前需要排查数据的标签本身是否有顺序，若有顺序则需要打乱原有的顺序，或者更换交叉验证方法，像ShuffleSplit就完全不在意数据本身是否是有顺序的。

所有的交叉验证都是在分割训练集和测试集，只不过侧重的方向不同：

KFold就是按顺序取训练集和测试集。
ShuffleSplit就侧重于让测试集分布在数据的全方位之内。
StratifiedKFold则是认为训练数据和测试数据必须在每个标签分类中占有相同的比例。

from sklearn.model_selection import cross_val_score as cvs
L = []
for k in range(1, 21):
 knn_clf = KNeighborsClassifier(n_neighbors=k)
 result = cvs(knn_clf,X_train, # 使用训练集
               y_train,
              cv = 5) # 5折交叉验证
    result_mean = result.mean()
    result_var = result.var()
    L.append((k, result_mean, result_var))
score = pd.DataFrame(L)
score.columns = ['k', '平均准确率', '方差']
score

输出结果：

画学习曲线

参数学习曲线是一条以不同的参数取值为横坐标，不同参数取值下的模型结果为纵坐标的曲线，并选择模型表现最佳点的参数取值作为这个参数的取值。

import matplotlib.pyplot as plt
plt.style.use('seaborn')
plt.rcParams['font.sans-serif']=['Simhei'] #显示中文 
plt.rcParams['axes.unicode_minus']=False  #显示负号
plt.figure(figsize=(8, 6), dpi=100)
plt.plot(score.k, score.平均准确率)
# 再画两条偏离均值2倍方差的曲线
plt.plot(score.k, score.平均准确率+2*score.方差, linestyle='**', color='r')
plt.plot(score.k, score.平均准确率-2*score.方差, linestyle='--', color='r')
plt.xticks(score.k)
plt.xlabel('k值', fontsize=20)
plt.ylabel('平均准确率', fontsize=20)
plt.title("k值学习曲线")
# plt.savefig('learning_curve_picture.jpeg')

输出结果：

重要参数
weights {‘uniform’, ‘distance’} or callable, default=’uniform’

KNN分类模型的另一个基本假设：就算是最近邻的K个点，每个点和分类目标点的距离仍然有远近之别，而近的点往往和目标分类点有更大的可能性属于同一类别。

基本的最近邻分类使用统一的权重：分配给查询点的值是从最近邻的简单多数投票中计算出来的。在某些环境下，最好对邻居进行加权，使得越近邻越有利于拟合。

用于决定是否使用距离作为惩罚因子的参数，默认"uniform" 。
“uniform”：表示一点一票
“distance”：表示以每个点到测试点的距离的倒数计算该点的距离所占的权重，使得距离测试点更近的样本点比离测试点更远的样本点具有更大的影响力

关于惩罚因子的选取有很多种方法，最常用的就是根据每个最近邻距离的不同对其作用加权，加权方法为设置的权重，该权重计算公式为：距离的倒数。

tips：关于模型的优化方法只是在理论上优化会提升模型判别效力，但实际应用过程中最终能否发挥作用，本质上取决于优化方法和实际数据情况的契合程度，如果数据本身存在大量异常值点，则采用距离远近作为惩罚因子则会有较好的效果，反之则不然。

import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
from sklearn import neighbors, datasets

n_neighbors = 10
h = .02  
breast_cancer= datasets.load_breast_cancer()
X = breast_cancer['data'][:, :2]
y = breast_cancer['target']

cmap_light = ListedColormap(['orange', 'cornflowerblue'])
cmap_bold = ListedColormap([ 'darkblue', 'darkorange'])

p1=plt.figure(figsize=(15,5),dpi=100) 
num = 1
for weights in ['uniform']:
    ax1=p1.add_subplot(1,2,num)
    num+=1
    clf = neighbors.KNeighborsClassifier(n_neighbors, weights=weights)
    clf.fit(X, y)
    x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                         np.arange(y_min, y_max, h))
    Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    plt.pcolormesh(xx, yy, Z, cmap=cmap_light)
    plt.scatter(X[:, 0], X[:, 1], c=y, cmap=cmap_bold,
                edgecolor='k', s=20)
    plt.xlim(xx.min(), xx.max())
    plt.ylim(yy.min(), yy.max())
    plt.title(" (k = %i, weights = '%s')"% (n_neighbors, weights))
plt.show()
plt.savefig('weight.tiff')

输出结果：

至此，恭喜您！您已基本掌握机器学习入门经典算法中的KNN (K-Nearest Neighbour algorithm)算法了。

好了，今天就到这里，明天我们继续努力！

若本篇内容对您有所帮助，请三连点赞，关注，收藏支持下。创作不易，白嫖不好，各位的支持和认可，就是我创作的最大动力，我们下篇文章见！

Dragon少年 | 文

如果本篇博客有任何错误，请批评指教，不胜感激！

python：Failed to execute script ‘pyi_rth_win32comgenpy‘ due to unhandled exception! sinat_21963041 Appium自动化测试 python java android
使用pyinstaller打包exe程序后，出现如下错误：Failedtoexecutescript‘pyi_rth_win32comgenpy’duetounhandledexception!解决方法:https://blog.csdn.net/abcdefg5_555/article/details/128636706pythonsubprocessFileNotFoundError:[Win
Python 对海表面温度进行EOF分解与前n模态合成我有一个梦想——人在家中葛优躺 python matplotlib
一、EOF分解数据来源：来自NOAA的2017-2021年0.25°×0.25°的日平均OISST数据（海表面温度数据）。关于EOF的理解：利用2017-2020年4年数据进行EOF分解，2021年1月1日的数据来做合成检验。对长度是1461的二维海表面温度数据进行分解，分解得到的时间序列一共1461组长度1461的时间序列，一共1461个二维空间模态。按照方差大小从前到后。代码实现：import
「C/C++」C++关键字之 mutable 可变变量关键字何曾参静谧 c语言 c++java
✨博客主页何曾参静谧的博客（✅关注、点赞、⭐收藏、转发）全部专栏（专栏会有变化，以最新发布为准）「Win」Windows程序设计「IDE」集成开发环境「定制」定制开发集合「C/C++」C/C++程序设计「DSA」数据结构与算法「UG/NX」NX二次开发「QT」QT5程序设计「File」数据文件格式「UG/NX」BlockUI集合「Py」Python程序设计「Math」探秘数学世界「PK」Paras
【OpenCV入门学习--python】绘图函数喜欢星星的田螺姑娘 OpenCV opencv python 学习
源代码：（查看教材《OpenCV-Python中文教程》段力辉译）importnumpyasnpimportcv2#Createablackimageimg=np.zeros((512,512,3),np.uint8)#将所有像素点的各通道数值赋0#其中“3”是三个通道的意思#np.zeros函数用于创建一个数值全为0的矩阵，np.ones用于创建一个数值全为1的矩阵#Drawadiagonalb
CentOS 9 Stream 中查看 Python 版本并升级 Python 一个小坑货 CentOS9 Stream Python python centos 开发语言
CentOS9Stream中查看Python版本并升级Python1.查看当前Python版本2.升级Python版本（1）安装开发工具（2）安装必要的依赖包（3）下载和安装新版本的Python（4）验证安装3.更新`python`和`python3`命令（可选）4.安装pip（如果没有安装）5.升级pip（可选）在CentOS9Stream中查看Python版本并升级Python版本的方法如下：
使用Python实现一键转换pdf为docx word ccieluo Python python pdf 开发语言
使用前先安装pdf2docx模块pipinstallpdf2docx然后创建Python脚本，内容为：frompdf2docximportConverterimportos#用法：只需要输入文件路径，就可以自动转换为docx文件，并保存在当前路径下defpdf_to_word(pdf_file):#自动生成Word文件路径word_file=os.path.splitext(pdf_file)[0
代码结构与模块化设计：Python 项目架构与高效开发技巧全栈探索者chen python python 架构开发语言模块化性能优化程序人生案例分析
代码结构与模块化设计：Python项目架构与高效开发技巧目录为什么模块化设计是高效开发的基础Python项目的理想目录结构模块与包：概念与使用详解模块化设计的核心原则常见设计模式与模块化案例分析：从零搭建模块化Python项目高级技巧：动态模块加载与插件化设计模块化开发中的常见问题与解决方案总结与实践建议1.为什么模块化设计是高效开发的基础模块化设计是一种将复杂的软件系统分解为多个小模块的开发方式
python的多线程编程之锁代码输入中... python 爬虫数据分析开发语言 pycharm
1、背景概述在上篇文章中，主要讲述了python中的socket编程的一些基本方面，但是缺少关于锁的相关概念，从而在这篇文章中进行补充。由于在python中，存在了GIL，也就是全局解释器锁，从而在每次进行获得cpu的时候，同时只有一个线程获得了cpu的运行，在这个方面可以认为是线程安全的，但是在线程运行的时候，是共享内存的，共享相同的数据信息，从而这个时候python的线程就不那么安全了。在py
大数据毕业设计—基于python+Django自然灾害频发地区情况数据分析系统 qq_1406299528 python 计算机毕业设计 python 大数据课程设计
一、项目技术开发语言：Pythonpython框架：Django软件版本：python3.7/python3.8数据库：mysql5.7或更高版本数据库工具：Navicat11开发软件：PyCharm/vscode前端框架:vue.js二、项目内容和项目介绍 1.项目内容 1.开发语言：该系统采用Python作为开发语言，Python具有优雅的语法和动态类型，以及解释型语言的本质，使其成为许多
使用Python解析pdf、docx等格式文件。 Shy960418 Python使用技巧 python pdf linux
针对不同类型的文件，需要采取特定的访问与解析策略来有效获取其中蕴含的知识。下面我们将介绍对于不同数据源数据的获取方式。1解析Docx文档1.1获取Docx文档中文本fromdocximportDocument#pipinstallpython-docx#python-docx==0.8.11filename='xxx.docx'doc=Document(filename)forparaindoc.
python多线程的锁用法 hellenlee22 python
锁机制在了解锁机制前，我们先来看一下下面这个例子：##使用多线程进行加法运算importthreading#定义全局变量VALUEVALUE=0#定义加法线程函数defadd_value():globalVALUEforxinrange(1000000):VALUE+=1print('value=',VALUE)#定义两个线程并发执行加法操作defadd_thread_main():forxinr
EOF分析在Python中的利器：eofs库使用指南潘妙霞
EOF分析在Python中的利器：eofs库使用指南项目地址:https://gitcode.com/gh_mirrors/eo/eofs项目介绍eofs是一个专为Python环境设计的开源包，用于执行经验正交分解（EmpiricalOrthogonalFunction,EOF）分析。该库遵循GNUGPLv3许可协议，旨在简化Python中进行EOF分析的流程。它特别适合处理大型时空数据集，通过高
机器学习和深度学习的概念你好呀我是裤裤深度学习笔记机器学习深度学习人工智能
MachineLearning机器学习，可以看作是找一个函数。这个函数是人类找不到的，所以交给机器来找。DifferenttypesofFunctions**Regression：**函数的输出是一个数值forexample：**Classification：**给出选项，让机器去选择。forexample：检测一个邮件是不是垃圾文件，就可以通过这个来做。选项是两个：垃圾文件or非垃圾文件。下面，
python实现pdf和word互转 cicif2006 python pdf 开发语言
首先，安装python-office包python3-mpipinstallpython-office-ihttps://pypi.tuna.tsinghua.edu.cn/simple第二步，撰写代码pdf转wordimportoffice#转单个文件office.pdf.pdf2docx(file_path=r'D:\税务\税务师\法律\【直播预习讲义】6月10日_涉税法律教材研读_第四章_行
用python编写的UKF（无迹卡尔曼滤波）代码，状态量和观测量都是三维、非线性的，注释使用中文 MATLAB卡尔曼卡尔曼与python python 开发语言
用python编写的UKF（无迹卡尔曼滤波）代码，状态量和观测量都是三维、非线性的，注释使用中文文章目录代码讲解UKF类的构造预测步骤更新步骤辅助函数示例用法总结importnumpyasnpclassUKF:def__init__(self,dim_x,dim_z,alpha=1e-3,beta=2,kappa=0):self.dim_x=dim_x#状态维度self.dim_z=dim_z#观
Pytorch实现：LSTM-火灾温度预测骑猪玩狗 pytorch lstm 人工智能
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊前期工作语言环境：Python3.9.18编译器：JupyterLab深度学习环境：Pytorch1.12.11.设置GPUimporttorchimporttorch.nnasnnimporttorchvisionfromtorchvisionimporttransforms,datasetsimportos,PIL,pathlibde
Python学习路线 Python_JC python
Python是一门易学易用的编程语言，广泛应用于数据处理、Web开发、人工智能、自动化运维、游戏开发等领域。本篇文章将介绍Python的学习路线以及一些值得参考的书籍。Python学习路线Python的学习路线主要包括以下几个方面：掌握Python基础知识：了解变量、数据类型、表达式、流程控制、函数、模块等基础概念。学习Python面向对象编程：学习类、对象、继承、多态等面向对象编程的概念和技术。
【2025最新计算机毕业设计】基于SSM的旅游与自然保护平台【提供源码+答辩PPT+文档+项目部署】万码堂源码计算机毕设精品实战案例实战项目源码课程设计 vue.js 前端计算机毕业设计毕设项目 spring boot
作者简介：✌CSDN新星计划导师、Java领域优质创作者、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流。✌主要内容：Java项目、Python项目、前端项目、PHP、ASP.NET、人工智能与大数据、单片机开发、物联网设计与开发设计、简历模板、学习资料、面试题库、技术互助、就业指导等。业务范围：免费功能设计、开题报告、任务书
【源码+文档】基于SpringBoot+Vue旅游网站系统【提供源码+答辩PPT+参考文档+项目部署】万码堂源码实战项目源码计算机毕设精品实战案例 spring boot vue.js 旅游
作者简介：✌CSDN新星计划导师、Java领域优质创作者、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流。✌主要内容：Java项目、Python项目、前端项目、PHP、ASP.NET、人工智能与大数据、单片机开发、物联网设计与开发设计、简历模板、学习资料、面试题库、技术互助、就业指导等。业务范围：免费功能设计、开题报告、任务书
利用Python爬虫获取阿里巴巴商品详情：代码示例与实践指南小爬虫程序猿 API python 爬虫开发语言
在电商数据分析和市场研究中，获取商品详情是至关重要的一步。虽然阿里巴巴开放平台提供了官方API来获取商品信息，但在某些情况下，使用爬虫技术来抓取数据也是一种有效的手段。本文将介绍如何利用Python爬虫获取阿里巴巴商品详情，并提供详细的代码示例。一、准备工作（一）环境搭建确保你的Python环境已经安装了以下必要的库：requests：用于发送HTTP请求。BeautifulSoup：用于解析HT
美国最高法院维持TikTok不卖就禁法案；荣耀 CEO 赵明辞职；OpenAI计划几周内推出o3 mini推理模型 | 极客头条极客日报 tiktok openai
「极客头条」——技术人员的新闻圈！CSDN的读者朋友们好，「极客头条」来啦，快来看今天都有哪些值得我们技术人关注的重要新闻吧。整理|苏宓出品|CSDN（ID：CSDNnews）一分钟速览新闻点！荣耀CEO赵明辞职，前为华为监事李健继任阿里巴巴内部调整：天猫精灵硬件团队与夸克融合，瞄准AI眼镜市场小米NAS已进入到开发的尾声传特斯拉上海工厂春节期间将停产，内部人员：没听说此事游戏科学在杭州成立黑神话
Python AI教程之二十一：监督学习之支持向量机（SVM）算法潜洋人工智能 Python中级支持向量机算法机器学习 python
支持向量机（SVM）算法支持向量机(SVM)是一种功能强大的机器学习算法，广泛用于线性和非线性分类以及回归和异常值检测任务。SVM具有很强的适应性，适用于各种应用，例如文本分类、图像分类、垃圾邮件检测、笔迹识别、基因表达分析、人脸检测和异常检测。SVM特别有效，因为它们专注于寻找目标特征中不同类别之间的最大分离超平面，从而使其对二分类和多分类都具有鲁棒性。在本大纲中，我们将探讨支持向量机(SVM)
腾讯蓝鲸团队最佳实践卫玠_juncheng 数据库服务器 python
蓝鲸最佳实践该文档为腾讯蓝鲸团队多年的编程最佳实践总结，包括Python\Golang等多个语言及其相关领域。内容将跟随项目发展与语言/框架的更新不断改进。为了更方便地索引最佳实践，我们建立了一个简单的标号机制BBP，你可以阅读BBP-0000了解更多。目录Python内置数据结构BBP-1001避免魔术数字BBP-1002不要预计算字面量表达式BBP-1003优先使用列表推导或内联函数内置模块B
odoo 学习卫玠_juncheng python
环境问题psycopg2-binary==2.9.9python-ldap==3.4.0gevent==22.10.2环境问题。最后使用的是conda环境pythonodoo-bin-codoo.conf-ibase使用了conda环境执行命令：pythonodoo-bin-codoo.conf-ibase开发顺序打开视图添加菜单自定义表单自定义树自定义脚手架安装开发者模式进入开发者模式：?deb
python 服务端主动发数据_python使用socket向客户端发送数据的方法 weixin_39565910 python 服务端主动发数据
PythonSocket通讯例子详解创新从模仿开始！python中内置的socket模块使得网络编程更加简单化，下面就通过两个小小脚本来了解客户端如何与服务器端建立socket。客户端代码：#clietn.pyif__name__==＇__main__＇:#判断是否调用自己本身，如果不是则__name__为脚本名称...文章余二五2017-11-17991浏览量pythonsocket模块基本的P
Python图形用户界面（GUI）库 Botiway FlaskWeb python
Python图形用户界面（GUI）库是用于创建图形用户界面的工具集，它们允许开发者使用Python语言来构建具有图形元素的用户界面。以下是一些常用的PythonGUI库：1.Tkinter•简介：Tkinter是Python的标准GUI库，它提供了创建窗口、按钮、文本框和其他GUI组件的工具。由于它是Python安装包的一部分，因此无需额外安装。•特点：简单易用，适合初学者和快速原型开发。虽然功能
Python globals 函数 - Python零基础入门教程苹果酱0567 面试题汇总与解析课程设计 spring boot layui 毕业设计 java
目录一.Pythonglobals函数语法二.Pythonglobals函数使用三.猜你喜欢零基础Python学习路线推荐:Python学习目录>>Python基础入门在前面我们讲解了Python内置函数locals，内置函数locals直接以字典的形式返回当前位置的所有局部变量，今天需要介绍的是另外一个Python内置函数globals，该函数直接以字典dict的形式返回当前位置的所有全局变量；
【WRF理论第九期】输出文件：wrfout 和 wrfrst WW、forever WRF模型原理及应用 WRF
【WRF理论第九期】输出文件：wrfout和wrfrst1.wrfout文件wrfout文件读取（Python）2.wrfrst文件参考在WRF（WeatherResearchandForecasting）模型中，wrfout和wrfrst是两种重要的输出文件，分别代表不同类型的模拟结果和功能。1.wrfout文件wrfout文件是WRF模拟的主要输出文件，包含了模型在指定时间步长下的所有模拟结果
【WRF后处理】提取某要素数据并绘制地图 WW、forever WRF模型原理及应用 Python WRF
【WRF后处理】提取某要素数据并绘制地图根据Domain提取文件提取某要素数据并绘制地图参考根据Domain提取文件为了满足根据需求提取不同区域（例如D01、D02、D03）的文件，可以将区域作为函数的一个参数传入，并根据传入的区域自动匹配相应的文件。使用正则表达式来动态生成匹配模式，从而提取不同区域的wrfout文件。Python代码如下：importosimportredefget_wrfou
利用python进行wrfout数据后处理孤墨云起 python python windows linux
1、安装python与conda并配置condaconda相当于python的管理包，通过conda配置多个环境互不干扰参考https://blog.csdn.net/qq_43529415/article/details/1008478872、在windows的终端（win+cmd）创建环境conda--version#可以查看版本condacreate-nmyenvpython=3.7#创建环
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe

原理到实战手摸手带你掌握K近邻算法【机器学习入门必备】

前言

算法过程

距离度量

K值选择

分类决策规则

算法不足

kd树

代码实现

案例实战

1、鸢尾花

2、乳腺癌

你可能感兴趣的:(新星计划,Python,机器学习,python,新星计划)