好人静

机器学习入门研究（六）-KNN算法

转换器和预估器

转换器

预估器

KNN算法

定义

算法伪代码描述

k值的选择

几个距离计算

实例

sklearn中的API

实例

优缺点

转换器和预估器

转换器

主要用于特征工程。

我们之前在特征工程中介绍了好几个转换器，像DictVectorizer、StandardScaler等。这些转换器类都是继承Transformer。在使用的过程中我们的一般步骤如下：

（1）实例化一个转换器

（2）调用fit_transform()得到最后的结果

那在调用这个fit_transform()有哪几个过程呢？我们举例StandardScaler，我们知道该转换器的作用就是将数据进行无量纲化，其原理就是将通过下面的公式将原数据进行标准化。

fit()：就是计算每一列的平均值、标准差

transform()：就是调用进行最终转换。

fit、transform、fit_transform区别

（1）fit、transform仅仅是数据处理的两个环节，fit_transform是两个一起的调用

数据预处理

像归一化MinMaxScaler、标准化StandardScaler等，fit、transform在这两个环节的作用：

fit：计算训练集的均值、方差、最大值、最小值等
transform：在fit的基础上进行标准化、归一化等，完成最后的转换
fit_transform：就是既包括计算又包括转换

通常在进行数据预处理的时候，需要对训练数据进行fit_transform(train_data)，对测试数据进行transform(test_data)，例如：

    # 实例化转换器类
    scaler = MinMaxScaler()
    # 调用fit_transform进行转换
    x_train = scaler.fit_transform(x_train)
    x_test = scaler.fit_transform(x_test)

算法调用

sklearn中封装的各种算法使用之前都要fit，然后在进行各种API方法的调用。而transform仅仅是其中的API的一个方法。

像特征提取中的统计文本词频CountVectorizer在这两个环节中的作用如下：

fit：根据规则进行统计操作，比如过滤停用词、生成有价值的词汇表等
transform：在fit的基础上将符合的词汇表转换成词频矩阵
fit_transform：就是既包括计算又包括转换

（2）必须先用fit_transform(train_data)，然后在进行transform(test_data)

（3）如果先用fit_transform(train_data)，然后在进行fit_transform(test_data)，但是两个结果和（2）中提到的不是在同一个标准下，有明显的差别。

后续补充：

因为fit()就是以train_data里面的所有数据生成一种对于这些数据的标准,所以对于train_data数据fit()之后，还需要在进行transform()来进行转换，所以在对test_data在进行转换的时候，不能在进行fit()，否则会又以test_data里面的数据生成新的标准，对于train_data和test_data两个转换的标准不在一样。

预估器

主要用于算法实现。在sklearn中封装的算法API

这些类都是继承于Estimator，我们在使用过程中的一般步骤如下：

（1）实例化一个Estimator实例

（2）调用fit(x_train,y_train)计算最后的结果

在该过程中主要完成的将训练集的特征和目标值代入（1）中实例化的算法，完成训练，在调用完fit()方法之后，则模型生成。

（3）评估模型，主要有两种方式

直接对比真实值和预测值

y_predict = Estimator.predict(x_test)
y_test == y_predict

计算准确率等其他参数

可参见https://blog.csdn.net/nihaomabmt/article/details/102741743

后面主要去学习其中的涉及的各种算法

KNN算法

定义

K Nearest Neighbor。如果一个样本在特征空间的k个最相似（即特征空间中最邻近）的样本的大多数属于某一个类别，则该昂本也属于该类别

简单的说就是根据邻居推断出类别

算法伪代码描述

（1）计算已知类别数据集中点与当前点之间的距离

（2）按照距离进行递增排序

（3）选取距离最小的k个点

（4）确定前k个点所在类别的频率

（5）返回前k个点出现最高频率的类别作为当前点的预测分类

k值的选择

k值太小，譬如为1，如果恰好该点为异常点，如果恰好与异常值点相似，则引起类别判断错误。k值太小，容易受异常值的影响

k值太大，则学习的近似误差也大，容易受样本不均衡的影响

所以k要选择合适的参数

几个距离计算

在算法的伪代码中我们可以看到要计算点与点的距离，主要介绍几种距离的计算过程。

（1）欧式距离

二维空间中，则欧式距离如下：

n维空间，则欧式距离如下：

（2）余弦值cos

机器学习中可以把两个点看成空间中的两个向量

二维空间的余弦值cos距离为：

n维空间的余弦值cos距离为：

（3）曼哈顿距离（Manhattan distance）

也被称为曼哈顿街区距离

在二维空间上的曼哈顿距离为：

在n维空间的曼哈顿距离为：

我们可以看到其实就是两个点在各个维度上的距离之和

网上有这么一张图来对比欧式距离和曼哈顿距离。

（4）切比雪夫距离

对应各个维度上的距离的最大值

在二维空间上的切比雪夫距离为

在n维空间的切比雪夫距离为

（5）明可夫斯基距离

距离的总称。公式如下

其中p>0

当p=1时，曼哈顿距离

当p=2时，欧式距离

当p= $\infty$ 时，切比雪夫距离

p值越大，越容易受异常值越厉害

实例

sklearn中的API

sklearn.neighbors.KNeighborsClassifier（n_neighbors=5,weights='uniform',
 algorithm='auto', leaf_size=30,p=2, metric='minkowski', metric_params=None, n_jobs=None）

其中参数如下：

参数	含义
n_neighbors	邻居数，就是上面提到的k的取值，默认为5
weights	预测的权重。默认的为uniform：统一权重。在每个邻居区域里的点的权重都是一样的 distance:权重点等于他们距离的倒数。更近的邻居对预测点影响大 [callable]：自定义的方法，传入的是距离数组，返回的是相同形状的包含权重的数组
algorithm	对邻居进行排序时用到的算法。默认为auto：根据传递给fit()的值来决定最合适的算法 ball_tree BallTree算法 kd_tree KDTree算法 brute 暴力搜索
leaf_size	叶子的数量，默认为30。和algorithm配合使用，传入的是ball_tree或kd_tree的时候，关系到BallTree或KDTree的速度以及所需要的内存大小
p	计算距离公式的选择，默认为2，即上面提到的欧式距离
metric	用于树的距离矩阵
metric_params	矩阵参数
n_jobs	搜索邻居可并行的任务数量，默认为1

实例

按照一个机器学习的基本流程来看下这个KNN算法的实际应用

（1）获取数据

我们使用sklearn.datasets鸢尾花数据集，使用KNN算法来进行分类。根据数据集的四个特征来推断属于的鸢尾花的类别。

该数据集中提供的数据集中有四个特征：花萼的长度(sepal length),花萼的宽度 (sepal width), 花瓣的长度(petal length), 花瓣的宽度(petal width)来推断该鸢尾花属于哪个种类。

其中包括的三个类别为：0(山鸢尾 setosa)、1(变色鸢尾 versicolor)、2(维吉尼亚鸢尾 virginica)。

通过sklearn中的load_iris()来进行获取该数据集

from sklearn.datasets import load_iris    
    
    # 从sklearn.datasets中获取到鸢尾花的数据集，使用load_*方法说明是一个比较小的数据集
    iris = load_iris()
    print("每个类别下前10个样本的鸢尾花的数据集")
    print(iris["feature_names"])
    print(iris["data"][0:10])
    print("输出的数据集的对应着标签：")
    print(iris.target[0:10])
    print("每个类别下前10个样本的鸢尾花的数据集")
    print(iris.data[50:60])
    print("输出的数据集的对应着标签：")
    print(iris.target[50:60])
    print("每个类别下前10个样本的鸢尾花的数据集")
    print(iris.data[100:110])
    print("输出的数据集的对应着标签：")
    print(iris.target[100:110])
    print("返回所有的样本数为:{:}".format(len(iris["data"])))
    print(iris.target_names)

这里采用的是load_*来获取的数据集，说明返回的是一个比较小的数据集，默认返回的类别为3个，每个类别都50个样本，一共返回150个样本，每个样本有4个特征。我们看下输出的数据为：

每个类别下前10个样本的鸢尾花的数据集
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]]
输出的数据集的对应着标签：
[0 0 0 0 0 0 0 0 0 0]
每个类别下前10个样本的鸢尾花的数据集
[[7.  3.2 4.7 1.4]
 [6.4 3.2 4.5 1.5]
 [6.9 3.1 4.9 1.5]
 [5.5 2.3 4.  1.3]
 [6.5 2.8 4.6 1.5]
 [5.7 2.8 4.5 1.3]
 [6.3 3.3 4.7 1.6]
 [4.9 2.4 3.3 1. ]
 [6.6 2.9 4.6 1.3]
 [5.2 2.7 3.9 1.4]]
输出的数据集的对应着标签：
[1 1 1 1 1 1 1 1 1 1]
每个类别下前10个样本的鸢尾花的数据集
[[6.3 3.3 6.  2.5]
 [5.8 2.7 5.1 1.9]
 [7.1 3.  5.9 2.1]
 [6.3 2.9 5.6 1.8]
 [6.5 3.  5.8 2.2]
 [7.6 3.  6.6 2.1]
 [4.9 2.5 4.5 1.7]
 [7.3 2.9 6.3 1.8]
 [6.7 2.5 5.8 1.8]
 [7.2 3.6 6.1 2.5]]
输出的数据集的对应着标签：
[2 2 2 2 2 2 2 2 2 2]
返回所有的样本数为:150
['setosa' 'versicolor' 'virginica']

（2）数据处理

我们拿到数据集之后，一般要把数据集分成训练集和测试集，通过测试集来看看我们模型训练的效果。同样sklearn中提供API将数据集划分为训练集和测试集

sklearn.model_selection.train_test_split(train_data,train_target,test_size, random_state)

其中参数如下：

属性	含义
train_data	被划分的样本的特征
train_target	被划分的样本的标签
test_size	0～1之间，样本的占比；如果是整数，则是样本的数量
random_state	随机数的种子。在重复实验的时候，保证得到一组一样的随机数。如果有值，在其他参数一致的情况下，产生的随机数是一样的。如果是0或者不填，每次产生的随机数会不一致。

返回值为：

训练子集的特征，测试子集的特征，训练子集的标签，测试子集的标签

from sklearn.model_selection import train_test_split    
   # 数据分成训练集和测试集
    x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=10)
    print("前10个样本的训练集的特征值x_train")
    print(x_train[0:10])
    print("前10个样本的训练集的标签y_train")
    print(y_train[0:10])

前10个样本的训练集的特征值x_train
[[6.6 2.9 4.6 1.3]
 [6.2 2.9 4.3 1.3]
 [7.2 3.  5.8 1.6]
 [5.8 2.8 5.1 2.4]
 [6.3 2.5 5.  1.9]
 [4.6 3.2 1.4 0.2]
 [6.7 3.3 5.7 2.1]
 [6.9 3.2 5.7 2.3]
 [7.7 2.6 6.9 2.3]
 [6.9 3.1 5.1 2.3]]
前10个样本的训练集的标签y_train
[1 1 2 2 2 0 2 2 2 2]

（3）特征工程

有了训练集之后，为了防止每个特征的数量级差别造成该特征无法对预测类别起作用，所以需要将数据进行无量纲化，一般有归一化和标准化，标准化会比归一化更不容易受异常值的影响。其中的一些方法可以参见机器学习入门研究（六）-特征工程之特征预处理

from sklearn.preprocessing import StandardScaler   
    # 为防止数据量级差别比较大，所以将数据进行无量纲化，这里采用标准化
    standard = StandardScaler()
    x_train = standard.fit_transform(x_train)
    print("前10个样本的训练集的特征值x_train")
    print(x_train[0:10])
    x_test = standard.fit_transform(x_test)

看下标准化之后的数值如下：

前10个样本的训练集的特征值x_train
[[ 0.87110766 -0.39891058  0.46061935  0.10579946]
 [ 0.39378839 -0.39891058  0.29192864  0.10579946]
 [ 1.58708656 -0.16765807  1.13538218  0.49445053]
 [-0.08353087 -0.63016309  0.74177053  1.53085339]
 [ 0.51311821 -1.32392062  0.68554029  0.8831016 ]
 [-1.51548867  0.29484695 -1.3387482  -1.31925447]
 [ 0.99043748  0.52609946  1.07915194  1.14220232]
 [ 1.22909711  0.29484695  1.07915194  1.40130303]
 [ 2.18373564 -1.09266811  1.75391477  1.40130303]
 [ 1.22909711  0.06359444  0.74177053  1.40130303]]

（4）训练模型

1）有了训练集和测试集之后，就可以代入到KNN算法进行训练模型。其步骤就是：

2）实例化预估器

3）将训练集代入到预估器进行训练

4）将测试集代入到模型进行预测

其代码如下：

 # 传入到knn进行训练，得到模型
    classifier = KNeighborsClassifier(n_neighbors=3)
    classifier.fit(x_train, y_train)
    # 根据模型进行预测
    y_predict = classifier.predict(x_test)
    print("测试集中的样本预测之后的标签为：")
    print(y_predict)
    print("测试集中的样本预测之前的标签为：")
    print(y_test)

运行之后得到的结果为：

测试集中的样本预测之后的标签为：
[2 2 0 1 0 1 2 1 0 1 2 2 1 0 0 2 1 0 0 0 2 2 2 0 2 0 1 1 1 2]
测试集中的样本预测之前的标签为：
[1 2 0 1 0 1 1 1 0 1 1 2 1 0 0 2 1 0 0 0 2 2 2 0 1 0 1 1 1 2]
输入的测试样本的个数:30

（5）模型评估

在预估器KNeighborsClassifier中提供了score()方法来计算该模型的准确率，通过查看源码可以看到，其实就是在机器学习入门研究（四）-评价指标-自我感觉总结的还不错的在这个里面提到的准确率。另外刚才提到的在划分测试集和训练集的时候会对模型的准确率等评估指标产生影响。

 def score(self, X, y, sample_weight=None):
   
        from .metrics import accuracy_score
        return accuracy_score(y, self.predict(X), sample_weight=sample_weight)

那结合着刚才提到的评估指标，在来复习下这几个评价指标，因为刚开始看的时候，只知道有了预测值和实际值进行比较，但不清楚是怎么来的，就想着找一个例子来看看。现在通过前四步拿到了预测值和实际值，接下来具体分析下上次提到的这几个评价指标。

1）混淆矩阵

预测值和实际值如下：

根据之前总结过的总结这个混淆矩阵为（鸢尾花的种类我们用0、1、2表示），统计的表格如下：

预测类型实际类别	0	1	2
0	10
1		9	4
2			7

我们的代码如下：

    from sklearn.metrics import accuracy_score, precision_score, recall_score, roc_curve, roc_auc_score, confusion_matrix
    matrix = confusion_matrix(y_test,y_predict,labels=[0,1,2])
    print("matrix：")
    print(matrix)

通过程序运行之后的矩阵如下：

matrix：
[[10  0  0]
 [ 0  9  4]
 [ 0  0  7]]

我们看到跟我们推算的结果是一致的。

2）准确率

就是所有的被正确分类的样本占所有样本的比例。在预估器值的score()返回值是同一个值

accuracy=(10+9+7)/30=0.8666666666666667

通过代码：

    accuracy = accuracy_score(y_test, y_predict)
    print("accuracy：")
    print(accuracy)

输出的结果如下：

accuracy：
0.8666666666666667

3）精确率

就是被正确分类的样本占所有被预测为类别的样本的比例。也就是该类别占所在类别的列的比例

其中

precision0=10/（10+0+0）=1.0

precision1=9/（0+9+0）=1.0

precision2=7/（0+4+7）=0.63636363

代码如下：

    precision = precision_score(y_test, y_predict, average=None)
    print("precision：")
    print(precision)

输出的结果如下：

precision：
[1.         1.         0.63636364]

4）召回率

就是被正确分类的样本占实际为该样本的比例。也就是该类别占该类别所在行的比例

recall0=10/（10+0+0）=1.0

recall1=9/（0+9+4）= 0.69230769

recall2=7/（0+0+7）=1.0

代码如下：

    recall = recall_score(y_test, y_predict, average=None)
    print("recall：")
    print(recall)

运行结果如下：

recall：
[1.         0.69230769 1.        ]

5）F1-score

F1-Score为精确率和召回率的调和均值。计算公式为：

公式计算过程忽略，上面几个都计算正确，这个代入公式肯定也是正确的，直接看运行结果

代码如下：

    f1 = f1_score(y_test, y_predict, average=None)
    print("f1：")
    print(f1)

运行过程如下：

f1：
[1.         0.81818182 0.77777778]

6）ROC曲线和AUC

根据ROC曲线的生成原理，需要分类器得到每一个测试样本的分概率输出，然而没有找到比较好的knn概率输出，并且现在在sklearn中没有对应的decision_function()方法。所以这里以后在理解这个地方。暂时还无法理解

上述几个值都是越接近1越好。

（6）应用

直接把经过特征工程处理之后的数据代入模型，即可得出对应分类。

优缺点

优点：

简单易于理解，基本流程就是算距离，然后对距离进行排序

缺点：

计算量大，对测试样本分类时，需要计算每一个点与点之间的距离

受k值影响比较大，k值太小，容易受异常值的影响；k值太大，容易受样本不均衡的影响

使用场景

小数据场景，几千~几万样本

LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
【大模型与机器学习解惑】什么是A/B测试，为何进行A/B测试？
以下内容将围绕机器学习中的A/B测试展开，从概念与背景到实施细节、示例代码、优化思路和未来建议，并在最后给出一个整体的“输出目录”供参考。目录什么是机器学习的A/B测试为何要进行A/B测试A/B测试的实施流程示例代码与详细解释优化方向与未来建议结语1.什么是机器学习的A/B测试A/B测试（也常被称作对照试验、SplitTest）最早多用于互联网产品的功能或界面迭代中，指的是将用户或样本随机分为两组
详解LLMOps，将DevOps用于大语言模型开发
大家好，在机器学习领域，随着技术的不断发展，将大型语言模型（LLMs）集成到商业产品中已成为一种趋势，同时也带来了许多挑战。为了有效应对这些挑战，数据科学家们转向了一种新型的DevOps实践LLM-OPS，专为大型语言模型的开发和维护而设计。本文将介绍LLM-OPS的核心思想，并分析这一策略如何帮助数据科学家更高效地运用DevOps的优秀实践，从而在语言模型的开发和部署过程中，提升工作效率和成果的
搜广推校招面经九十一
美团机器学习/数据挖掘算法工程师_二面一、介绍一下ESMM模型，是否有进行过函数推导传统的转化率建模方式：只用发生点击（click=1）的样本来训练CVR模型。CVR定义如下：CVR=P(y=1∣x,z=1)CVR=P(y=1|x,z=1)CVR=P(y=1∣x,z=1)y=1表示用户发生了转化（如购买）z=1表示用户点击了广告这样做的问题：样本选择偏差（SampleSelectionBias,S
python 计算生态概览的概述
文章目录前言python计算生态库的介绍1.网络爬虫2.数据分析3.文本处理4.数据可视化5.机器学习6.图形用户界面7.游戏开发8.网络应用开发前言python计算生态概览的解释Python计算生态概览是对Python作为一门强大而广泛使用的编程语言所拥有的庞大软件集合的整体描述和概述。这个生态体系不仅包含了Python的标准库（stdlib），即随Python解释器安装的基本模块，还涵盖了极其
Google机器学习实践指南(模型预测偏差) AI_Auto 人工智能机器学习人工智能
Google机器学习（31）-模型预测偏差预测偏差：模型为何总是"猜不准"的真相揭秘你的模型预测准确率高达95%，却总是与实际情况差那么一点点？这可能是预测偏差在作祟！本文将带你深入探索这个被忽视的模型"隐形杀手"。一、什么是预测偏差？一个生活化案例想象一下，你网购了一个智能体重秤，连续一周称重显示都是60kg。但你去健身房用专业设备测量，实际是62kg。这种系统性的测量偏差，就是预测偏差在现实中
【机器学习|学习笔记】用 Python 结合 graphviz 生成 ID3、C4.5、CART 三种决策树的结构示意图。
【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图文章目录【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图用Python结合graphviz生成ID3、C4.5、CART三种
智能产品经理的核心能力 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
智能产品经理的核心能力1.背景介绍在当今快节奏的数字时代,产品经理扮演着至关重要的角色,他们负责确保产品满足用户需求,实现商业目标,并保持竞争优势。随着人工智能(AI)和机器学习(ML)技术的不断发展,智能产品经理的概念应运而生。智能产品经理需要将传统的产品管理技能与新兴技术相结合,以创建具有创新性和智能化的产品体验。智能产品不仅需要满足功能需求,还需要提供个性化、智能化和无缝的用户体验。这对产品
使用Python进行机器学习入门指南软考和人工智能学堂 Python开发经验 python 机器学习开发语言
使用Python进行机器学习入门指南机器学习（MachineLearning）是人工智能（ArtificialIntelligence,AI）的一个重要分支，旨在通过算法和统计模型，使计算机系统能够自动从数据中学习和改进。Python作为机器学习领域的主流编程语言，提供了丰富的库和工具来实现各种机器学习任务。本文将介绍如何使用Python进行机器学习，包括基本概念、常用库以及一个实战项目示例。目录
【亲测免费】 CatBoost 教程项目使用指南
CatBoost教程项目使用指南tutorials项目地址:https://gitcode.com/gh_mirrors/tutorials1/tutorials1.项目介绍CatBoost是一个高效、灵活且易于使用的梯度提升库，特别适用于处理分类特征。它由Yandex开发，广泛应用于机器学习和数据科学领域。CatBoost提供了丰富的功能，包括自动处理分类特征、支持GPU训练、内置的交叉验证和模
Python自动化机器学习平台库之mindsdb使用详解
概要MindsDB是一个开源的自动化机器学习平台，它通过SQL接口简化了机器学习模型的创建、训练和预测过程。该库的核心理念是将机器学习功能直接集成到数据库中，让开发者无需深入了解复杂的机器学习算法，就能够快速构建和部署预测模型。MindsDB支持多种数据源连接，包括MySQL、PostgreSQL、MongoDB等主流数据库，同时提供了丰富的PythonAPI接口，使得数据科学家和开发者能够在熟悉
堡垒机操作行为异常检测的机器学习算法应用
一、传统检测模式的困境与机器学习的破局价值在数字化转型浪潮中，堡垒机作为运维安全的核心防线，面临着操作行为复杂度激增与检测能力滞后的双重挑战。传统检测手段主要依赖静态规则库与统计模型，存在三大致命缺陷：规则固化与误报泛滥：某金融机构曾因规则库未及时更新，导致运维人员正常批量操作被误判为“暴力破解”，单日误报量超2000次，消耗安全团队60%的精力。动态行为适应性弱：微服务架构下，运维人员访问路径呈
最全自动驾驶数据集（11/4号已更新）数据猎手小k 自动驾驶人工智能机器学习
自动驾驶是一个快速发展的行业，它融合了人工智能、机器学习、传感器技术、高精度地图和先进的计算平台等多种技术。技术方面，自动驾驶汽车依赖于先进的传感器、如激光雷达、摄像头、毫米波雷达等，以及强大的计算平台来处理大量数据，自动驾驶数据集是训练和验证自动驾驶系统的关键资源，它提供了丰富的场景和条件，使算法能够学习和适应复杂的真实世界驾驶环境。一、研究背景自动驾驶技术的发展需要大量的数据来训练和优化算法，
机器学习深度学习驱动在光子学设计中的应用与未来【专题培训会议邀您共探科技前沿】软研科技信息与通信信号处理量子计算人工智能
一、背景介绍在智能科技飞速发展的今天，光子学设计与智能算法的结合正成为科研创新的热点。深度学习、机器学习等算法在光子器件的逆向设计、超构表面材料设计、光学神经网络构建等方面展现出巨大潜力。二、会议亮点由北京软研国际信息技术研究院主办的“智能算法驱动的光子学设计与应用”专题培训会议，将深入探讨以下核心内容：光子器件的逆向设计：利用深度学习优化多参数光子器件设计。超构表面与超材料设计：智能算法在新型光
机器学习与光子学的融合正重塑光学器件设计范式 m0_75133639 光电智能电视二维材料电子半导体人工智能顶刊 nature
Nature/Science最新研究表明，该交叉领域聚焦六大前沿方向：光子器件逆向设计、超构材料智能优化、光子神经网络加速器、非线性光学芯片开发、多任务协同优化及光谱智能预测。系统掌握该领域需构建四维知识体系：1、基础融合——从空间/集成光学系统切入，解析机器学习赋能光学的理论必然性，涵盖光学神经网络构建原理2、逆向设计革命——通过AnsysOptics实战，掌握FDTD算法与粒子群/拓扑优化技术
AI模型训练新范式：基于同态加密的隐私保护方案 AIGC应用创新大全人工智能同态加密区块链 ai
AI模型训练新范式：基于同态加密的隐私保护方案技术解析关键词同态加密（HomomorphicEncryption）、隐私保护机器学习（PPML）、全同态加密（FHE）、安全多方计算（MPC）、加密数据训练摘要本报告系统解析基于同态加密的AI模型训练新范式，覆盖从理论基础到工程实践的全生命周期。首先通过第一性原理推导同态加密的数学本质，对比传统隐私保护技术的局限性；其次构建“加密-训练-解密”全流程
量子机器学习入门：从理论到实践
量子机器学习入门：从理论基石到实践路径元数据框架标题量子机器学习入门：从理论基石到实践路径——连接量子计算与人工智能的未来桥梁关键词量子计算；机器学习；量子算法；量子神经网络；Qiskit；PennyLane；量子变分算法摘要量子机器学习（QuantumMachineLearning,QML）是量子计算与机器学习的交叉领域，通过量子计算的叠加态、纠缠和并行性解决传统机器学习的计算瓶颈（如高维数据处
全球人工智能与机器学习大会PPT a flying bird 论文解读和大咖技术号记录人工智能
大会演讲PPT合集https://ppt.infoq.cn/list/93PPT分享|ppt|人工智能|aicon|infoq|机器学习PPT分享,前段时间的AICon北京站2021全球人工智能与机器学习大会（https://aicon.infoq.cn/2021/beijing），汇集了很多业界大佬，工业界多个方向的从业人员分享了他们在实际业……https://xw.qq.com/cmsid/2
人工智能基础知识PPT课件智慧化智能化数字化方案方案解读馆人工智能入门人工智能学习人工智能课件人工智能PPT
人工智能基础知识定义与概念：人工智能是研究、开发用于模拟、延伸和扩展人类智能行为的综合性科学，其目的是让计算机系统具备执行人类智能任务的能力。涉及计算机科学、数学等多学科，研究对象是让系统具备智能，智能包括认知、适应和自主能力等维度。学派与方法学派：有符号主义、联结主义、行为主义等学派，分别从不同角度研究人工智能。方法：包括基于知识、学习和仿生的方法，如专家系统、机器学习、深度学习等。分类与发展分
数据挖掘：从理论到实践的深度探索代码老y 数据挖掘人工智能
在当今数字化时代，数据已经成为企业决策的重要依据。数据挖掘作为一门从大量数据中提取有价值信息的技术，已经广泛应用于各个领域，如金融、医疗、零售、互联网等。本文将深入探讨数据挖掘的基本概念、主要技术和实际应用案例，帮助读者更好地理解数据挖掘的价值和应用。一、数据挖掘的基本概念（一）数据挖掘的定义数据挖掘（DataMining）是从大量数据中提取有用信息的过程。它结合了统计学、机器学习、数据库技术和人
开发智能化的企业并购风险评估模型
开发智能化的企业并购风险评估模型关键词：企业并购、风险评估、人工智能、机器学习、深度学习、数学建模摘要：本文详细探讨了开发智能化企业并购风险评估模型的背景、核心概念、算法原理、系统架构设计以及项目实战。通过结合机器学习和深度学习技术，提出了一种基于数据驱动的智能化风险评估方法，旨在帮助企业更准确地识别和预测并购过程中的潜在风险，提升决策的科学性和有效性。第1章:企业并购风险评估模型的背景与问题描述
机器学习手写字体识别系统：技术演进与应用实践万能小贤哥机器学习人工智能
引言：手写字体识别的技术定位与价值在信息处理领域，人工录入手写文本的低效性与机器识别的高效性形成鲜明对比。例如，医疗处方的人工处理需约5分钟/张，而采用手写字体识别技术可将时间缩短至10秒/张，显著提升处理效率。作为计算机视觉与人工智能的重要分支，手写字体识别技术通过将手写文本转换为可编辑电子文本，不仅大幅减少人工输入时间和错误，降低人工处理成本，还能在大量数据处理时保持高于人工录入的准确性，是人
机器学习算法：核心原理与前沿发展综述 fmvrj34202 机器学习算法人工智能
机器学习算法作为人工智能的核心驱动力，正在重塑我们解决问题的范式。本文将系统性地探讨机器学习算法的分类体系、数学基础、优化方法以及最新发展趋势，为从业者提供技术参考。一、算法分类体系根据学习范式，机器学习算法可分为三大类：监督学习：基于标注数据的建模方法线性回归：最小化平方误差的闭式解θ=(XᵀX)⁻¹Xᵀy支持向量机：通过核技巧实现非线性分类，优化目标为max(0,1-yᵢ(w·xᵢ+b))决策
「日拱一码」020 机器学习——数据处理胖达不服输「日拱一码」机器学习人工智能数据处理 python
目录数据清洗缺失值处理删除缺失值：填充缺失值：重复值处理检测重复值处理重复值异常值处理Z-score方法IQR方法（四分位距）数据一致性检查数据转换规范化（归一化）Min-Max归一化MaxAbsScaler标准化离散化等宽离散化等频离散化数据清洗数据清洗是数据处理的第一步，目的是去除噪声数据、处理缺失值和异常值，使数据更加干净、可用缺失值处理删除缺失值：如果数据集中缺失值较少，可以直接删除包含缺
机器学习每周挑战——二手车车辆信息&交易售价数据梦想成为一名机器学习高手机器学习 python 人工智能
这是数据集的截图目录背景描述数据说明车型对照：燃料类型对照：老规矩，第一步先导入用到的库第二步，读入数据：第三步，数据预处理第四步：对数据的分析第五步：模型建立前的准备工作第六步：多元线性回归模型的建立第七步：随机森林模型的建立问题：背景描述本数据爬取自印度最大的二手车交易平台CARS24，包含8000+该平台上交易车辆的关键评估信息。CARS24成立于2015年，总部位于印度古尔冈，是一个在印度
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C

机器学习入门研究（六）-KNN算法

转换器和预估器

转换器

fit、transform、fit_transform区别

预估器

KNN算法

定义

算法伪代码描述

k值的选择

几个距离计算

实例

sklearn中的API

实例

优缺点

你可能感兴趣的:(机器学习)