郝郝学习_郝郝爱自己

鸢尾花分类预测实验（机器学习）

鸢尾花数据集的分类预测实验是机器学习最经典的案例之一，通过模型的训练，对于大量的鸢尾花数据集的学习，可以识别出新的鸢尾花是什么类型，继而完成预测和分类

鸢尾花的分类和预测大概分为如下几个步骤

（1）准备训练数据（2）切分数据集（3）数据归一化/标准化（对其正态分布转化）（4）对数据集的训练和预测（多轮交叉验证）（5）验收结果

1）准备训练数据

#鸢尾花数据集加载
iris=datasets.load_iris()
X=iris.data[:,2:]#数据采用花瓣长和宽
y=iris.target  #类别数据

2）切分数据集

#交叉验证 切分数据集
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=0)

X_train:训练集 X_test:测试集 y_train:鸢尾花类别的训练集 y_test:鸢尾花类别的训练集 X,y是要进行划分的数据集 test_size:测试集所占的比例（若为正数则为测试的数量） random_state：随机数的种子（后面的数字只要是同一个，所产生的随机数就固定，但是不同的随机数种子所对应的随机数不一样）

train_test_split是切分数据集的函数

3）数据归一化处理/标准化（正态分布转化）

在机器学习中，偏好于0-1之间的数字，更偏好于正态分布的数据集，因此将数据集转化为正态分布，更有利于减小误差

归一化的作用和意义：归一化可以最大程度的去除极大值和极小值的边缘值对于数据的影响，将数据转化为符合正态分布的数据

#数据归一化处理
from sklearn.preprocessing import MinMaxScaler   #最值归一化
from sklearn.preprocessing import StandardScaler  #均值方差归一化
standardScaler=StandardScaler()
standardScaler.fit(X_train)#得到原始数据特征值的均值和方差  拿参数
X_train_avg=X_train.mean()
X_train_var=X_train.var()
#均值
print(X_train_avg[:,0])
print(X_train_avg[:,1])
#方差
print(X_train_var[:,0])
print(X_train_var[:,1])
X_train_std=standardScaler.transform(X_train)
X_test_std=standardScaler.transform(X_test)

求每一列平均值和方差除了上述的方式外还有两种

其中axis=0表示一列一列从左向右推进，axis=1表示一行一行从上往下推进，但是如果要用for循环，过程就比较繁琐，这也是numpy的优势之一

MinMaxScaler是一种常用的归一方式，

MinMaxScaler和StandardScaler的区别：归一化主要是为了将数据映射到0~1的范围内，将有量纲的表达式变成无量纲的，化为纯量，消除了由于特征加持下对于数据的一些影响，使各个特征数据对于目标的影响权重是一样的，而标准化则不然，标准化依旧保持了数据原有的特征信息，类似于是等比例的转化，对不同特征维度的伸缩变换的目的是使得不同度量之间的特征具有可比性。同时不改变原始数据的分布(并未使数据集转到0~1之间)

下面用图形来表示

在对训练数据进行标准化后，我们在本次的示例中使用标准化（标准化往往优先于归一化）来处理数据，之后开始训练数据

standardScaler=StandardScaler()
standardScaler.fit(X_train)

对于不同的函数，我们所需要的参数不一样，，训练模型可以看作是拿参数，在我们下面写的标准化训练集和测试集中就会用到，不同的模型和函数所需要用到的参数不同

4）对数据集的训练和预测（多轮交叉验证）

我们在对于模型的参数进行赋值时，有时候一开始所写的参数与最佳参数相差较大，不能完美拟合，如何寻找最合适的参数成了我们最需要解决的问题

例如本示例中：

我们最初输入的数据，精度和拟合效果并不好，因此我们需要不断的进行交叉验证，确定合适的参数，也可以利用网格搜索的方法，来确定最好的参数组合

一次一次的训练，效率未免有些低，我们可以采用多次交叉验证的方式来实现

我们通过cross_val_score来实现多次的交叉训练,下面我们对cross_val_score的参数进行分析，sklearn.model_selection.cross_val_score(estimator, X, y=None, groups=None, scoring=None, cv=’warn’, n_jobs=None, verbose=0, fit_params=None, pre_dispatch=‘2*n_jobs’, error_score=’raise-deprecating’)

estimator： 需要使用交叉验证的算法
X：输入样本数据
y：样本标签 cv： 交叉验证折数或可迭代的次数
groups： 将数据集分割为训练/测试集时使用的样本的组标签（一般用不到）
scoring： 交叉验证最重要的就是他的验证方式，选择不同的评价方法，会产生不同的评价结果
n_jobs： 同时工作的cpu个数（-1代表全部）
verbose： 详细程度
fit_params： 传递给估计器（验证算法）的拟合方法的参数
pre_dispatch： 控制并行执行期间调度的作业数量 error_score： 如果在估计器拟合中发生错误，要分配给该分数的值（一般不需要指定）

还有一个点：我们在之前对于模型的精确度测试时，需要对模型进行训练

knn_clf=KNeighborsClassifier(n_neighbors=5)
knn_clf.fit(X_train_std,y_train)#训练
knn_clf.score(X_test_std,y_test)

但是多次交叉验证函数，不需要再额外的写训练函数，已经内置在其函数内部

knn_clf1=KNeighborsClassifier(n_neighbors=6)
scores=cross_val_score(knn_clf1,X_std,y,cv=5)

接下来我们对于训练矫正好的模型进行一次实际的分类预测

在进行预测时，knn_clf.predict()函数，输入的变量x一定要是一个二维数组，不能是一维数组，因为我们的训练集是一个二维数组，要保持形式的一致

我们每一朵新的鸢尾花，他的分类有三种可能，具体是哪一个，我们也可以通过函数求得，来得出新的鸢尾花数据点为各类别的概率大小，需要注意的是，相关点的概率之和应该等于1，一个点的几种概率之和也应该等于1。

#分类边界
#X只有两个特征
def plot_decision_boundary(model,X,y):   #划边界
    x0_min,x0_max=X[:,0].min()-1,X[:,0].max()+1
    x1_min,x1_max=X[:,1].min()-1,X[:,1].max()+1
    x0,x1=np.meshgrid(np.linspace(x0_min,x0_max,100),np.linspace(x1_min,x1_max,100))
    Z=model.predict(np.c_[x0.ravel(),x1.ravel()])
    Z=Z.reshape(x0.shape)
    
    plt.contourf(x0,x1,Z,camp=plt.cm.Spectral)
    plt.ylabel('x1')
    plt.ylabel('x0')
    plt.scatter(X[:,0],X[:,1],c=np.squeeze(y))
    plt.show()
plot_decision_boundary(knn_clf,X_train_std,y_train)

当我们昨晚预测之后，就要整体的把我们的模型和实例的分类装框用图像的形式画出来，因此我们此时就应该对图像进行分类边界处理

我们在此定义一个函数 plot_decision_boundary()来对于鸢尾花数据点来进行分类和划界

x0_min,x0_max=X[:,0].min()-1,X[:,0].max()+1
x1_min,x1_max=X[:,1].min()-1,X[:,1].max()+1

这两处是为了对于整体范围进行划定，便于我们进行观察

+1和-1就是为了是我们所观察的蓝框区域的大小做出相应的改变

 x0,x1=np.meshgrid(np.linspace(x0_min,x0_max,100),np.linspace(x1_min,x1_max,100))
 Z=model.predict(np.c_[x0.ravel(),x1.ravel()])
 Z=Z.reshape(x0.shape)
    
 plt.contourf(x0,x1,Z,camp=plt.cm.Spectral)
 plt.ylabel('x1')
 plt.ylabel('x0')
 plt.scatter(X[:,0],X[:,1],c=np.squeeze(y))
 plt.show()

np.meshgrid()用来构建网格矩阵

网格矩阵就是在方格纸上画出坐标系找出对应矩阵的大概范围

np.linspace(起点，终点，要建立的点数的个数) #这种方式建立的是均匀的间隔

类似的还有一个函数也可以实现类似的功能

range(start,stop,step)#start:计数从start开始，默认是从0开始；stop：计数到stop结束，但是不包括 stop；step：步长，默认为1

np.meshgrid()的具体用法，np.meshgrid(数据集点的x坐标集合，数据集点的y坐标集合)

具体理解：在坐标系中，有很多个点，每个点有x、y坐标，我们将每个点的x坐标和y坐标分装到两个集合中，我们使用np.meshgrid可以将x坐标集合扩展成x行y列，每一行的数组都相同，将y坐标集合扩展成x行y列，每一列的坐标相同，这样其实就得到了x，y坐标组成的网格矩阵也就是我们常用的平面直角坐标系，但是现在我们的x，y已经变成了所谓“矩阵体”若想要将其最基本的单元剥离出来，则要用到numpy.ravel函数，这个函数可以将重复的行或列压缩成一行或一列最简单的“单元数组”

但是仅仅将它们抽离开还并不能满足我们的需求，我们需要根据x0_ravel,x1_ravel两组数据来确定我们预测的这一莺尾花数据点为哪一类别，所以我们应该将两组数据按列连接。注意，一定是只有两组数据时才会按列连接(并且，列数还要相同）,如果是三组数据，便不会出现列连接，而是行连接，甚至是直接变成一维数组，例如：

与此同时，我们在为了使用的视觉舒适度上，如果将这100×100的数据集直接输出，我们不容易看出哪一个坐标点的数据集所对应的类别，但是如果将类别的统计的结果也做成一个100×100的矩阵，呈现程度会好很多，我们只需要改变输出的类别数据集的形状即可

Z=model.predict(np.c_[x0.ravel(),x1.ravel()])
Z=Z.reshape(x0.shape)

我们来总结和梳理一下分类划线的整个逻辑：

为了使得我们现有的训练集的数据更加泛化，我们将数据点的x，y坐标集进行均匀的打散，又根据predict函数预测出被打散后的坐标点所属的类别，再利用，x,y,类别信息进行作图，会形成三色分层的类别图像，分层处即为等高线，在此处应用了plt.contourf函数（用于绘制等高线），在进行完分层操作后，我们再将我们所应用到的散点以散点图的形式借助plt.scatter的函数呈现出来，这样做的好处是，通过观察散点所处的颜色分层，可以清楚地知道该数据集点所属的类别

接下来是对于函数的细节进行解析

coutour(X,Y,Z,**kwargs)

X:横坐标，Y纵坐标，Z分类的类别结果，**kwarge：一些必要的参数信息（示例中为分层的颜色信息） PS：当 X,Y,Z 都是 2 维数组时，它们的形状必须相同。如果都是 1 维数组时，len(X)是 Z 的列数，而 len(Y) 是 Z 中的行数。在示例中我们还有一个参数，camp=plt.cm.Spectral为不同的数据坐标点进行随机分配颜色

例如：

plt.ylabel('x1')
plt.ylabel('x0')

#plt.ylabel 是设置y轴标签文本的函数，plt.xlabel 是设置x轴标签文本的函数，在当前这个例子中，x轴标签文本是x0，y轴的标签文本是x1

plt.scatter(X[:,0],X[:,1],c=np.squeeze(y))

这行代码涉及到了画散点图，在此我们对scatter函数进行分析（）

matplotlib.pyplot.scatter(x, y, s=None, c=None, marker=None, cmap=None, norm=None, vmin=None, vmax=None, alpha=None, linewidths=None, verts=None, edgecolors=None, *, data=None, **kwargs)

x，y：表示的是大小为(n,)的数组，也就是我们即将绘制散点图的数据点

s:是一个实数或者是一个数组大小为(n,)，这个是一个可选的参数。

c:表示的是颜色，也是一个可选项。默认是蓝色'b',表示的是标记的颜色，或者可以是一个表示颜色的字符，或者是一个长度为n的表示颜色的序列等等。但是c不可以是一个单独的RGB数字，也不可以是一个RGBA的序列。可以是他们的2维数组（只有一行）。

marker:表示的是标记的样式，默认的是'o'。

cmap:Colormap实体或者是一个colormap的名字，cmap仅仅当c是一个浮点数数组的时候才使用。如果没有申明就是image.cmap

norm:Normalize实体来将数据亮度转化到0-1之间，也是只有c是一个浮点数的数组的时候才使用。如果没有申明，就是默认为colors.Normalize。

vmin,vmax:实数，当norm存在的时候忽略。用来进行亮度数据的归一化。

alpha：实数，表示的是透明度，值域在0-1之间。

linewidths:也就是标记点的长度。

而我们示例中的c（颜色选项）c=squeeze（y）

np.squeeze函数的作用，我们用几个实例来理解一下

np.squeeze可以理解成是维数简化

3维的简化成2维的，2维的简化成1维的，1维的不变

knn_clf=KNeighborsClassifier(n_neighbors=78)
knn_clf.fit(X_train_std,y_train)#训练
plot_decision_boundary(knn_clf,X_train_std,y_train)

上图就是属于拟合失败的情况，模型没有学明白

我们之前设置的k邻近型分类器的临近数据点数设为30，但是我们这个参数不一定每次都能够精确找到，那如何能够找到那个最合适的参数是一个问题，因此我们需要通过进行拟合检测来找到最符合我们建立模型的临近节点数值

set_config指的是设置全局的scikit-learn的配置

set_config(print_changed_only=False)

print_changed_only的值如果为True，则跳过对有限性的验证，节省了时间，但也导致了潜在的崩溃。如果print_changed_only的值为False，将执行有限性验证，避免错误。全局默认值:False。

如果想要了解具体参数的意义，参照我往期的博客《 K近邻算法（机器学习）》

我们通过机器学习就是为了得到一个较为精确的分类器模型能够对鸢尾花进行一个相对于精确的分类，许多参数如果只靠人为的摸索调参，效率就太低了，因此我们在面对较小的数据集时可以采取GridSearchCV这一调参利器来实现

GridSearchCV，它存在的意义就是自动调参，只要把参数输进去，就能给出最优化的结果和参数。但是这个方法适合于小数据集，一旦数据的量级上去了，很难得出结果。

现在来对于GridSearchCV的参数意义进行说明

class sklearn.model_selection.GridSearchCV(estimator, param_grid, scoring=None, fit_params=None, n_jobs=1, iid=True, refit=True, cv=None, verbose=0, )

estimator：选择使用的分类器

param_grid：需要最优化的参数的取值，值为字典或者列表

scoring=None：模型评价标准，默认None,这时需要使用score函数

fit_params=None

n_jobs=1 ：n_jobs: 并行数，int：个数,-1：跟CPU核数一致, 1:默认值

iid=True ：iid:默认True

cv=None ：交叉验证参数，默认None，使用三折交叉验证。指定fold数量，默认为3

verbose=0, scoring=None

verbose：日志冗长度，int：冗长度，0：不输出训练过程，1：偶尔输出，>1：对每个子模型都输出

我们本案例中

param_grid=[
    {
#         range(start, stop [,step]) 
        'weights':['uniform'],
        'n_neighbors':list(range(1,11))
    },
    {
        'weights':['distacne'],
        'n_neighbors':list(range(1,11)),
        'p':list(range(1,6))
    }
]

param_grid之所以分成两部分，是因为想看一下是均匀权重下还是在不均等权重下拟合程度更好，从而得出更精确的参数，但是小编在此有个疑问，p所表示是距离度量公式，而度量公式只有两种，当p=1时，为曼哈顿距离公式，p=2时为欧式度量公式，所以p的值为什么要在（1-6之间）去索引除此之外小编还疑惑一件事，是不是只有在distance的权重分配模式下才涉及到距离度量公式？希望大佬们可以解答一下我的困惑，一起进步共同学习。

5）验收结果

最后我们来看一下我们通过GridSearchCV校准好的分类器模型的各项参数和性能

Julia语言的学习路线樟松包罗万象 golang 开发语言后端
Julia语言学习路线指南引言在编程语言层出不穷的今天，Julia作为一门新兴的高级编程语言，以其出色的性能和易用性逐渐获得了越来越多的关注。特别是在科学计算、数据分析和机器学习等领域，Julia的表现十分出色，成为研究人员和开发者的热门选择。本文将为希望学习Julia语言的读者提供一条详细的学习路线，包括基础知识、工具、库、项目和实践经验等，帮助大家有效地掌握这门语言。一、了解Julia语言在开
【机器学习】基于t-SNE数据可视化工程无水先生 AI原理和python实现人工智能综合人工智能算法
一、说明t-SNE(t-DistributedStochasticNeighborEmbedding)是一种常用的非线性降维技术。它可以将高维数据映射到一个低维空间（通常是2D或3D）来便于可视化。Scikit-learnAPI提供TSNE类，以使用T-SNE方法可视化数据。在本教程中，我们将简要学习如何在Python中使用TSNE拟合和可视化数据。二、t-SNE是个什么？2.1什么是t-SNE？
数据处理和分析之数据降维：t-SNE：使用t-SNE进行数据可视化实践 kkchenkx 数据挖掘信息可视化算法聚类均值算法数据挖掘机器学习
数据处理和分析之数据降维：t-SNE：使用t-SNE进行数据可视化实践数据降维简介降维技术的重要性在数据科学和机器学习领域，数据降维是一种关键的技术，用于减少数据集的维度，同时保留数据的结构和重要信息。降维不仅可以帮助我们更有效地存储和处理数据，还能在高维数据中发现潜在的模式和结构，这对于数据可视化和模型训练尤为重要。高维数据往往难以直观理解，通过降维，我们可以将其转换为二维或三维空间，便于可视化
NPU的工作原理：神经网络计算的流水线绿算技术 NPU架构介绍神经网络人工智能深度学习
NPU的工作原理可以概括为以下几个步骤：1.模型加载·将训练好的神经网络模型加载到NPU的内存中。2.数据输入·输入数据（如图像、语音）通过接口传输到NPU。3.计算执行·NPU根据模型结构，依次执行卷积、池化、全连接等计算任务。·矩阵乘法单元和卷积加速器并行工作，高效完成计算。4.结果输出·计算完成后，输出结果（如分类标签、检测框）返回给主机或其他处理器。5.任务调度·在多任务场景下，NPU的任
必看！一文读懂知识蒸馏技术小天才学习机打游戏人工智能知识图谱神经网络 langchain windows
导读最近，DeepSeek的爆火让大家对人工智能领域的技术发展又有了新的关注。而知识蒸馏作为深度学习中一项重要的技术，也在背后默默地发挥着作用，今天就来给大家详细介绍一下知识蒸馏及其相关原理。1.知识蒸馏是什么在深度学习领域，大型模型（如DeepSeek）通常具有强大的性能，但它们的计算量和参数量都非常庞大，这使得它们难以在资源受限的设备（如移动设备或嵌入式设备）上部署。例如，GPT-3在570G
从零开始大模型开发与微调：PyTorch 2.0深度学习环境搭建 AI智能涌现深度研究 DeepSeek R1 &大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
从零开始大模型开发与微调：PyTorch2.0深度学习环境搭建作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习在各个领域的广泛应用，大模型开发与微调成为了当前研究的热点。大模型能够学习到丰富的知识，并在各个下游任务上取得优异的性能。然而，大模型开发与微调需要强大的计算资源和专业的知识背景，这对于许多初学者和研究
AI大模型学习路线及相关资源推荐 python游乐园学习资源学习 Python AI AI编程人工智能
哈喽，大家好！本文为大家带来AI大模型学习路线及相关资源推荐，这对于学习掌握AI大模型很有帮助呦，希望大家多多点赞收藏～感谢～～1AI大模型的基础信息1.1什么是AI大模型AI大模型，即人工智能大型模型，是一种基于深度学习技术，具有海量参数、强大算力支持、能够处理和生成复杂数据的人工智能模型。1.2AI大模型的主要特点规模庞大：AI大模型通常包含海量的参数。例如，谷歌的BERT模型在最初发布时就有
数据分布偏移检测：保障模型在生产环境中的稳定性 trust Tomorrow 机器学习 python 机器学习人工智能深度学习
数据分布偏移检测：保障模型在生产环境中的稳定性引言在机器学习系统从开发环境部署到生产环境的过程中，数据分布偏移问题是影响模型性能的主要挑战之一。当训练数据与生产环境中的数据分布不一致时，即使是经过精心调优的模型也可能表现出明显的性能下降。本文将深入探讨数据分布偏移的检测方法，并提供一套系统化的解决方案，帮助读者构建更加稳健的机器学习系统。1.数据分布偏移问题概述1.1分布偏移的类型数据分布偏移主要
【深度学习与大模型基础】第3章-张量 lynn-66 深度学习与大模型基础深度学习人工智能
大家好！今天我们来聊聊张量（Tensor）。别被这个词吓到，其实它没那么复杂。什么是张量？简单来说，张量就是一个多维数组。你可以把它看作是一个装数据的容器，数据的维度可以是一维、二维，甚至更高。标量（0维张量）：就是一个单独的数字，比如3。向量（1维张量）：一串数字，比如[1,2,3]。矩阵（2维张量）：一个表格，比如[[1,2],[3,4]]。更高维张量：比如[[[1,2],[3,4]],[[5
基于热力梯度的线圈设计用来更替新型的储能方式热爱电气数学建模
摘要研究背景：传统电磁储能技术受限于较低的能量密度（约1-5Wh/kg）和充放电速度。热力梯度储能技术通过调控温度场实现多模式能量转换，其潜力能量密度可达100Wh/kg以上。创新点：1.提出三层异质线圈结构（铜基主储层+Bi₂Te₃热电转换层+GdFeO₃磁热调谐层），实现温度梯度与磁场的协同调控。2.开发动态热-电-磁耦合模型，结合有限元分析（COMSOL）与机器学习算法（遗传算法优化参数）。
【机器学习】skit-learn中LSI模型的实现一穷二白到年薪百万机器学习 python sklearn
参考文献[1]sklearn_api.lsimodel–ScikitlearnwrapperforLatentSemanticIndexing[2]Pythonmodels.LsiModel方法代码示例
OpenCV 深度学习模块 cv2.dnn 与其他深度学习框架的优缺点对比及适用场景白.夜深度学习 opencv
OpenCV提供了一个深度学习模块cv2.dnn，让开发者能够在计算机视觉项目中轻松加载和推理深度学习模型。相比于TensorFlow、PyTorch等其他深度学习框架，cv2.dnn有其独特的优点与缺点，适用于不同的应用场景。在这篇文章中，我们将详细分析cv2.dnn的优缺点，并讨论它的适用场景。一、cv2.dnn的优点1.简单易用cv2.dnn提供了一个相对简单且易于使用的接口，适合已经在使用
深度学习中的 blob 格式：与普通 image 的区别及转换原因白.夜深度学习人工智能
在深度学习模型推理过程中，我们经常会用到cv2.dnn.blobFromImage函数将普通图像转换为blob格式。那么，blob格式到底是什么？它和普通image有什么区别？为什么在模型推理中需要这种转换？本文将用通俗的语言为你解答这些问题。1.什么是blob格式？blob是OpenCV中用于深度学习模型输入的一种特殊数据格式，全称为BinaryLargeObject。它本质上是一个多维数组（通
Transformer动画讲解 - 工作原理 ghx3110 transformer 深度学习人工智能
Transformer模型在多模态数据处理中扮演着重要角色，其能够高效、准确地处理包含不同类型（如图像、文本、音频、视频等）的多模态数据。Transformer工作原理四部曲：Embedding（向量化）、Attention（注意力机制）、MLPs（多层感知机）和Unembedding（模型输出）。阶段一：Embedding（向量化）“Embedding”在字面上的翻译是“嵌入”，但在机器学习和自
Java：AI 浪潮中的隐形支柱 —— 探秘 Java 在人工智能领域的独特地位琢磨先生David 人工智能
引言在人工智能技术席卷全球的今天，当人们谈论AI开发时，Python、R语言、C++等工具总是最先被提及。然而在这个充满创新的领域，有一个"老兵"正悄然发挥着不可替代的作用——自1995年诞生至今的Java语言，凭借其独特的工程化基因，正在构建起AI世界的底层基础设施。本文将揭示Java如何在大数据、机器学习、企业级AI系统等领域持续创造价值。一、Java的AI基因解码跨平台优势的现代意义"一次编
【大一新生必收藏系列】❤机器学习7大方面，30个数据集。纯干货分享❤ .Boss. 机器学习人工智能 python 算法开发语言笔记 #大一新生
.记住了就可以跟同学装起来了嗷....目录.纯干货回归问题分类问题图像分类文本情感分析自然语言处理自动驾驶金融类...........纯干货..................在刚刚开始学习算法的时候，大家有没有过这种感觉，最最重要的那必须是算法本身！其实在一定程度上忽略了数据的重要性。而事实上一定是，质量高的数据集可能是最重要的！数据集在机器学习算法项目中具有非常关键的重要性，数据集的大小、质量
小狐狸AI数字人源码独立SAAS部署全开源+搭建环境教程 kaui52066 kaui52066精品源码人工智能 uni-app 前端小程序 php 小狐狸AI数字人数字人源码
一.系统介绍小狐狸AI数字人分身系统源码独立部署支持PC端、小程序端、H5端，一键克隆真人形象+声音核心功能亮点：1:1真人级克隆技术声音克隆：上传3分钟音频，AI深度学习声纹特征，复刻语气、情感、方言形象克隆：通过照片/视频建模，生成动态3D数字人，表情自然，动作流畅智能口型同步引擎AI算法精准匹配唇形与语音，实现口型同步0门槛SAAS化操作无需专业设备，网页端一键生成数字人视频海量模板库：电商
【PyTorch】PyTorch 中改变张量形状的几种方法 shengchao0920 pytorch 人工智能 python
PyTorch中改变张量形状的几种方法在深度学习领域，PyTorch是一个广泛使用的框架，它提供了丰富的API来处理张量（tensor）。在模型开发过程中，我们经常需要改变张量的形状以满足特定的需求。本文将介绍在PyTorch中改变张量形状的几种方法，并给出推荐的使用场景。比如：我们想合并一个张量的最后两个维度。一、方法1.使用reshape方法reshape方法可以改变张量的形状而不改变其数据。
OpenAI 团队组织架构和研发技术栈 AI天才研究院 ChatGPT 人工智能
OpenAI是一家致力于推动人工智能技术发展的公司，成立于2015年。其目标是确保人工智能技术造福全人类。为了实现这一目标，OpenAI采用了多种先进的技术和组织架构来推动其研发工作。目录OpenAI组织架构和研发技术栈概述1OpenAI团队的世界顶尖科学家IlyaSutskever：Ilya是OpenAI的联合创始人之一，也是深度学习领域的先驱。他在神经网络和深度学习方面的研究具有重要影响，曾与
机器学习中的梯度到底是什么？（chat-gpt问答）湫怿机器学习 gpt 人工智能梯度
1、梯度是对损失函数求导吗？是的，梯度是对损失函数（或目标函数）求导数值化后的结果。梯度告诉我们目标函数在某个点上的方向性和变化率，这些信息是优化算法推进参数评估和更新的重要指标。在机器学习中，我们通过不断调整参数，使目标函数达到最小值，从而实现模型的训练和学习。2、为什么梯度要求偏导来求解？梯度是一个向量，它的方向指向函数值增加最快的方向，其大小表示函数值的变化率。为了确定梯度的方向和大小，需要
机器学习中的梯度下降是什么意思？ yuanpan 机器学习人工智能
梯度下降（GradientDescent）是机器学习中一种常用的优化算法，用于最小化损失函数（LossFunction）。通过迭代调整模型参数，梯度下降帮助模型逐步逼近最优解，从而提升模型的性能。1.核心思想梯度下降的核心思想是利用损失函数的梯度（即导数）来指导参数的更新方向。具体来说：梯度：梯度是损失函数对模型参数的偏导数，表示损失函数在当前参数点上的变化率。下降：通过沿着梯度的反方向（即损失函
CIR-DFENet：结合跨模态图像表示和双流特征增强网络进行活动识别是Dream呀神经网络计算机视觉人工智能神经网络深度学习
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学业升学和求职工作的先行者！【优惠信息】•新专栏订阅前200名享9.9元优惠•订阅量破200
深度学习-服务器训练SparseDrive过程记录 weixin_40826634 深度学习服务器人工智能
1、cuda安装1.1卸载安装失败的cuda参考：https://blog.csdn.net/weixin_40826634/article/details/127493809注意：因为/usr/local/cuda-xx.x/bin/下没有卸载脚本，很可能是apt安装的，所以通过执行下面的命令删除：apt-get--purgeremove"cuda*"apt-getautoremove然后执行f
机器学习-----决策树多巴胺与内啡肽. 机器学习机器学习决策树人工智能
文章目录1、概念2.决策树的构建过程2.1特征选择2.2树的生成2.3树的剪枝3.决策树的优缺点4.决策树的应用4.1分类任务4.2回归任务4.3集成学习代码示例总结1、概念1.1决策树是什么决策树是通过对样本的训练，建立出分类规则，并对新样本进行预测，属于有监督学习。根节点：最上面的节点。叶子节点：能直接看到结果的节点。非叶子节点：位于中间的节点。1.2决策树的类型分类树：用于分类任务，叶节点代
机器学习驱动的智能化电池管理技术与应用萌萌可爱郭德纲机器学习人工智能
电池管理技术概述电池的工作原理与关键性能指标电池管理系统的核心功能ØSOC估计ØSOH估计Ø寿命预测Ø故障诊断人工智能机器学习基础人工智能的发展机器学习的关键概念机器学习在电池管理中的应用案例介绍人工智能在电池荷电状态估计中的应用荷电状态估计方法概述基于迁移学习的SOC估计(1)基于迁移学习的SOC估计方法数据集、估计框架、估计结果(2)全生命周期下的SOC估计方法数据集、估计框架、估计结果基于数
机器学习_重要知识点整理嘉羽很烦机器学习机器学习
机器学习重要知识点整理一、数学与理论基础1.概率与统计术语作用使用场景概率分布描述随机变量的取值概率，如正态分布、二项分布。数据建模（如高斯分布假设）、生成模型（如贝叶斯网络）。贝叶斯定理计算条件概率，更新先验知识以获得后验概率。贝叶斯分类器、文本分类（如垃圾邮件检测）。最大似然估计（MLE）通过数据最大化似然函数，估计模型参数。线性回归、逻辑回归参数估计。假设检验判断假设是否成立（如t检验、卡方
用Python打造智能家居安防系统，让科技守护你的家 Echo_Wish Python 笔记 Python 算法 python 智能家居科技
友友们好！我是Echo_Wish，我的的新专栏《Python进阶》以及《Python！实战！》正式启动啦！这是专为那些渴望提升Python技能的朋友们量身打造的专栏，无论你是已经有一定基础的开发者，还是希望深入挖掘Python潜力的爱好者，这里都将是你不可错过的宝藏。在这个专栏中，你将会找到：●深入解析：每一篇文章都将深入剖析Python的高级概念和应用，包括但不限于数据分析、机器学习、Web开发
模型量化 (Model Quantization) 算法 (Model Quantization Algorithms) （initial）大模型科普算法人工智能量化
1模型量化的必要性：降低模型大小、加速推理、减少资源消耗随着深度学习模型的日益复杂和庞大，其在资源受限的设备（如移动端、嵌入式设备）上的部署面临着巨大的挑战。即使在服务器端，部署大型模型也会带来高昂的计算成本和能源消耗。模型量化(ModelQuantization)作为一种关键的模型压缩和加速技术应运而生。其核心思想是将模型中的浮点数（通常是FP32或FP16）表示的权重和激活值转换为低精度整数（
百度快速收录2025最新科普 SEORoal 百度
跨境物流的智能突围战宁波某RCEP跨境物流平台接入214维特征矩阵后：✅'智能清关系统’72小时冲进TOP3✅'东盟电子报关’长尾词覆盖量暴涨4.2倍✅日均有效询盘突破300+技术三板斧：标题智能提取引擎（支持38种语义变异）动态阻抗参数混淆（误差≤0.15μΩ）实时工商特征同步（每2小时更新）2025生存指南：采用神经网络语义映射（NLP准确率98.2%）部署质量监控系统（误差率≤0.15%）加
Java对比Python，谁才是编程王者？ Java学研大本营 python java 开发语言
Python和Java是目前编程最受欢迎的两种语言，本文从多角度比较二者的相同点和差异，帮助你更深入地了解两种语言的特点，最终能根据你自身的需求来进行选择。微信搜索关注《Java学研大本营》Python和Java是当今世界上最流行的两种编程语言。两者都被广泛用于各种行业和应用，从网络开发到机器学习再到数据分析。但是这两种语言哪个更好呢？在这本中，我们将多方面比较Python和Java，探索二者的历
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多

鸢尾花分类预测实验（机器学习）

你可能感兴趣的:(机器学习,深度学习,神经网络)