王大宝的CD

机器学习笔记（九）聚类算法及实践（K-Means,DBSCAN,DPEAK,Spectral_Clustering）

这一周学校的事情比较多所以拖了几天，这回我们来讲一讲聚类算法哈。

首先，我们知道，主要的机器学习方法分为监督学习和无监督学习。监督学习主要是指我们已经给出了数据和分类，基于这些我们训练我们的分类器以期达到比较好的分类效果，比如我们前面讲的Logistic回归啊，决策树啊，SVM啊都是监督学习模型。无监督学习就是指我们就只有数据，没有分类结果，然后根据数据进行建模能够给出哪些样本是属于一类的一个过程，通常我们就称之为聚类。

今天我主要介绍以下几种最常见的聚类算法，包括K-Means算法，基于密度的聚类（DBSCAN）算法，密度最大值算法（DPEAK），谱聚类算法，基本上也是从易到难，从原理讲讲我自己的理解，希望对大家有用。

====================================================================

K-Means算法。

原理上来讲，K-Means算法其实是假设我们数据的分布是K个sigma相同的高斯分布的，每个分布里有N1，N2……Nk个样本，其均值分别是Mu1，Mu2……Muk，那么这样的话每个样本属于自己对应那个簇的似然概率就是

这个套路我们就很熟悉了，下面就是取对数似然概率，要求似然概率的最大值，给它加个负号就可以作为损失函数了，考虑到所有簇的sigma是相等的，所以我们就可到了K-Means的损失函数

机器学习笔记（九）聚类算法及实践（K-Means,DBSCAN,DPEAK,Spectral_Clustering）_第2张图片

接着我们对损失函数求导数为0，就可以得到更新后最佳的簇中心了

机器学习笔记（九）聚类算法及实践（K-Means,DBSCAN,DPEAK,Spectral_Clustering）_第3张图片

这样我们就得到了所谓的K-Means算法

1 初始选择K个类别中心。

2 将每个样本标记为距离类别中心最近的那个类别。

3 将每个类别中心更新为隶属该类别所有点的中心。

4 重复2,3两步若干次直至终止条件（迭代步数，簇中心变化率，MSE等等）

现在我们回过头来看看K-Means算法的问题。

首先，正如我刚开始介绍它的时候，它是假设数据服从sigma相同的混合高斯分布的，所以最后分类的结果肯定是若干个类圆形的区域，这就很大程度上限制了它的应用范围，如果我们的数据是那种比较奇葩的形状，比如什么扇形啊，圆环啊，你会发现K-Means的效果其实不是很叫人满意。

其次，你得给出这个分类的数目K啊，有一定的先验条件还好，如果是两眼一抹黑，怎么确定呢？猜呗，或者试呗，用一定的评价标准选择最佳那个就成。还有就是初始簇中心的选择，K-Means的结果对初值是敏感的，比如说样本分为三个簇，你一开始把两个中心定在某一个簇中，还有一个中心处在另外两个簇的中间，这样最后的结果很可能是那两个簇被划分成一类，还有一个簇被强行划分成两个簇这样。所以为了解决这个初值敏感问题，又提出了K-Means++算法，它的做法就是你先随机指定第一个簇中心，然后计算所有点到该簇中心的距离，以这个距离作为权值来选择下一个簇中心，一定程度上可以解决簇中心初值选择不合理的问题。

最后还有一个问题，就类似于上一篇我们讲的SVM一样，如果我们采用线性可分SVM方法，一个异常点就可以把我们的分割超平面带跑偏导致泛化能力被削弱。K-Means中我们采用均值来更新簇中心，同样的，一个异常点会导致新的这个簇中心发生比较大的偏离，而且再更新的时候我们还是要考虑那个异常点，所以就不会得到比较好的效果。

说了这么多K-Means的缺点都显得它一无是处了，我们还是要说K-Means作为一种最经典的聚类算法，它简单，快速，在应对大数据的时候相对优势会比较大，有的时候还可以作为其他聚类算法中的一步。

====================================================================

DBSCAN算法。

前面讲了K-Means算法主要针对那种类圆形区域数据的聚类，相对来说应用范围窄了一点。而密度聚类可以弥补这个缺点，可用于任何形状的聚类。这个算法需要我们调节两个参数，半径sigma，最小数目m，先介绍该算法的一些概念

核心对象：对于一个对象它的sigma领域内至少有m个对象，那我们就称之为核心对象

直接密度可达：如果一个对象处在一个核心对象的sigma领域内，那称这两个对象直接密度可达

密度可达（相连）：如果一个对象a和b直接密度可达，对象b和c也是直接密度可达，那么我们称a和c是密度可达的，也称这两个对象是密度相连的。

DBSCAN的算法就是我们先找到一个核心对象，从它出发，确定若干个直接密度可达的对象，再从这若干个对象出发，寻找它们直接密度可达的点，直至最后没有可添加的对象了，那么一个簇的更新就完成了。我们也可以说，簇其实就是所有密度可达的点的集合。

它的优势在哪儿呢？

首先，它对这个簇的形状没要求，只要这些点密度可达我们就把它归为一个簇，这样不管你的形状多奇葩，最后我们都能把它分到同一个簇当中。

其次，我们可以想一下那些异常点，它偏离正常对象很多，所以它既不是核心对象，然后对其它的点又不是密度可达的，所以最后就被剩了出来没被分类。因此DBSCAN算法还有一定的剔除异常值的功能，当然里，这里也要注意，如果我们的sigma值太大或者m太小，还是会导致一些异常值浑水摸鱼混进某些簇里或者自成一类等等，总而言之，还是要根据分类的结果进行调参，寻找最佳的分类方式。

====================================================================

DPEAK算法

密度最大值算法可以看成是基于以上两种算法的一种拓展吧，它的主要优势在于确定簇中心和排除异常值。

具体的做法怎么做呢，我们首先给定一个半径范围r，然后对我们所有的样本，计算它的r邻域内的样本数目记作它的局部密度记作rho，第二步，计算每个样本到密度比它高的点的距离的最小值记作sigma，有了这两个参数就可以进行我们下一步的筛选工作了，具体分成以下四种情况：

1 rho很小，sigma很大。这个样本周围的样本量很小，但是到比它密度大的点的距离还挺远的，这说明啥，它是个远离正常样本的异常值啊，在偏僻的小角落里搞自己的小动作啊，果断踢了它呀。

2 rho很大，sigma也很大。这个样本周围样本量很大，并且要找到比它密度还大的点要好远好远，这说明这个点是被众星环绕的啊，它就是这个簇的王，我们往往把它确定为簇中心。

3 rho很小，sigma也很小。样本周围的样本量很小，但要找到样本密度比它大的点没多远就有，说明这个点是一个处在边缘上的点，往往是一个簇的边界。

4 rho很大，sigma很小。该样本周围的样本量很大，但是密度比它还大的居然也不远，这种情况只会发生在你处在了簇中心的旁边时，很可惜，也许你是这个簇的核心成员，但你做不了这个簇的王。

好的，基于每个样本的rho和sigma，我们大概就能确定它们各自的所扮演的角色了，我们把大反派异常值从样本中剔除，然后把我们找到的rho和sigma都很大的点作为簇中心，再利用K-Means或者DBSCAN算法进行聚类就能得到相对比较好的结果。

====================================================================

谱聚类

这是要说的最后一种聚类算法了，我发现今天讲聚类公式确实不多，但是打字也好累啊！！！

谱聚类是一种基于图论的一种聚类方法，我希望通过一种比较直观的方式给大家解释清楚它到底在干什么。

首先引入几个概念，谱聚类肯定要讲什么是谱，还有就是相似度矩阵，度矩阵和拉普拉斯矩阵。

谱：方阵的特征值（不是方阵的话就是左乘其转置所得方阵的特征值）称之为谱，其中最大值称为谱半径。

相似度矩阵W：n个样本则建立一个n*n的矩阵，矩阵第i行第j列的值为第i个样本和第j个样本的某种相似度。

度矩阵D：一个n*n的对角阵，第i行第i列的值为相似度矩阵中第i行的所有值之和。

拉普拉斯矩阵L：度矩阵减去相似度矩阵即为拉普拉斯矩阵。

好了，基于以上这些概念，我们来考虑这样一种情况。对于这样m个样本，它们是属于同一类的，那么它们是不是可以建立一个m*m的相似度矩阵W，该矩阵还是个对称阵，紧接着可以求得它的度矩阵和拉普拉斯矩阵，巧就巧在这个矩阵是个半正定的，证明如下

机器学习笔记（九）聚类算法及实践（K-Means,DBSCAN,DPEAK,Spectral_Clustering）_第4张图片

所以拉普拉斯矩阵的特征值大于等于0。从度矩阵的定义我们知道，它的对角元素等于相似度矩阵每一行的和，因此拉普拉斯矩阵乘以一个全1的向量得到全为0的一个列向量，因此拉普拉斯矩阵存在一个0的特征值，对应特征向量为全1向量，也就是说

同样的假如有另外一个类的n个样本，同样的，对于它而言，有

假设这两个类的样本毫无相似度，那么它们两个样本混合在一起的相似度矩阵可以表示为

我们已经知道Lm和Ln对应于特征值0的特征向量了，那么可以求得L对于m的两个特征向量

机器学习笔记（九）聚类算法及实践（K-Means,DBSCAN,DPEAK,Spectral_Clustering）_第5张图片

那么我们可以明显的看到，对应于L最小特征值0的两个特征向量可以明显的把两个种类分开，所以推广开来我们就知道，通过拉普拉斯矩阵最小的K个特征值对应的特征向量进行聚类，我们就能确定对应的样本所属的类别。当然现实情况中不可能像我们推导的这么美丽，全1全0的情况很少出现，因为样本之间多多少少有些藕断丝连的关系，但据此对特征向量进行聚类就已经能确定样本所属的种类，这就是我们所说的谱聚类。

最后重复一下谱聚类的算法过程

1 计算相似度矩阵，度矩阵及拉普拉斯矩阵。

2 计算拉普拉斯矩阵前K小的特征值对应的特征向量。

3 将这K个特征向量组成一个新的矩阵，对其行向量进行聚类。

4 行向量的聚类结果代表了原始样本的聚类结果。

====================================================================

好了，这大概就是我今天想讲的算法的所有内容了，下面就是喜闻乐见的调包环节了，前面被用烂的鸢尾花数据今天终于派不上用场了，所以第一步我们先造一点数据看看

import numpy as np
import matplotlib.pyplot as plt
import sklearn.datasets as ds
import matplotlib.colors
#造数据
N=500
centers=4
data,y=ds.make_blobs(N,centers=centers,random_state=0)
#原始数据分布
matplotlib.rcParams['font.sans-serif'] = [u'SimHei']
matplotlib.rcParams['axes.unicode_minus'] = False
cm = matplotlib.colors.ListedColormap(list('rgbm'))
plt.scatter(data[:,0],data[:,1],c=y,cmap=cm)
plt.title(u'原始数据分布')
plt.grid()
plt.show()

结果如下

机器学习笔记（九）聚类算法及实践（K-Means,DBSCAN,DPEAK,Spectral_Clustering）_第6张图片

OK，我们先用K-Means试试

#K-Means
from sklearn.cluster import KMeans
model=KMeans(n_clusters=4,init='k-means++')
y_pre=model.fit_predict(data)
plt.scatter(data[:,0],data[:,1],c=y_pre,cmap=cm)
plt.title(u'K-Means聚类')
plt.grid()
plt.show()

结果是

机器学习笔记（九）聚类算法及实践（K-Means,DBSCAN,DPEAK,Spectral_Clustering）_第7张图片

分类结果相当之好啊，除了局部靠的比较近的几个点小有错误，整体还是叫人满意的。但不知道少年你是否还记得我之前说的，K-Means有个先验条件，它是假设数据满足方差相同的高斯分布的，所以我们故意使这些数据的方差不同来看看聚类效果是否会大受影响

#方差不等数据
data2,y2=ds.make_blobs(N,centers=centers,cluster_std=(2,2,5,8),random_state=0)
plt.scatter(data2[:,0],data2[:,1],c=y2,cmap=cm)
plt.title(u'原始数据分布')
plt.grid()
plt.show()
model2=KMeans(n_clusters=4,init='k-means++')
y_pre2=model2.fit_predict(data2)
plt.scatter(data2[:,0],data2[:,1],c=y_pre2,cmap=cm)
plt.title(u'K-Means聚类')
plt.grid()
plt.show()

结果如下

机器学习笔记（九）聚类算法及实践（K-Means,DBSCAN,DPEAK,Spectral_Clustering）_第9张图片

果然，聚类后的数据是一坨一坨那种，并不能把原始数据中间那两类分开，所以这也验证了我们之前讲的K-Means还是有其局限性的。

好啦，今天打了好多字呀……祝大家周末愉快，have a nice day~

Python 机器学习基础之学习基础环境搭建仙魁XAN Python 机器学习基础+实战案例 python 学习开发语言机器学习 machine learning
Python机器学习基础之学习基础环境搭建目录Python机器学习基础之学习基础环境搭建一、简单介绍二、什么是机器学习三、python环境的搭建1、Python安装包下载2、这里以下载Python3.10.9为例3、安装Python3.10.94、检验python是否安装成功，win+R快捷打开运行，输入cmd，打开cmd四、Pycharm环境搭建1、下载Pycharm安装包2、安装Pycharm
【机器学习】主成分分析法（PCA）若兰幽竹机器学习机器学习信息可视化人工智能
【机器学习】主成分分析法（PCA）一、摘要二、主成分分析的基本概念三、主成分分析的数学模型五、主成分分析法目标函数公式推导（`梯度上升法`求解目标函数）六、梯度上升法求解目标函数第一个主成分七、求解前n个主成分及PCA在数据预处理中的处理步骤（后续实现）一、摘要本文主要讲述了主成分分析法（PCA）的原理和应用。PCA通过选择最重要的特征，将高维数据映射到低维空间，同时保持数据间的关系，实现降维和去
深入探索 PyTorch 在语音识别中的应用 Zoro｜ PyTorch Deep Learning 机器学习 pytorch 语音识别人工智能
深入探索PyTorch在语音识别中的应用在本篇博客中，我将分享如何使用PyTorch进行语音识别任务，重点围绕环境配置、数据预处理、特征提取、模型设计以及模型比较展开。本文基于最近一次机器学习作业（HW2）的任务内容，任务目标是对语音信号进行逐帧音素预测，从而完成多类别分类任务。一、介绍任务背景任务目标：利用深度神经网络对语音信号进行逐帧音素预测。音素定义：音素是语音中能够区分单词的最小语音单位。
MNIST数据集&手写数字识别 Zoro｜ keras tensorflow 人工智能机器学习
TensorFlow是一个开源的机器学习框架，由Google开发并发布。它提供了一种基于数据流图的编程模型，用于构建和训练机器学习模型。TensorFlow的核心概念是张量（Tensor）和流图（Graph）。张量是TensorFlow中的基本数据单位，可以理解为多维数组，可以是标量、向量、矩阵或更高维度的数组。流图是由一系列操作（Operation）和张量组成的。操作定义了计算和转换张量的方式。
OpenLSD是一个自适应开源数据集，旨在支持逻辑综合中的多种机器学习任务。数据集
2024-11-14，由中国科学院计算技术研究所、鹏城实验室和北京大学等联合创建OpenLSD数据集，目的为逻辑综合过程中的机器学习任务提供一个自适应的数据集生成框架。该数据集的核心研究问题是如何在逻辑综合的三个基本步骤——布尔表示、逻辑优化和技术映射中，通过机器学习方法提升效率和质量。一、研究背景：逻辑综合是电子设计自动化（EDA）流程中的关键环节，它负责将高级设计规范转化为门级网络列表。近年来
【Python】测试数据生成工具 --- Faker pythonfaker数据分析
Faker库介绍Faker是一个强大的库，能够帮助开发者和测试人员生成大量的假数据，但这些数据看起来却非常真实。它支持生成多种类型的数据，如姓名、地址、公司名称、电子邮件等，甚至能够根据不同国家的特定文化生成相应的数据。Faker的应用不仅限于测试，它还广泛应用于数据分析、机器学习训练集的准备以及任何需要大量样本数据的场景。Faker安装前提：已安装python、pip安装命令如下：pipinst
深度学习框架PyTorch——从入门到精通（4）数据转换 Fansv587 Torch框架学习深度学习 pytorch 人工智能 python 经验分享
转换（Transforms）很多时候，数据并不总是以训练机器学习算法所需的最终处理形式出现。所以我们需要使用变换对数据进行一些处理，使其适合训练。所有TorchVision数据集都有两个参数——transform来修改特征，target_transform来修改标签——接受包含转换逻辑的可调用项。torchvision.transform模块提供了几个开箱即用的转换。FashionMNIST数据集
机器学习线性回归学习心得_线性回归为机器学习的初学者解释 weixin_26750481 机器学习 python 人工智能逻辑回归深度学习
机器学习线性回归学习心得Datasciencewiththekindofpoweritgivesyoutoanalyzeeachandeverybitofdatayouhaveatyourdisposal,tomakesmart&intelligentbusinessdecisions,isbecomingamust-havetooltounderstandandimplementinyouror
统计机器学习 (Statistical Machine Learning) 原理与代码实例讲解 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
统计机器学习(StatisticalMachineLearning)原理与代码实例讲解1.背景介绍统计机器学习是现代人工智能和数据科学的核心领域之一。它结合了统计学和计算机科学的理论与方法，通过数据驱动的方式来构建预测模型和决策系统。统计机器学习不仅在学术研究中占据重要地位，还在工业界有广泛应用，如推荐系统、图像识别、自然语言处理等。2.核心概念与联系2.1统计学与机器学习的关系统计学关注数据的收
【python 机器学习】sklearn数据集的使用人才程序员 python 机器学习 sklearn 人工智能深度学习神经网络目标检测
文章目录sklearn数据集的使用1.`sklearn`内置数据集2.导入`sklearn`数据集3.加载和使用Iris数据集3.1加载数据3.2查看数据3.3使用数据集进行分类任务4.加载和使用Digits数据集4.1加载数据4.2查看数据4.3使用数据集进行分类任务5.加载和使用BreastCancer数据集5.1加载数据5.2查看数据5.3使用数据集进行分类任务6.总结sklearn数据集的
消融实验（Ablation Study） xwhking 深度学习机器学习深度学习消融实验
消融实验（AblationStudy）定义：消融实验是一种科学研究方法，通过逐步移除模型、算法或系统中的某个组件（如模块、层、特征、数据等），观察其对整体性能的影响，从而验证该组件的必要性和有效性。其名称来源于医学领域的“消融术”（切除部分组织以研究功能），在计算机视觉、机器学习和深度学习中被广泛用于分析模型设计。为什么要做消融实验？1.验证组件的有效性核心目的：确认模型中某个设计（如注意力机制、
【Conda与Pip的完美融合】在Conda环境中优雅使用pip指南 2401_85702623 conda pip python
标题：【Conda与Pip的完美融合】在Conda环境中优雅使用pip指南Conda是一个强大的包管理器和环境管理器，广泛用于Python社区，尤其是在数据科学和机器学习领域。尽管Conda本身可以处理大多数包的安装和管理，但有时我们可能仍需使用pip来安装特定的Python包。本文将详细解释如何在Conda环境中使用pip，包括配置、安装包、环境管理等，确保您可以充分利用这两个工具的优势。1.C
量子计算+AI：未来AI Agent的计算范式 AI天才研究院计算 ChatGPT DeepSeek RL 强化学习 agent agi 推理模型智能驾驶
量子计算+AI：未来AIAgent的计算范式关键词：量子计算，人工智能，AIAgent，量子算法，量子机器学习，量子优化，量子数据处理摘要：量子计算和人工智能（AI）的结合正在改变AIAgent的计算范式。通过量子计算的超强算力和独特性质，AIAgent在数据处理、算法优化和决策能力方面展现出巨大潜力。本文将详细探讨量子计算与AI结合的核心概念、算法原理、系统架构，并通过实际案例展示量子AIAge
AI人工智能深度学习算法：搭建可拓展的深度学习模型架构 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据 java python javascript kotlin golang 架构人工智能
深度学习、模型架构、可拓展性、神经网络、机器学习1.背景介绍深度学习作为人工智能领域最前沿的技术之一，在图像识别、自然语言处理、语音识别等领域取得了突破性的进展。深度学习模型的成功离不开其强大的学习能力和可拓展性。本文将深入探讨深度学习算法的原理、模型架构设计以及可拓展性的关键要素，并通过代码实例和实际应用场景，帮助读者理解如何搭建可拓展的深度学习模型架构。2.核心概念与联系深度学习的核心概念是人
机器学习之向量化珠峰日记 AI理论与实践机器学习人工智能
文章目录向量化是什么为什么要向量化提升计算效率简化代码与增强可读性适配模型需求怎么做向量化数据预处理特征提取特征选择向量构建机器学习与深度学习中向量化的区别数据特征提取方式机器学习深度学习模型结构与复杂度机器学习深度学习计算资源需求机器学习深度学习数据规模适应性机器学习深度学习向量化是什么向量化是把数据转化为向量形式进行表示与处理的过程。在机器学习与深度学习的范畴内，现实中的各类数据，像文本、图像
从零精通机器学习：线性回归入门吴师兄大模型 0基础实现机器学习入门到精通机器学习线性回归人工智能 python 算法回归开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
聊聊Python都能做些什么 ·零落· Python入门到掌握 python 开发语言
文章目录一、Python简介二、Python都能做些什么1.Web开发2.数据分析和人工智能3.自动化运维和测试4.网络爬虫5.金融科技三、Python开源库都有哪些1.Web开发2.数据分析和科学计算3.机器学习和深度学习4.网络爬虫5.自动化和测试6.其他常用库四、相关链接一、Python简介Python是一种解释型、面向对象、动态数据类型的高级程序设计语言。它最初由GuidovanRossu
基于改进ISODATA算法的负荷场景曲线聚类（matlab代码）电力程序小学童聚类 matlab ISODATA算法风电光伏
目录1主要内容聚类中心选取步骤核方法2部分代码3程序结果4程序链接1主要内容程序复现文献《基于机器学习的短期电力负荷预测和负荷曲线聚类研究》第三章《基于改进ISODATA算法的负荷场景曲线聚类》模型，该方法不止适用于负荷聚类，同样适用于风光等可再生能源聚类，只需要改变聚类的数据即可，该方法的通用性和可创新性强。该代码实现一种基于改进ISODATA算法的负荷场景曲线聚类方法，代码中，主要做了四种聚类
《基于机器学习的负荷曲线聚类算法对比与改进：K-L-isodata的创新性研究》 TWHiwhjig 机器学习算法聚类
基于机器学习的负荷曲线聚类包括kmeansisodata和改进的L-isodata以及在其基础上再次进行改进的K-L-isodata(有创新性)，四者通过评价指标进行了对比精品代码可修改性极高有参考文献ID:93150688324967700自律的电气人基于机器学习的负荷曲线聚类是一种基于数据分析和模式识别的技术，它可以帮助我们对系统的负荷变化进行分类和理解。在负荷曲线聚类的研究中，K-means
机器学习Pandas_learn4 XW-ABAP 机器学习机器学习 pandas 人工智能
importpandasaspddefcalculate_goods_covariance():#定义商品销售数据字典goods_sales_data={"时期":["一期","二期","三期","四期"],"苹果":[15,16,3,2],"橘子":[12,14,16,18],"石榴":[11,8,7,1]}#将字典转换为DataFrame对象goods_dataframe=pd.DataFra
如何使用Python对Excel、CSV文件完成数据清洗与预处理？ Python 集中营 python数据分析应用 python excel 开发语言
在数据分析和机器学习项目中，数据清洗与预处理是不可或缺的重要环节。现实世界中的数据往往是不完整、不一致且含有噪声的，这些问题会严重影响数据分析的质量和机器学习模型的性能。Python作为一门强大的编程语言，提供了多种库和工具来帮助我们高效地完成数据清洗与预处理任务，其中最常用的库包括Pandas、NumPy、SciPy等。本文将详细介绍如何使用Python对Excel和CSV格式的数据文件进行清洗
理解深度学习1-简介 shangjg3 PyTorch深度学习实战深度学习人工智能
人工智能（AI）旨在打造模仿智能行为的系统。它覆盖了众多方法，涵盖了基于逻辑、搜索和概率推理的技术。机器学习是AI的一个分支，它通过对观测数据进行数学模型拟合来学习决策制定。这个领域近年来迅猛发展，现在几乎（虽不完全准确）与AI同义。深度神经网络是一类机器学习模型，将其应用到数据上的过程称为深度学习。目前，深度网络是最强大和最实用的机器学习模型之一，常见于日常生活中。我们常常用自然语言处理（Nat
【Java】已解决：`java.sql.SQLSyntaxErrorException: SQL` 屿小夏 java sql 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
AIGC带来数据革命：R语言如何成为数据科学家的秘密武器？程序边界 AIGC r语言开发语言
文章目录一、R语言的基础特性1.1R语言的起源与发展1.2R语言的核心优势二、R语言在AIGC中的应用场景2.1数据预处理与清洗2.2文本分析与生成2.3机器学习与模型构建2.4数据可视化与报告生成三、R语言在AIGC中的具体案例3.1金融数据分析与预测3.2医疗数据分析与建模3.3社交媒体数据分析与情感分析四、R语言在AIGC中的未来展望4.1与深度学习框架的集成4.2与云计算平台的集成4.3与
运维Tips | Ubuntu 24.04 安装配置 samba 文件共享全栈工程师修炼指南企业IT运维实践运维 ubuntu linux 服务器
[知识是人生的灯塔，只有不断学习，才能照亮前行的道路]Ubuntu24.04安装配置samba文件共享描述：我们将Ubuntu24.04作为机器学习的工作站，往往需要将Ubuntu24.04中的数据或者代码共享给我们其他使用Windows系统的小伙伴，此时我们可以使用SAMBA，开辟出一个文件共享目录供大家进行数据交换使用。SAMBA是什么?在Linux中，SAMBA是一个开源的软件套件，它提供了
人工智能与机器学习入门：基尼系数（Gini Index）和基于熵（Entropy）基尼系数基于熵机器学习入门
在决策树应用一文中，在构建决策分类树应用决策算法时，介绍了基尼系数（GiniIndex）和基于熵（Entropy）两种算法。本文通过实例来更加深入的介绍一下这两个算法。仍然以简单的数据为例：id喜欢颜色是否有喉结身高性别1绿否165女2蓝是170男3粉否172女4绿是175男基尼系数分别对喜欢颜色是否有喉结求基尼系数如下：喜欢的颜色id喜欢颜色性别1绿女2蓝男3粉女4绿男对于姓别女分类而言，数据如
构建未来智能：在Mojo模型中自定义模型架构的艺术 2401_85761003 mojo 架构
构建未来智能：在Mojo模型中自定义模型架构的艺术在深度学习的世界里，模型架构的设计往往决定了算法的性能和适用性。Mojo模型，作为一个假想中的高级机器学习框架，允许用户实现自定义的模型架构来解决特定的问题。本文将深入探讨如何在Mojo模型中实现自定义模型架构，并提供详细的步骤和代码示例，以帮助读者掌握这一强大的技术。自定义模型架构的重要性灵活性自定义模型架构提供了设计适合特定问题需求的模型的灵活
最新计算机专业毕设论文选题大全基于BeautifulSoup的毕业设计详细题目100套优质毕设项目分享(源码+论文)✅ 会写代码的羊毕设选题课程设计 beautifulsoup 毕业设计毕业设计题目毕设题目 python 网络爬虫
文章目录前言最新毕设选题（建议收藏起来）基于BeautifulSoup的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费
如果我想成为一名大数据和算法工程师，我需要学会哪些技能，获取大厂的offer 红豆和绿豆杂谈大数据算法
成为一名大数据和算法工程师并获取大厂Offer，需要掌握一系列核心技能，并具备丰富的项目经验与扎实的理论基础。以下是详细的技能要求和建议：---###**1.数学与理论基础**-**数学知识**：掌握线性代数、微积分、概率论和统计学，这些是设计和理解算法的基础。-**机器学习理论**：深入理解常见机器学习算法（如线性回归、逻辑回归、决策树、随机森林、SVM、K-means等），了解其原理、优缺点及
关于非线性优化小记文弱_书生乱七八糟算法
非线性优化（NonlinearOptimization）1.什么是非线性优化？非线性优化是指目标函数或约束条件中至少有一个是非线性的优化问题。它广泛应用于工程、经济、人工智能、机器学习等领域，用于求解最优解的问题。非线性优化通常可以表示为以下数学形式：min⁡xf(x)或max⁡xf(x)\min_{x}f(x)\quad\text{或}\quad\max_{x}f(x)xminf(x)或xmax
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http

机器学习笔记（九）聚类算法及实践（K-Means,DBSCAN,DPEAK,Spectral_Clustering）

你可能感兴趣的:(机器学习)