我是管小亮 :)

《机器学习》周志华西瓜书学习笔记（九）：聚类

【机器学习】《机器学习》周志华西瓜书笔记/习题答案总目录

https://blog.csdn.net/TeFuirnever/article/details/96178919

——————————————————————————————————————————————————————

聚类

在 无监督学习（unsupervised learning） 中，常见的无监督学习任务还有 密度估计(densityestimation)、异常检测(anomaly detection) 等，训练样本的标记信息是未知的，目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律，为进一步的数据分析提供基础。这类学习任务中研究最多、应用最广的是 聚类（clustering）。

这一章的内容大致如下：

聚类任务：聚类过程是怎样的？聚类有什么用途？聚类的两个基本问题是什么？
性能度量：聚类的目标是什么？聚类性能度量的两大类指什么？各包含哪些度量指标？
距离计算：距离度量需要满足哪些基本性质？怎样度量有序属性？怎样度量无序属性？相似度度量和距离度量有什么区别？
原型聚类：什么是原型聚类？k均值算法是怎样的？学习向量量化算法是怎样的？高斯混合聚类是怎样的？
密度聚类：什么是密度聚类？DBSCAN算法是怎样的？
层次聚类：什么是层次聚类？AGNES算法是怎样的？

聚类任务

聚类试图将数据集中的样本划分为若干个通常是不相交的子集，每个子集称为一个 簇（cluster）。通过这样的划分，每个簇可能对应于一些潜在的概念(类别) ，所以对聚类算法而言，样本簇亦称类。通常来说每个簇可能对应一些特征，比方说音乐可以聚类成古典音乐、摇滚乐、流行乐等等，西瓜就是如"浅色瓜"、“深色瓜”，“有籽瓜”、“无籽瓜”，甚至"本地瓜"、"外地瓜"等。需说明的是，这些概念对聚类算法而言事先是未知的，聚类过程仅能自动形成簇结构，簇所对应的概念语义需由使用者来把握和命名。
形式化地说，假定样本集 $D = \{x_1，x_2，...，x_m \}$ 包含 $m$ 个无标记样本，每个样本 $x_i = (x_{i1}; x_{i2};... ; x_{in})$ 是一个 $n$ 维特征向量，则聚类算法将样本集 $D$ 划分为 $k$ 个不相交的簇 ${C | l= 1, 2, ..., k\}$ ，其中

相应地，我们用

表示样本 $x_j$ 的 簇标记(cluster label) ，即

于是，聚类的结果可用包含 $m$ 个元素的簇标记向量 $λ=(λ_1; λ_2; ... ; λ_m)$ 表示。

基于不同的学习策略，人们设计出多种类型的聚类算法。简单来说，聚类可以分为两种用途：

作为一个单独过程，用于寻找数据内在的分布结构；
作为其他学习任务的前驱过程，比方说根据聚类结果定义类标记，然后再进行分类学习；

聚类算法的两大基本问题是 性能度量 和 距离计算。

性能度量

聚类性能度量 亦称 聚类有效性指标(validity index)。与监督学习中的性能度量作用相似，对聚类结果，需通过某种性能度量来评估其好坏；另一方面，若明确了最终将要使用的性能度量，则可直接将其作为聚类过程的优化目标，从而更好地得到符合要求的聚类结果。

聚类是将样本集 $D$ 划分为若干互不相交的子集，即 样本簇。那么，什么样的聚类结果比较好呢？

直观上看，借用古成语，我们希望"物以类聚"，即同一簇的样本尽可能彼此相似，不同簇的样本尽可能不同。换言之，聚类结果的 簇内相似度(intra-cluster similarity) 高且 簇间相似度(inter-cluster similarity) 低。

聚类性能度量大致有两类：

一类是将聚类结果与某个 参考模型(reference model) 进行比较（例如将领域专家给出的划分结果作为参考模型），称为 外部指标(external index)；
另一类是直接考察聚类结果而不利用任何参考模型，称为 内部指标(internal index)。

对数据集 $D = \{x_1，x_2，...，x_m\}$ ，假定通过聚类给出的簇划分为 $C = \{C_1，C_2，...，C_k\}$ ；参考模型给出的簇划分为 $C^* = \{C_1^*，C_2^*，...，C_s^*\}$ 。相应地，令 $λ$ 与 $λ^*$ 分别表示与 $C$ 和 $C^*$ 对应的簇标记向量。把样本两两配对考虑，定义：

其中集合 $S S$ 包含了在 $C$ 中隶属于相同簇且在 $C^*$ 中也隶属于相同簇的样本对，集合 $S D$ 包含了在 C 中隶属于相同簇但在 $C^*$ 中隶属于不同簇的样本对，…由于每个样本对 $x_i，x_j) (i < j)$ 仅能出现在一个集合中，因此有 $α + b + c + d = m (m - 1) / 2$ 成立。

基于式 (9.1 ) ~ (9.4)，可导出下面这些常用的聚类性能度量外部指标：

Jaccard 系数(Jaccard Coefficient ，简称JC)

解析：

南瓜书——https://datawhalechina.github.io/pumpkin-book/#/

FM 指数(Fowlkes and Mallows lndex，简称FMI)

解析：

南瓜书——https://datawhalechina.github.io/pumpkin-book/#/

Rand 指数(Rand Index，简称RI)

解析：

南瓜书——https://datawhalechina.github.io/pumpkin-book/#/

显然，上述性能度量的结果值均在 [0，1] 区间，值越大越好。

考虑聚类结果的簇划分 $C=\{C_1，C_2，…，C_k\}$ ，定义：

其中， $d i s t (\cdot ， \cdot)$ 用于计算两个样本之间的距离； $μ$ 代表簇 $C$ 的中心点：

显然， $a v g (C)$ 对应于簇 $C$ 内样本间的平均距离， $d i a m (C)$ 对应于簇 $C$ 内样本间的最远距离， $d_{min}(C_i, C_j)$ 对应于簇 $C_i$ 与簇 $C_j$ 最近样本间的距离， $d_{cen}(C_i，C_j)$ 对应于簇 $C_i$ 与簇 $C_j$ 中心点间的距离。

基于这四个式子，可导出下面这些常用的聚类性能度量内部指标：

DB 指数(Davies-Bouldin Index，简称DBI)
Dunn 指数(Dunn Index，简称DI)

显然， DBI 的值越小越好，而 DI 则相反，值越大越好。

距离计算

对函数 $d i s t (\cdot ， \cdot)$ ，若它是一个 距离度量(distance measure)，则需满足一些基本性质：

直递性常被直接称为"三角不等式"

给定样本 $x_i = (x_{i1}; x_{i2};... ;x_{in})$ 与 $x_j = (x_{j1}; x_{j2};... ;x_{jn})$ ，最常用的是 闵可夫斯基距离(Minkowski distance)。

对 p >= 1，上式显然满足。

当 p = 2 时，闵可夫斯基距离 即 欧氏距离(Euclidean distance)。

p -> ∞ 时则得到 切比雪夫距离。

p = 1 时，闵可夫斯基距离 即 曼哈顿距离(Manhattan distance)，亦称 街区距离(city block distance)

属性经常划分为 连续属性(continuous attribute)，亦称 数值属性(numerical att巾ute)；和 离散属性(categorical attribute)，亦称 列名属性(nominal attribute)。前者在定义域上有无穷多个可能的取值，后者在定义域上是有限个取值。

然而，在讨论距离计算时，属性上是否定了"序"关系更为重要。例如定义域为 {1 ， 2 ， 3} 的离散属性与连续属性的性质更接近一些，能直接在属性值上计算距离 “1” 与 “2” 比较接近、与"3" 比较远，这样的属性称为 有序属性(ordinal attribute); 而定义域为 {飞机，火车，轮船} 这样的离散属性则不能直接在属性值上计算距离，称为 无序属性(non-ordinal attribute)。显然，闵可夫斯基距离可用于有序属性。

对无序属性可采用 VDM (Value Difference Metric)。令 $m_{u,a}$ 表示在属性 $u$ 上取值为 $a$ 的样本数， $m_{u, a, i}$ 表示在第 $i$ 个样本簇中在属性 $u$ 上取值为 $a$ 的样本数， $k$ 为样本簇数（样本类别已知时 $k$ 通常设置为类别数），则属性 $u$ 上两个离散值 $a$ 与 $b$ 之间的 VDM 距离为

于是，将闵可夫斯基距离和 VDM 结合即可处理混合属性。假定有 $n_c$ 个有序属性、 $n - n_c$ 个无序属性，不失一般性，令有序属性排列在无序属性之前，则

当样本空间中不同属性的重要性不同时，可使用 加权距离(weighted distance)。以加权闵可夫斯基距离为例：

其中权重 $w_i$ 表征不同属性的重要性，通常

原型聚类

原型聚类 亦称 基于原型的聚类(prototype~ based clustering)，原型是指样本空间中具有代表性的点。此类算法假设聚类结构能通过一组原型刻画，在现实聚类任务中极为常用。通常情形下，算法先对原型进行初始化，然后对原型进行迭代更新求解。采用不同的原型表示、不同的求解方式，将产生不同的算法，下面介绍几种著名的原型聚类算法。

k 均值算法

给定样本集 $D = \{x_1, x_2, ... ,x_m\}$ ，k 均值(k-means ) 算法针对聚类所得簇划分 $C = \{C_1, C_2,..., C_k\}$ 最小化平方误差

其中簇 $C_i$ 的均值向量如下：

直观来看，上式在一定程度上刻画了簇内样本围绕簇均值向量的紧密程度， $E$ 值越小，则簇内样本相似度越高。

最小化式 $E$ 并不容易，找到它的最优解需考察样本集 D 所有可能的簇划分，这是一个 NP 难问题。因此，k 均值算法采用了贪心策略，通过迭代优化来近似求解式 $E$ 。算法流程如下：

其中第 1 行对均值向量进行初始化，在第 4-8 行与第 9一16 行依次对当前簇划分及均值向量选代更新，若迭代更新后聚类结果保持不变，则在第 18 行将当前簇划分结果返回。

学习向量量化

与 k 均值算法类似，学习向量量化(Learning Vector Quantization，简称LVQ) 也是试图找到一组原型向量来刻画聚类结构，但与一般聚类算法不同的是， LVQ 假设数据样本带有类别标记，学习过程利用样本的这些监督信息来辅助聚类。

给定样本集 $D = \{(x_1, y_1), (x_2，y_2)，..., (x_m, y_m)\}$ ，每个样本 $x_j$ 是由 $n$ 个属性描述的特征向量 $x_{j1}; x_{j2}; ...; x_{jn})$ 。

样本 $x_j$ 的类别标记如下

LVQ 的目标是学得一组 $n$ 维原型向量 ${p_1, p_2, . . .，p_q\}$ ，每个原型向量代表一个聚类簇，簇标记

LVQ 算法描述如下图所示：

算法第 1 行先对原型向量进行初始化，例如对第 $q$ 个簇可从类别标记为 $t_q$ 的样本中随机选取一个作为原型向量。算法第 2 - 12 行对原型向量进行迭代优化。在每一轮选代中，算法随机选取一个有标记训练样本，找出与其距离最近的原型向量，井根据两者的类别标记是否一致来对原型向量进行相应的更新。第5 行是竞争学习的"胜者为王"策略。SOM 是基于元标记样本的聚类算法，而 LVQ 可看作 SOM 基于监督信息的扩展。在第 12 行中，若算法的停止条件已满足(例如己达到最大迭代轮数，或原型向量更新很小甚至不再更新)，则将当前原型向量作为最终结果返回。

显然， LVQ 的关键是第 6-10 行，即如何更新原型向量。直观上看，对样本 $x_j$ ，若最近的原型向量 $p$ 与 $x_j$ 的类别标记相同，则令 $p_i^*$ 向 $x_j$ 的方向靠拢，如第7 行所示，此时新原型向量为

$p^{'}$ 与 $x_j$ 之间的距离为

令学习率 $η$ 的区间为 $(0 ， 1)$ ，则原型向量 $p^*$ 在更新为 $p^{'}$ 之后将更接近 $x_j$ 。

类似的，若 $p^*$ 与 $x_j$ 的类别标记不同，则更新后的原型向量与 $x_j$ 之间的距离将增大为

从而更远离 $x_j$ 。

在学得一组原型向量 ${p_1, p_2, ..., p_q\}$ 后，即可实现对样本空间 $X$ 的簇划分。对任意样本 $x$ ，它将被划入与其距离最近的原型向量所代表的簇中；换言之，每个原型向量 $p_i$ 定义了与之相关的一个区域 $R_i$ ，该区域中每个样本与 $p_i$ 的距离不大于它与其他原型向量

的距离，即

由此形成了对样本空间 $X$ 的簇划分 ${R_1, R_2, …, R_q\}$ ，该划分通常称为 Voronoi剖分(Voronoi tessellation)。

高斯混合聚类

高斯混合聚类与 k 均值、LVQ 用原型向量来刻画聚类结构不同，高斯混合(Mixture-of-Gaussian)聚类 采用概率模型来表达聚类原型。

先简单回顾一下(多元)高斯分布的定义。对 $n$ 维样本空间 $X$ 中的随机向量 $x$ ，若 $x$ 服从高斯分布，其橄率密度函数为

其中 $μ$ 是 $n$ 维均值向量，是 $n * n$ 的协方差矩阵。由这个式子可以看出，高斯分布完全由均值向量和协方差矩阵这两个参数确定。为了明确显示高斯分布与相应参数的依赖关系，将概率密度函数记为

定义高斯混合分布：

该分布共由k 个混合成分组成，每个混合成分对应一个高斯分布。相应的 混合系数(mixture coefficient) 如下：

假设样本 $D = \{x_1，x_2，…，x_m\}$ 的生成过程由高斯混合分布给出，令随机变量 $z_j$ , $j = \{1，2, ..., k\}$ 表示生成样本 $x_j$ 的高斯混合成分，其取值未知。显然， $z_j$ 的先验概率 $P(z_j = i)$ 对应于 $α_i(i=1，2, …, k)$ 。根据贝叶斯定理， $z_j$ 的后验分布对应于：

换言之，上式子给出了样本 $x_j$ 由第 $i$ 个高斯混合成分生成的后验概率。为方便叙述，将其简记为

当高斯混合分布己知时，高斯混合聚类将把样本集 $D$ 划分为 $k$ 个簇 $C_k$ ，每个样本 $x_j$ 的簇标记 $\lambda_j$ 如下确定：

因此，从原型聚类的角度来看，高斯混合聚类是采用概率模型(高斯分布)对原型进行刻画，簇划分则由原型对应后验概率确定。那么模型参数如何求解呢?

可采用极大似然估计，即最大化(对数)似然：

常采用EM 算法进行迭代优化求解。

若参数能最大化似然函数，则由

有如下

解析：

南瓜书——https://datawhalechina.github.io/pumpkin-book/#/

又因为

故有

即各混合成分的均值可通过样本加权平均来估计，样本权重是每个样本属于该成分的后验概率。

类似的，由于

可得

解析：

南瓜书——https://datawhalechina.github.io/pumpkin-book/#/

对于混合系数，除了要最大化似然函数，还需满足系数本身非负且加和为1，考虑 $L L (D)$ 的拉格朗日形式

由上式对 $\alpha_i$ 的导数为0，有

两边同乘以 $\alpha_i$ ，对所有样本求和可知 $λ = - m$ ，有

解析：

南瓜书——https://datawhalechina.github.io/pumpkin-book/#/

即每个高斯成分的混合系数由样本属于该成分的平均后验概率确定。

由上述推导即可获得高斯混合模型的 EM 算法。

高斯混合聚类算法描述如下图所示：

算法第 1 行对高斯混合分布的模型参数进行初始化，然后在第 2-12 行基于 EM 算法对模型参数进行选代更新。若 EM 算法的停止条件满足(例如己达到最大法代轮数，或者似然函数 LL(D) 增长很少甚至不再增长) ，则在第 14-17 行根据高斯混合分布确定簇划分，在第 18 行返回最终结果。

密度聚类

密度聚类 亦称 基于密度的聚类(density-based clustering)，此类算法假设聚类结构能通过样本分布的紧密程度确定。通常情形下，密度聚类算法从样本密度的角度来考察样本之间的可连接性，并基于可连接样本不断扩展聚类簇以获得最终的聚类结果。

DBSCAN 是一种著君的密度粟类算法?它基于一组"邻域" (neighborhood)参数

来刻画样本分布的紧密程度。给定数据集 $D$ ，定义下面这几个概念：

上述概念的直观显示如下：

简单来说，就是字面意思，核心对象的核心，密度直达的直达，密度可达的可达，密度相连的相连，就好比集合之间的碰撞一下。

基于这些概念， DBSCAN 将"簇"定义为：由密度可达关系导出的最大的密度相连样本集合。形式化地说，给定邻域参数，簇 $C$ 是满足以下性质的非空样本子集：

那么，如何从数据集 $D$ 中找出满足以上性质的聚类簇呢?

实际上，若 $x$ 为核心对象，由 $x$ 密度可达的所有样本组成的集合记为 $X$

则不难证明 $X$ 即为满足连接性与最大性的簇。

于是， DBSCAN 算法先任选数据集中的一个核心对象为种子(seed)，再由此出发确定相应的聚类簇，算法描述如下所示：

在第 1-7 行中，算法先根据给定的邻域参数找出所有核心对象；然后在第 10-24 行中，以任一核心对象为出发点，找出由其密度可达的样本生成聚类簇，直到所有核心对象均被访问过为止。

层次聚类

层次聚类(hierarchical clustering) 试图在不同层次对数据集进行划分，从而形成树形的聚类结构。数据集的划分可采用 “自底向上” 的聚合策略，也可采用 “自顶向下” 的分拆策略。

AGNES 是一种采用自底向上聚合策略的层次聚类算法。它先将数据集中的每个样本看作一个初始聚类簇，然后在算法运行的每一步中找出距离最近的两个粟类簇进行合并，该过程不断重复，直至达到预设的聚类簇个数。这里的关键是如何计算聚类簇之间的距离。实际上，每个簇是一个样本集合，因此，只需采用关于集合的某种距离即可。例如，给定聚类簇 $C_i$ 与 $C_j$ ，可通过下面的式子来计算距离：

显然，最小距离由两个簇的最近样本决定，最大距离由两个簇的最远样本决定，而平均距离则由两个簇的所有样本共同决定。当聚类簇距离由 $d_{min}$ 、 $d_{max}$ 或 $d_{avg}$ 计算时， AGNES 算法被相应地称为 “单链接” (single-linkage)、“全链接” (complete-linkage) 或 “均链接” (average-linkage) 算法。

AGNES 算法描述如下图所示：

在第 1-9 行，算法先对仅含一个样本的初始聚类簇和相应的距离矩阵进行初始化；然后在第 11-23 行， AGNES 不断合
并距离最近的聚类簇，井对合并得到的聚类簇的距离矩阵进行更新;上述过程不断重复，直至达到预设的聚类簇数。

补充

聚类也许是机器学习中"新算法"出现最多、最快的领域一个重要原因是聚类不存在客观标准;给定数据集7 总能从某个角度找到以往算法未覆盖的某种标准从而设计出新算法。相对于机器学习其他分支来说，聚类的知识还不够系统化。因此著名教科书 [Mitchell，1997] 中甚至没有关于聚类的章节，但聚类技术本身在现实任务中非常重要！！！

聚类性能度量除上面的内容外，常见的还有：

F 值
互信息(mutual information)
平均廓宽(average silhouette width)等等

距离计算是很多学习任务的核心技术。间可夫斯基距离提供了距离计算的一般形式，除闵可夫斯基距离之外，内积距离、余弦距离等也很常用。

Python 学习第五册深度学习第1章什么是深度学习 weixin_38135241 python 学习深度学习人工智能
----用教授的方式学习。目录1.1人工智能、机器学习与深度学习1.1.1人工智能1.1.2机器学习1.1.3从数据中学习表示1.1.4深度学习之“深度”1.1.5用三张图理解深度学习的工作原理1.2深度学习之前：机器学习简史1.2.1概率建模1.2.2核方法1.2.3决策树、随机森林与梯度提升机1.2.4深度学习有何不同什么是深度学习？1.1人工智能、机器学习与深度学习三者关系：1.1.1人工智
珍藏！Java SpringBoot 精品源码合集约惠来袭，获取路径大公开秋野酱 java spring boot 开发语言
技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计、开题报告、任务书、中期检查PPT、系统功能实现、代码编写、论文编写和辅导、论文降重、长期答辩答疑辅导、腾讯会议一对一专业讲解辅导答辩、模拟答辩演练、和理解代码逻辑思路。文末获取源码联系文末获取源码联
机器学习驱动的智能化电池管理技术与应用满木悦电池化学机器人化学电池机器学习人工智能硕博研究生
在人工智能与电池管理技术融合的背景下，电池科技的研究和应用正迅速发展，创新解决方案层出不穷。从电池性能的精确评估到复杂电池系统的智能监控，从数据驱动的故障诊断到电池寿命的预测优化，人工智能技术正以其强大的数据处理能力和模式识别优势，推动电池管理领域的技术进步。据最新研究动态，目前在电池管理领域的人工智能应用主要集中在以下几个方面：1.状态估计：包括电池的荷电状态（SOC）和健康状态（SOH）的实时
梯度下降法理论理解伶星37 机器学习人工智能
梯度下降法：看似原始却透露着机器学习的本质前提：在研究梯度下降方法之前，你要理解矩阵运算（解析解）的方法矩阵运算目前的缺点只能进行对线性函数经行分析，无法对复杂的函数经行分析什么是梯度，以及梯度向量梯度下降的形象例子以及基本思想有三个兄弟被困在山上，得要死，他们目标是看谁尽快找到山谷中的水源老大比较后选择最陡的方向随便探索一下，就朝较低处走去探测几下就走陡峭的方向梯度下降算法的核心思想就是沿着负梯
Java 大视界 -- 基于 Java 的大数据机器学习模型的多模态融合技术与应用（143）青云交大数据新视界 Java 大视界 java 大数据机器学习多模态融合智能安防智能客服数据处理
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
2025年第二届机器学习与神经网络国际学术会议(MLNN 2025) 分享学术科研与论文的禁小默机器学习神经网络人工智能
重要信息官网：www.icmlnn.org时间：2025年4月22-24日地点：中国-重庆简介2025年第二届机器学习与神经网络国际学术会议（MLNN2025）围绕学习系统与神经网络的核心理论、关键技术和应用展开讨论，涵盖深度学习、计算机视觉、自然语言处理、强化学习等多个子领域，通过特邀报告、主题演讲、海报展示等形式，展示相关领域的最新研究成果和技术创新。征稿主题神经网络机器学习深度学习算法及应用
MySQL中基于机器学习的自适应缓存热点识别优化策略——开启数据库性能新纪元墨夶数据库学习资料1 数据库 mysql 机器学习
在数据驱动的世界里，数据库的性能直接影响到整个应用系统的响应速度和用户体验。随着业务量的增长和技术的发展，传统的缓存机制逐渐暴露出局限性。如何更智能地识别并利用热点数据进行缓存优化，成为提升数据库性能的关键所在。今天，我们将深入探讨一种创新的方法——基于机器学习的自适应缓存热点识别优化策略，并分享其在MySQL中的具体实现方案。为什么选择机器学习？‍传统上，开发者们依赖于手动配置或预设规则来决定哪
Open3D 点云DBSCAN聚类算法 MelaCandy 算法聚类 numpy 计算机视觉图像处理 3d
目录一、DBSCAN基本原理二、代码实现2.1关键函数2.2完整代码三、实现效果3.1原始点云3.2聚类后点云Open3D点云算法汇总及实战案例汇总的目录地址：Open3D点云算法与点云深度学习案例汇总（长期更新）-CSDN博客一、DBSCAN基本原理DBSCAN（Density-BasedSpatialClusteringofApplicationswithNoise）是一种基于密度的聚类算法，
Appdata\Local Roaming LocalLow文件夹 ynchyong 系统运维 local Roaming LocalLow
自Vista及Win7开始，微软更改了原有的应用程序存储目录结构，（XP是ApplicationData）C\用户\用户名\Appdata,并分为Roaming,Local,及LocalLow三个文件夹.更改原因如下:优化登录速度根据使用安全级别分别访问不同文件夹Windows使用Local及LocalLow文件夹存放非漫游的应用程序数据（类似注册表Local_machine）及一些空间占用大无法
AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
【机器学习】算法分类 CH3_CH2_CHO 什么？！是机器学习！！机器学习算法有监督学习无监督学习半监督学习强化学习
1、有监督学习1.1定义使用带标签的数据训练模型。有监督学习是机器学习中最常见的一种类型，它利用已知的输入特征和对应的输出标签来训练模型，使模型能够学习到特征与标签之间的映射关系。在训练过程中，模型会不断地调整自身的参数，以最小化预测值与真实标签之间的误差，从而提高预测的准确性。1.2回归问题1.2.1目标预测连续值。回归问题的目标是预测一个连续的数值结果，模型的输出是一个实数值。1.2.2解释回
使用 Baseten 部署和运行机器学习模型的指南 shuoac 机器学习人工智能 python
随着机器学习模型在各个行业中的广泛应用，如何高效地部署和运行这些模型成为一个关键问题。本文将介绍如何使用Baseten平台来部署和服务机器学习模型。Baseten是LangChain生态系统中的一个重要提供者，它提供了所需的基础设施来高效地运行模型。无论是开源模型如Llama2和Mistral，还是专有或经过微调的模型，Baseten都能在专用GPU上运行。技术背景介绍Baseten提供了一种不同
机器学习——分类、回归、聚类、LASSO回归、Ridge回归（自用）代码的建筑师模型学习模型训练机器学习机器学习分类回归正则化项 LASSO Ridge 朴素
纠正自己的误区：机器学习是一个大范围，并不是一个小的方向，比如：线性回归预测、卷积神经网络和强化学都是机器学习算法在不同场景的应用。机器学习最为关键的是要有数据，也就是数据集名词解释：数据集中的一行叫一条样本或者实例，列名称为特征或者属性。样本的数量称为数据量，特征的数量称为特征维度机器学习常用库：Numpy和sklearn朴素的意思是特征的各条件都是相互独立的机器学习（模型、策略、算法）损失函数
量化交易系统中如何处理机器学习模型的训练和部署？ openwin_top 量化交易系统开发机器学习人工智能量化交易
microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位量化交易系统中，机器学习模型的训练和部署需要遵循一套严密的流程，以确保模型的可靠性、性能和安全性。以下是详细描述以及相关的示例：1.数据收集和预处理数据收集在量化交易中，数据是最重要的资产。收集的数
QEMU源码全解析 —— CPU虚拟化（12）蓝天居士 QEMU/KVM QEMU KVM CPU虚拟化
接前一篇文章：本文内容参考：《趣谈Linux操作系统》——刘超，极客时间《QEMU/KVM》源码解析与应用——李强，机械工业出版社《深度探索Linux系统虚拟化原理与实现》——王柏生谢广军，机械工业出版社特此致谢！三、KVM模块初始化介绍1.KVM简介与源码组织结构KVM全称为Kernel-BasedVirtualMachine，中文译为基于内核的虚拟化技术。KVM是由以色列初创公司Qumrane
使用kubeadm部署高可用IPV4/IPV6集群---V1.32
使用kubeadm部署高可用IPV4/IPV6集群https://github.com/cby-chen/Kubernetes开源不易，帮忙点个star，谢谢了k8s基础系统环境配置配置IP#注意！#若虚拟机是进行克隆的那么网卡的UUID和MachineID会重复#需要重新生成新的UUIDUUID和MachineID#UUID和MachineID重复无法DHCP获取到IPV6地址sshroot@1
【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
【论文阅读】Persistent Homology Captures the Generalization of Neural Networks Without A Validation Set 开心星人论文阅读论文阅读
将神经网络表征为加权的无环图，直接根据模型的权重矩阵构造PD。计算相邻batch的权重矩阵PD之间的距离。比较同调收敛性与神经网络的验证精度变化趋势摘要机器学习从业者通常通过监控模型的某些指标来估计其泛化误差，并在训练数值收敛之前停止训练，以防止过拟合。通常，这种误差度量或任务相关的指标是通过一个验证集（holdoutset）来计算的。因为这些数据没有直接用于更新模型参数，通常假设模型在验证集上的
震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
【论文阅读】Availability Attacks Create Shortcuts 开心星人论文阅读论文阅读
还得重复读这一篇论文，有些地方理解不够透彻可用性攻击通过在训练数据中添加难以察觉的扰动，使数据无法被机器学习算法利用，从而防止数据被未经授权地使用。例如，一家私人公司未经用户同意就收集了超过30亿张人脸图像，用于构建商业人脸识别模型。为解决这些担忧，许多数据投毒攻击被提出，以防止数据被未经授权的深度模型学习。它们通过在训练数据中添加难以察觉的扰动，使模型无法从数据中学习太多信息，从而导致模型在未见
机器学习 Day01人工智能概述山北雨夜漫步机器学习人工智能
1.什么样的程序适合在gpu上运行计算密集型的程序：此类程序主要运算集中在寄存器，寄存器读写速度快，而GPU拥有强大的计算能力，能高效处理大量的寄存器运算，因此适合在GPU上运行。像科学计算中的数值模拟、密码破解等场景的程序，都属于计算密集型，在GPU上运行可大幅提升运算速度。易于并行的程序：GPU采用SIMD架构，有众多核心，同一时间每个核心适合做相同的事。易于并行的程序能充分利用GPU这一特性
漫谈jvm 另一个绝影 JVM 漫谈jvm
背景介绍jvm已经是Java开发的必备技能了，jvm相当于Java的操作系统。JVM,javavirtualmachine,即Java虚拟机，是运行javaclass文件的程序。Java代码经过Java编译器编译，会编译成class文件，一种平台无关的代码格式，class文件按照jvm规范，包括了java代码运行的数据和代码等内容。jvm加载class文件后，就可以执行java代码了。JVM有不同
漫谈JVM weixin_34111790 运维 java python
2019独角兽企业重金招聘Python工程师标准>>>背景介绍创建了一个技术类公众号:一起源码分析，里面会分享最新的开源代码、源码解读、开发技巧等，欢迎大家关注。JVM已经是Java开发的必备技能了，JVM相当于Java的操作系统。JVM,javavirtualmachine,即Java虚拟机，是运行javaclass文件的程序。Java代码经过Java编译器编译，会编译成class文件，一种平台
机器学习：让计算机学会思考的艺术平凡而伟大. 机器学习机器学习人工智能
目录什么是机器学习？机器学习的基本步骤常见的机器学习算法机器学习的实际应用如何入门机器学习？结语在当今数字化时代，机器学习（MachineLearning,ML）已经成为一个炙手可热的话题。从推荐系统到自动驾驶汽车，再到语音助手，机器学习的应用无处不在。然而，对于许多人来说，机器学习仍然是一个神秘而复杂的领域。本文将用通俗易懂的语言，带你走进机器学习的世界，了解它的基本原理和应用。什么是机器学习？
机器学习中的 K-均值聚类算法及其优缺点平凡而伟大. 机器学习机器学习算法均值算法
K-均值聚类是一种常用的无监督学习算法，用于将数据集中的样本分成K个簇。其基本原理是将所有样本点划分到K个簇使得簇内样本点之间的距离尽可能接近，而不同簇之间的距离尽可能远。算法流程如下：随机选择K个样本点作为初始的聚类中心。将每个样本点分配到与其最近的聚类中心所在的簇。更新每个簇的聚类中心为该簇所有样本点的平均值。重复第2步和第3步，直到聚类中心不再变化或者达到最大迭代次数。优点：简单且易于实现。
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
机器学习knnlearn1 XW-ABAP 机器学习机器学习人工智能
importmatplotlib.pyplotaspltimportnumpyasnpimportoperator#定义一个函数用于创建数据集defcreateDataSet():#定义特征矩阵，每个元素是一个二维坐标点，代表不同策略数据点的坐标group=np.array([[20,3],[15,5],[18,1],[5,17],[2,15],[3,20]])#定义每个数据点对应的标签，用于区分
基于 MySQL 和 Spring Boot 的在线论坛管理系统设计与实现城南|阿洋-计算机从小白到大神 mysql spring boot 数据库
markdownCopy✌全网粉丝20W+,csdn特邀作者、博客专家、CSDN[新星计划]导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、pyhton、机器学习技术领域和毕业项目实战✌哈喽兄弟们，好久不见哦～最近整理了一下之前写过的一些小项目/毕业设计。发现还是有很多存货的，想一想既然放在电脑里面也吃灰，那么还不如分享出去，没准还可以帮助到
TicTacToe Module W_X_99515681 python 开发语言
Homework2Releasev5.016/02/2025CONTENTS1TicTacToe12Contents32.1TicTacToeModule............................................32.2ReinforcementLearningPlayer.....................................62.3Require
零基础入门机器学习：用Scikit-learn实现鸢尾花分类藍海琴泉机器学习 scikit-learn 分类
适合人群：机器学习新手|数据分析爱好者|需快速展示案例的学生一、引言：为什么要学这个案例？目的：明确机器学习解决什么问题，建立学习信心。机器学习定义：让计算机从数据中自动学习规律（如分类鸢尾花品种）。为什么选鸢尾花数据集：数据量小、特征明确，适合教学演示。Scikit-learn优势：提供现成算法和工具，无需从头写数学公式。二、环境准备：5分钟快速上手目的：搭建可运行的代码环境，避免卡在工具安装环
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S

《机器学习》周志华西瓜书学习笔记（九）：聚类

聚类

聚类任务

性能度量

距离计算

原型聚类

k 均值算法

学习向量量化

高斯混合聚类

密度聚类

层次聚类

补充

你可能感兴趣的:(机器学习,周志华,西瓜书,聚类,无监督学习,Machine,Learning)