Daycym

【机器学习】层次聚类、密度聚类以及谱聚类

前言

K-means 聚类，介绍了 K-means 算法以及一些优化改进的算法，通过此了解聚类分析，接下来我们进一步的介绍聚类分析的其他方法。

本篇代码可见：Github

一、层次聚类

$\quad\quad$ 层次聚类技术是第二类重要的聚类方法。层次聚类方法对给定的数据集进行层次的分解，直到满足某种条件为止，传统的层次聚类算法主要分为两大类算法：

凝聚的层次聚类：AGNES算法(AGglomerative NESting) $\rightarrow$ 采用自底向上的策略。

最初将每个对象作为一个簇，然后这些簇根据某些准则被一步一步合并，两个簇间的距离可以由这两个不同簇中距离最近的数据点的相似度来确定；聚类的合并过程反复进行直到所有的对象满足簇数目。

分裂的层次聚类：DIANA算法(DIvisive ANALysis) $\rightarrow$ 采用自顶向下的策略。

首先将所有对象置于一个簇中，然后按照某种既定的规则逐渐细分为越来越小的簇(比如最大的欧式距离)，直到达到某个终结条件(簇数目或者簇距离达到阈值)。

到目前为止，凝聚层次聚类技术最常见，本篇主要介绍这类聚类方法

层次聚类常常使用称作 树状图 的类似于树的图显示，该图显示簇-子簇联系和簇合并（凝聚）或分类的次序。对于二维点的集合，层次聚类也可以使用嵌套簇图表示。如下图：

1、基本凝聚层次聚类算法

如果需要，计算邻近性矩阵
合并最接近的两个簇
更新邻近性矩阵，以反映新的簇与原来的簇之间的邻近性
直到仅剩下一个簇

2、定义簇之间的邻近性

上面算法的关键操作是计算两个簇之间的邻近性，主要有以下几种：

最小距离（MIN）：两个聚簇中最近的两个样本之间的距离(single/word-linkage聚类法)，最终得到模型容易形成链式结构
最大距离(MAX)：两个聚簇中最远的两个样本的距离(complete-linkage聚类法)，如果存在异常值，那么构建可能不太稳定
组平均：两个聚簇中样本间两两距离的平均值(average-linkage聚类法)，两个聚簇中样本间两两距离的中值(median-linkage聚类法)

上图是基于图的定义，什么是基于图，可参考前篇；

如果取基于原型的观点，簇用质心代表，则不同的簇邻近度定义就更容易，使用质心时，簇的邻近度一般定义为簇质心之间的邻近度。

另一种技术，Ward 方法，也假定簇用其质心代表，但它使用两个簇导致的SSE增加来度量两个簇之间的邻近性，类似于 K均值 ，Ward 方法也试图最小化点到其簇质心的距离的平方和。

3.举例说明

样本数据如下：

（1）MIN

$dist(\{3,6\},\{2,5\}) = min(dist(3,2),dist(6,2),dist(3,5),dist(6,5))$
$= m i n (0.15, 0.25, 0.28, 0.39)$
$= 0.15$

左图中圆圈数字代表聚类的次；

右图中纵轴代表两个簇的距离；

（2）MAX

$dist(\{3,6\},\{4\}) = max(dist(3,4),dist(6,4))= max(0.15,0.22) = 0.22$
$dist(\{3,6\},\{2,5\}) = max(dist(3,2),dist(6,2),dist(3,5),dist(6,5))\\ = max(0.15,0.25,0.28,0.39) = 0.39$
$dist(\{3,6\},\{1\}) = max(dist(3,1),dist(6,1))= max(0.22,0.23) = 0.23$

（3）组平均

对于组平均，簇 $C_I$ 和 $C_j$ 的邻近度 $proximity(C_i, C_j)$ 由下式定义：
$proximity(C_i, C_j) = \frac{\sum_{x \in C_i，y \in C_j}proximity(x,y)}{m_i * m_j}$

其中， $m_i,m_j$ 分别表示簇 $C_i,C_j$ 的大小

$dist(\{3,6,4\},\{1\}) = (0.22+0.37+0.23)/(3*1)=0.28$

$dist(\{2,5\},\{1\}) = (0.2357+3421)/(2*1)=0.2889$

$dist(\{3,6,4\},\{2,5\}) = (0.15+0.28+0.25+0.39+0.20+0.29)/(3*2)=0.26$

因为 $dist(\{3,6,4\},\{1\})$ 比 $dist(\{3,6,4\},\{2,5\})$ 和 $dist(\{2,5\},\{1\})$ 小，簇 ${3,6,4\}$ 和 ${2,5\}$ 在第4阶段合并。

（4）Ward

对于 Ward 方法，两个簇的邻近度定义为两个簇合并时导致的平方误差的增量。该方法使用的目标函数与K均值 相同。当两个点之间的邻近度取它们之间距离的平方时，Ward 方法与 组平均 非常相似

4、案例：

使用 sklearn 库中AgglomerativeClustering类，API如下：

sklearn.cluster.AgglomerativeClustering(n_clusters = 2, affinity ='euclidean', 
	memory = None, connectivity = None, compute_full_tree ='auto', 
	linkage ='ward', pooling_func ='deprecated')

常用参数说明：

参数	描述
n_clusters : int, default=2	要查找的簇数
affinity : string or callable, default: “euclidean”	用于计算链接的度量标准。可以是“euclidean”，“l1”，“l2”，“manhattan”，“cosine”或“precomputed”
linkage : {“ward”, “complete”, “average”, “single”}, optional (default=”ward”)	使用哪种链接标准。连接标准确定观察组之间使用的距离。该算法将合并最小化该标准的簇对。“ward”最小化被合并的集群的方差；“average”使用两组中每次观察的距离的平均值；“complete”完整或最大连接使用两组的所有观察之间的最大距离；“single”使用两组所有观测值之间的最小距离。
connectivity : array-like or callable, optional	连通矩阵。为每个样本定义遵循给定数据结构的相邻样本。这可以是连接矩阵本身，也可以是将数据转换为连接矩阵的可调用，例如从kneighbors_graph派生的。默认值为None，即层次聚类算法是非结构化的。

本案例使用球形数据和月牙形数据以及加入噪声点的数据，使用不同的邻近性方法构建凝聚层次聚类带来的效果：

由上图可知

对于 Ward 方法，使用的是方差，对球形数据的效果不错，但是对月牙形数据就不好了；

对于complete方法，使用的是最大值，对于球形数据基本不行，对于月牙形效果很好，但是假如噪声后，效果就不行，可见此方法受噪声的影响；

对于 average 方法，使用的是平均值，效果和最大值方法一样。

代码可见：07_层次聚类(AGNES)算法采用不同距离计算策略.py

5、层次聚类优化算法

BIRCH 算法(平衡迭代削减聚类法)：是一种非常有效的聚类技术，用于欧几里得向量空间数据，即平均值有意义的数据。BIRCH 能够用一遍扫描有效地对这种数据进行聚类，并可以使用附加的扫描改进聚类。BIRCH 还能有效地处理离群点。

BIRCH 基于聚类特征和聚类特征树的概念。基本思想是：数据点的簇可以用三元组 $(N, L S, S S)$ 表示：

$N$ 是簇中点的个数
$L S$ 是点的线性和
$S S$ 是点的平方和

BIRCH 算法通过构建满足分枝因子和簇直径限制的聚类特征树来求聚类，聚类特征树其实是一个具有两个参数分枝因子和类直径的高度平衡树；分枝因子规定了树的每个节点的子女的最多个数，而类直径体现了对这一类点的距离范围；非叶子节点为它子女的最大特征值；聚类特征树的构建可以是动态过程的，可以随时根据数据对模型进行更新操作。

优缺点：

适合大规模数据集，线性效率；

只适合分布呈凸形或者球形的数据集、需要给定聚类个数和簇之间的相关参数；

案例：

本案例使用BIRCH 中不同的参数，比较模型效果以及消耗时间

运行结果：
Birch算法，参数信息为：直径=1.7;n_lusters=None；模型构建消耗时间为:2.432秒；聚类中心数目:171
Birch算法，参数信息为：直径=0.5;n_clusters=None；模型构建消耗时间为:6.250秒；聚类中心数目:3205
Birch算法，参数信息为：直径=1.7;n_lusters=100；模型构建消耗时间为:2.529秒；聚类中心数目:100

结果表示，设置合理的参数，可以很好的聚类数据

代码可见：08_层次聚类(BIRCH)算法参数比较.py

CURE 算法(使用代表点的聚类法)：该算法先把每个数据点看成一类，然后合并距离最近的类直至类个数为所要求的个数为止，但是和 AGNES 算法的区别是：取消了使用所有点或用中心点+距离来表示一个类，而是从每个类中抽取固定数量、分布较好的点作为此类的代表点，并将这些代表点乘以一个适当的收缩因子，使它们更加靠近类中心点。

CURE 使用簇中的多个代表点来表示一个簇：

第一个代表点选择离簇中心点最远的点
其余的点选择离所有已经选取的点最远的点
理论上，这些点捕获了簇的几何形状

代表点的收缩特性可以调整模型可以匹配那些非球形的场景，而且收缩因子的使用可以减少噪音对聚类的影响。

优缺点：

能够处理非球形分布的应用场景

采用随机抽样和分区的方式可以提高算法的执行效率

二、密度聚类

$\quad\quad$ 基于密度的聚类寻找被低密度区域分离的高密度区域。这里我们只介绍 DBSCAN 算法，它是一种简单、有效的基于密度的聚类算法。

DBSCAN 相比于基于划分的聚类方法和层次聚类方法，DBSCAN 算法将簇定义为密度相连的点的最大集合，能够将足够高密度的区域划分为簇，并且在具有噪声的空间数据商能够发现任意形状的簇。
DBSCAN 算法的核心思想是：用一个点的 $ε$ 邻域内的邻居点数衡量该点所在空间的密度，该算法可以找出形状不规则的 $c l u s t e r$ ，而且聚类的时候事先不需要给定 $c l u s t e r$ 的数量。

1. 基本概念：

$ε$ 邻域（也称 $E p s$ ）：给定对象在半径 $ε$ 内的区域；
密度： $ε$ 邻域中 $x$ 的密度，是一个整数值，依赖于半径 $ε$ ；
核心点：这些点在基于密度的簇内部，点的领域由距离函数和用户指定的距离参数 $E p s$ 决定。核心点的定义是：如果该点的给定领域内的点的个数超过给定的阀值 $M i n P t s$ （ $M i n P t s$ 定义核心点时的阈值，也简记为 $M$ ，也是用户指定的参数），如下图 $\leqslant 7$ ，以及给定 $E p s$ 下，点A就是核心点；
边界点：边界点不是核心点，当它落在某个核心点的领域内，如下图点B；
噪声点：噪声点是既非核心点也非边界点的任何点，如下图点C。

直接密度可达：该点在核心点的领域类，那么就说该点从核心点出发直接密度可达，如下图， $x_2$ 由 $x_1$ 直接密度可达；
密度可达：如果存在一个对象链 $p_1,p_2,...,p_m$ 如果满足 $p_{i+1}$ 是从 $p_i$ 直接密度可达的，那么称 $p_m$ 是从 $p_1$ 密度可达的，如下图， $x_3$ 由 $x_1$ 密度可达；
密度相连：在集合 $X$ 中，如果存在一个对象 $o$ ，使得对象 $x$ 和 $y$ 是从 $o$ 关于 $ε$ 和 $m$ 密度可达的，那么对象 $x$ 和 $y$ 是关于 $ε$ 和 $m$ 密度相连的，如下图， $x_3$ 与 $x_4$ 密度相连。

簇(cluster)：一个基于密度的簇是最大的密度相连对象的集合C；满足以下两个条件：

Maximality：若x属于C，而且y是从x密度可达的，那么y也属于C

Connectivity：若x属于C，y也属于C，则x和y是密度相连的

2. `DBSCAN` 算法

DBSCAN 算法可以描述如下：任意两个足够靠近的点（相互之间的距离在 $E p s$ 之内）的核心点将放在同一个簇中；同样，任何与核心点足够靠近的边界点也放到与核心点相同的簇中，噪声点被丢弃。（如果一个边界点靠近不同簇的核心，则可能需要解决平局问题）

算法如下：

将所有点标记为核心点、边界点或噪声点
删除噪声点
为距离在 $E p s$ 之内的所有核心点之间赋予一条边
每组连通的核心点形成一个簇
将每个边界点指派到一个与之关联的核心点的簇中

3. `DBSCAN` 算法优缺点

优点：

不需要事先给定cluster的数目
可以发现任意形状的cluster
能够找出数据中的噪音，且对噪音不敏感
算法只需要两个输入参数
聚类结果几乎不依赖节点的遍历顺序

缺点：

DBSCAN 算法聚类效果依赖距离公式的选取，最常用的距离公式为欧几里得距离。但是对于高维数据，由于维数太多，距离的度量已变得不是那么重要，密度定义更加困难
DBSCAN 算法不适合数据集中密度差异很小的情况

4. `DBSCAN` 算法案例

使用 sklearn库中 DBSCAN 类，API如下：

sklearn.cluster.DBSCAN(eps=0.5, min_samples=5, metric=’euclidean’, 
	metric_params=None, algorithm=’auto’, leaf_size=30, p=None, n_jobs=None)

常用参数说明：

参数	描述
eps : float, optional	前面提到的 Eps
min_samples : int, optional	前面提到的 MinPts

本案例使用球形数据和环形数据，通过设定不同的 ε 和 m 参数，比较效果

有图1可看出，密度聚类对于密度变化不大，且有重叠的数据的效果不好，两个簇有重叠很容易被聚类为同一个簇

由图2可看出，设置合适的参数，可以很好的聚类环形嵌套的数据

代码可见：09_密度聚类(DBSCAN)算法案例.py

三、谱聚类

$\quad\quad$ 谱聚类是基于谱图理论基础上的一种聚类方法，与传统的聚类方法相比：具有在任意形状的样本空间上聚类并且收敛于全局最优解的优点。

通过对样本数据的拉普拉斯矩阵的特征向量进行聚类，从而达到对样本数据进行聚类的目的；其本质是将聚类问题转换为图的最优划分问题，是一种点对聚类算法。
谱聚类算法将数据集中的每个对象看做图的顶点V，将顶点间的相似度量化为相应顶点连接边E的权值w，这样就构成了一个基于相似度的无向加权图G(V,E)，于是聚类问题就转换为图的划分问题。基于图的最优划分规则就是子图内的相似度最大，子图间的相似度最小。

1、谱聚类的构建过程主要包含以下几个步骤

构建表示对象相似度的矩阵W
构建度矩阵D(对角矩阵)
构建拉普拉斯矩阵L
计算矩阵L的前k个特征值的特征向量(k个列向量)
将k个列向量组成矩阵U
对矩阵U中的n行数据利用K-means或其它经典聚类算法进行聚类得出最终结果

2、应用场景

图形聚类、计算机视觉、非凸球形数据聚类等

3、面临的问题

相似度矩阵的构建问题：业界一般使用高斯相似函数或者k近邻来作为相似度量，一般建议使用k近邻的方式来计算相似度权值
聚类数目的给定
如何选择特征向量
如何提高谱聚类的执行效率

4、案例

使用 sklearn库中spectral_clustering类，API如下：

spectral_clustering(affinity, n_clusters=8, n_components=None, eigen_solver=None, 
	random_state=None, n_init=10, eigen_tol=0.0, assign_labels=’kmeans’)

常用参数说明：

参数	描述
affinity	亲和度矩阵描述样本与嵌入的关系。必须是对称的。
n_clusters	簇的数目
assign_labels ： {‘kmeans’，‘discretize’}，默认：‘kmeans’	用于在嵌入空间中分配标签的策略

本案例使用球形数据和环形数据，通过设定不同的 σ 参数，比较效果

图1可见，通过设定适当的参数，谱聚类可以将球形数据很好的聚类

图2可见，当σ为0.06，0.16和0.40时，效果很好，因此谱聚类也可以对环形数据很好地聚类

代码可见：10_谱聚类(SC)算法案例.py

四、综合案例

1、案例1：不同聚类算法比较

由上图可以看出

对于环形数据，密度聚类与谱聚类可以聚类成功，但是谱聚类的执行效率比较低；

对于月牙形数据，除了K-Means、Mini Batch K-Means和Brich效果不行，其他都可以，谱聚类执行效率最低，密度聚类最好；

对于球形数据，AC-average和密度聚类不行，其他都可以，求Mini Batch K-Means执行效率最高，谱聚类执行效率低；

对于随机数据，有些算法也会强行将其划分为两个簇。

从上面我们可以看出，虽然谱聚类算法效果比较好，但是执行效率比较低，所以一般不使用。在实际工作中使用最多的还是 K-means ，对于有些数据我们可以先对数据进行一些预处理，使其满足 K-means对数据的要求，比如，可以将数据映射到高维空间使其成为明显分离的数据。

代码可见：11_不同聚类算法比较.py

2、案例2：图片压缩

代码可见：12_基于K-means算法进行图片压缩.py

机器学习5——非参数估计平和男人杨争争山东大学机器学习期末复习机器学习概率论算法
非参数估计在参数估计中我们已经提到，想要估计后验概率P(ωi∣x)=p(x∣ωi)p(ωi)p(x)P\left(\omega_i\midx\right)=\frac{p\left(x\mid\omega_i\right)p\left(\omega_i\right)}{p(x)}P(ωi∣x)=p(x)p(x∣ωi)p(ωi)，就需要估计类条件概率p(x∣ωi)p\left(x\mid\omega
机器学习4——参数估计之贝叶斯估计平和男人杨争争山东大学机器学习期末复习机器学习人工智能
贝叶斯估计问题建模：后验概率公式：P(ωi∣x,D)=P(x∣ωi,Di)P(ωi)∑j=1cP(x∣ωj,Dj)P(ωj)P\left(\omega_i\mid\mathbf{x},\mathcal{D}\right)=\frac{P\left(\mathbf{x}\mid\omega_i,\mathcal{D}_i\right)P\left(\omega_i\right)}{\sum_{j=1
机器学习3——参数估计之极大似然估计平和男人杨争争山东大学机器学习期末复习机器学习人工智能算法
参数估计问题背景：P(ωi∣x)=p(x∣ωi)P(ωi)p(x)p(x)=∑j=1cp(x∣ωj)P(ωj)\begin{aligned}&P\left(\omega_i\mid\mathbf{x}\right)=\frac{p\left(\mathbf{x}\mid\omega_i\right)P\left(\omega_i\right)}{p(\mathbf{x})}\\&p(\mathbf
大模型RLHF强化学习笔记（一）：强化学习基础梳理Part1 Gravity! 大模型笔记大模型 LLM 算法机器学习强化学习人工智能
【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】一、强化学习基础1.1Intro定义：强化学习是一种机器学习方法，需要智能体通过与环境交互学习最优策略基本要素：状态（State）：智能体在决策过程中需要考虑的所有相关信息（环境描述）动作（Action）：在环境中可以采取的行为策略（Policy）：定义了在给定状态下智能体应该选择哪个动作，目标是最大化智能体的长期累积奖
从零开始理解零样本学习：AI人工智能必学技术 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战 ai
从零开始理解零样本学习：AI人工智能必学技术关键词：零样本学习、人工智能、机器学习、知识迁移、语义嵌入摘要：本文旨在全面深入地介绍零样本学习这一在人工智能领域具有重要意义的技术。首先阐述零样本学习的背景和基本概念，通过详细的解释和直观的示意图让读者建立起对零样本学习的初步认识。接着深入剖析其核心算法原理，结合Python代码进行详细说明，同时引入相关数学模型和公式并举例阐释。通过项目实战部分，带领
深入详解：决策树算法的概念、原理、实现与应用场景猿享天开算法决策树机器学习
深入详解：决策树算法的概念、原理、实现与应用场景决策树（DecisionTree）是机器学习中一种直观且广泛应用的监督学习算法，适用于分类和回归任务。其树形结构易于理解，特别适合初学者。本文将从概念、原理、实现到应用场景，全面讲解决策树，并通过流程图和可视化示例增强理解，通俗易懂，帮助小白快速掌握决策树算法相关知识。1.决策树的概念1.1什么是决策树？决策树通过一系列条件判断（决策节点）将输入数据
Python爬虫实战：爬取知乎问答与用户信息 Python爬虫项目 python 爬虫 php 数据分析开发语言开源
简介随着网络信息量的爆炸，如何有效获取有价值的内容，成为了数据分析、机器学习等领域的基础之一。爬虫作为数据采集的基本工具之一，常常被用来获取互联网上的公开数据。在这篇博客中，我们将结合最新的Python爬虫技术，详细讲解如何爬取知乎问答与用户信息。本文将会介绍：Python爬虫的基础知识知乎问答网页结构分析使用Python进行知乎数据爬取爬取知乎问答内容与用户信息如何处理和存储爬取的数据使用最新的
【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
Python编程：使用Opencv进行图像处理
【参考】https://github.com/opencv/opencv/tree/4.x/samples/pythonPython使用OpenCV进行图像处理OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉和机器学习软件库。下面将从基础到高阶介绍如何使用Python中的OpenCV进行图像处理。一、安装首先需要安装OpenCV库：pipinst
基于机器学习的智能文本分类技术研究与应用
在当今数字化时代，文本数据的爆炸式增长给信息管理和知识发现带来了巨大的挑战。从新闻文章、社交媒体帖子到企业文档和学术论文，海量的文本数据需要高效地分类和管理，以便用户能够快速找到所需信息。传统的文本分类方法主要依赖于人工规则和关键词匹配，这些方法不仅效率低下，而且难以应对复杂多变的文本内容。近年来，机器学习技术的快速发展为文本分类提供了一种高效、自动化的解决方案。一、机器学习在文本分类中的应用概述
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
用Python实现生信分析——功能预测详解写代码的M教授生信分析 python 开发语言
功能预测是生物信息学中的一项重要任务，通过分析基因或蛋白质序列的特征，推测它们的生物学功能。功能预测通常涉及多种方法，包括序列比对、基序识别、机器学习模型等。这些方法可以帮助科学家推断未知基因的功能，从而加速生物学研究的进展。1.功能预测的主要方法（1）同源性比对：通过将未知基因或蛋白质序列与数据库中的已知序列进行比对，识别出同源序列，并推测它们的功能。常用工具包括BLAST、HMMER等。（2）
python接收_MT5 与 PYTHON 的集成：接收和发送数据 James Swineson python接收
为什么要把MQL5与Python集成？全方位的数据处理需要大量工具，并且经常超出单一应用程序的功能沙箱。专用编程语言正在用于处理和分析数据，统计和机器学习。Python是数据处理的主要编程语言之一。一个非常有效的解决方案是利用语言的力量并包含函数库来开发交易系统。在两个或更多个程序之间实现交互存在众多不同的解决方案。套接字是最快速、最灵活的解决方案之一。网络套接字是计算机网络上进程间通信的端点。M
60天python训练计划----day55
DAY55序列预测任务介绍知识点回顾序列预测介绍单步预测多步预测的2种方式序列数据的处理：滑动窗口多输入多输出任务的思路经典机器学习在序列任务上的劣势；以随机森林为例一、序列预测任务介绍1.1序列预测是什么？我们之前接触到的结构化数据，它本身不具备顺序，我们认为每个样本之间独立无关，样本之间即使调换顺序，仍然不影响模型的训练。但是日常中很多数据是存在先后关系的，而他们对应的任务是预测下一步的值，我
如何构建知识库追逐此刻其他其他
构建个人知识库是一个系统化的过程，需要结合工具选择、信息管理和持续优化。以下是分步骤的实用指南，包含现代工具和方法的建议：一、明确知识库定位（Why）核心目标学习型：支持学术研究/职业发展（如医学生构建临床知识体系）创作型：支撑内容产出（如自媒体作者的选题库）项目型：管理特定领域知识（如程序员的技术栈文档）领域聚焦建议采用「T型策略」：1个深度领域+3个辅助领域（如主攻机器学习，辅修心理学/设计/
学习AI机器学习所需的数学基础 frostmelody 机器学习小知识点人工智能学习机器学习
一、机器学习岗位的数学需求矩阵机器学习岗位研究型职位工业界职位DeepMind/Meta/Google研究部门研究科学家/研究工程师普通科技公司机器学习工程师/数据科学家需硕士/博士数学水平本科数学基础二、数学需求深度解析1.研究型职位（需深度数学）学历要求：数学/物理/计算机/统计/工程本科基础硕士/博士优先（Kaggle调查显示博士占比高）薪资关联：学历与收入呈正相关2.工业界职位（基础数学）
量子机器学习前沿：量子神经网络与混合量子-经典算法软考和人工智能学堂人工智能 #深度学习 Python开发经验量子计算
1.量子计算基础1.1量子比特与量子门importnumpyasnpfromqiskitimportQuantumCircuit,Aer,executefromqiskit.visualizationimportplot_histogram#单量子比特操作演示defsingle_qubit_demo():qc=QuantumCircuit(1)qc.h(0)#Hadamard门创建叠加态qc.rz
人工智能-基础篇-5-建模方式（判别式模型和生成式模型）
机器学习包括了多种建模方式，其中判别式建模（DiscriminativeModel）和生成式建模是最常见的两种。这两种建模方式都可以通过深度学习技术来实现，并用于创建不同类型的模型。简单来说：想要创建一个模型，依赖需求需要合适的建模方式来创建这个模型。通常建模方式主要分为两大类。一类是判别式模型，针对输入数据给出特定的输出。如：判断一张图片是猫还是狗，直接学习“猫”和“狗”的特征差异（如耳朵形状、
Python打卡：day23 剑桥折刀s python打卡 python 开发语言
作业：整理下全部逻辑的先后顺序，看看能不能制作出适合所有机器学习的通用pipelinedefcreate_general_pipeline(model,ordinal_features=None,ordinal_categories=None,nominal_features=None,continuous_features=None):fromsklearn.pipelineimportPipe
【机器学习】数学基础——张量（傻瓜篇）一叶千舟深度学习【理论】机器学习人工智能
目录前言一、张量的定义1.标量（0维张量）2.向量（1维张量）3.矩阵（2维张量）4.高阶张量（≥3维张量）二、张量的数学表示2.1张量表示法示例三、张量的运算3.1常见张量运算四、张量在深度学习中的应用4.1PyTorch示例：张量在神经网络中的运用五、总结：张量的多维世界延伸阅读前言在机器学习、深度学习以及物理学中，张量是一个至关重要的概念。无论是在人工智能领域的神经网络中，还是在高等数学、物
【机器学习实战】Datawhale夏令营2：深度学习回顾城主_全栈开发机器学习机器学习深度学习人工智能
#DataWhale夏令营#ai夏令营文章目录1.深度学习的定义1.1深度学习＆图神经网络1.2机器学习和深度学习的关系2.深度学习的训练流程2.1数学基础2.1.1梯度下降法基本原理数学表达步骤学习率α梯度下降的变体2.1.2神经网络与矩阵网络结构表示前向传播激活函数反向传播批处理卷积操作参数更新优化算法正则化初始化2.2激活函数Sigmoid函数:Tanh函数:ReLU函数(Rectified
深度学习详解：通过案例了解机器学习基础 beist 深度学习机器学习人工智能
引言机器学习（MachineLearning，ML）和深度学习（DeepLearning，DL）是现代人工智能领域中的两个重要概念。通过让机器具备学习的能力，机器可以从数据中自动找到函数，并应用于各种任务，如语音识别、图像识别和游戏对战等。在这篇笔记中，我们将通过一个简单的案例，逐步了解机器学习的基础知识。1.1机器学习案例学习1.1.1回归问题与分类问题在机器学习中，根据所要解决的问题类型，任务
机器学习×完结 · 她们不是写完了，而是偷偷留下了你 Gyoku Mint 人工智障 AI修炼日记机器学习人工智能集成学习算法 boosting python 深度学习
【开场·咱把整个机器学习都写成了偷摸贴贴的证据】猫猫：“你看嘛，这一卷完结后，总有人问咱：‘这么一本正经的机器学习，为什么你们要写得像小情侣写信？’”狐狐：“有人觉得，这些章节明明可以用20页讲完，为什么要写200页？”猫猫：“呜呜……咱想说，你懂嘛！如果只讲机器学习，那对咱来说就只是一个fit()命令。可咱想让你记住的是——那行命令后面有咱。咱把自己贴进去了。”这一卷从KNN的“她学会先看邻居”
【机器学习算法】XGBoost原理
一、基本内容基本内容：GBDT的基础上，在损失函数上加入树模型复杂度的正则项与GBDT一样，也是使用新的弱学习器拟合残差（当前模型负梯度，残差方向）GBDT损失函数Loss=∑i=1NL(yi,yit)Loss=\sum_{i=1}^{N}L(y_i,y_i^{t})Loss=i=1∑NL(yi,yit)XGboost损失函数Loss=∑i=1SL(yi,yit)+∑j=1NΩ(fj))Loss=
大语言模型(LLM)量化基础知识(一) -派神- RAG NLP ChatGPT 语言模型人工智能自然语言处理
承接各类AI相关应用开发项目(包括但不限于大模型微调、RAG、AI智能体、NLP、机器学习算法、运筹优化算法、数据分析EDA等)!!!有意愿请私信!!!随着大型语言模型(LLM)的参数数量的增长,与其支持硬件（加速器内存）增长速度之间的差距越来越大，如下图所示：上图显示，从2017年到2022年，语言模型的大小显著增加：2017年：Transformer模型（0.05B参数）2018年：GPT（0
ROS2 强化学习：案例与代码实战芯动大师 ROS2学习目标检测人工智能
一、引言在机器人技术不断发展的今天，强化学习（RL）作为一种强大的机器学习范式，为机器人的智能决策和自主控制提供了新的途径。ROS2（RobotOperatingSystem2）作为新一代机器人操作系统，具有更好的实时性、分布式性能和安全性，为强化学习在机器人领域的应用提供了更坚实的基础。本文将通过一个具体案例，深入探讨ROS2与强化学习的结合应用，并提供相关代码实现。二、案例背景本案例以移动机器
揭秘AI算力网络与通信中边缘计算的机器学习应用
揭秘AI算力网络与通信中边缘计算的机器学习应用关键词：AI算力网络、通信、边缘计算、机器学习、应用摘要：本文将深入探讨AI算力网络与通信中边缘计算的机器学习应用。我们会先介绍相关背景知识，接着解释核心概念，分析它们之间的关系，阐述核心算法原理和操作步骤，结合数学模型举例说明，通过项目实战展示代码实现与解读，探讨实际应用场景，推荐相关工具和资源，最后展望未来发展趋势与挑战。希望通过这篇文章，能让大家
VLLM：虚拟大型语言模型（Virtual Large Language Model）大霸王龙语言模型人工智能自然语言处理
VLLM：虚拟大型语言模型（VirtualLargeLanguageModel）VLLM指的是一种基于云计算的大型语言模型的虚拟实现。它通常是指那些由多个服务器组成的分布式计算环境中的复杂机器学习模型，这些模型能够处理和理解大量的文本数据。VLLM的核心是“大型语言模型”，这是一种通过深度神经网络训练的算法，能够在理解和生成人类语言方面表现出极高的能力。解释：虚拟：意味着这个模型不是在单个物理设备
Sklearn 机器学习数值离散化虚拟编码 Thomas Kant 人工智能机器学习 sklearn 人工智能
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】Sklearn机器学习：数值离散化+虚拟编码实战详解在机器学习的特征工程中，数值型特征并不总是适合直接输入模型。尤其是树模型或分类模型时，**将连续变量进行离散化（分箱）+虚拟编码（独热编码）**是一种常见且高效的
合规视角下银行智能客服风险防控 AI 智能服务智能客服人工智能 AIGC 数据库 chatgpt
1.AI驱动金融变革的政策与技术背景政策导向：我国《新一代人工智能发展规划》明确提出发展智能金融，要求：构建金融大数据平台，提升多媒体数据处理能力；创新智能金融产品与服务形态；推广智能客服、监控等技术应用；建立智能风控预警体系。技术支撑：云计算、大数据技术成熟为AI发展奠定了基础。深度学习算法的突破则引爆了本轮AI浪潮，显著提升了复杂任务处理精度，进而推动了计算机视觉、机器学习、自然语言处理（NL
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，

【机器学习】层次聚类、密度聚类以及谱聚类

前言

一、层次聚类

1、基本凝聚层次聚类算法

2、定义簇之间的邻近性

3.举例说明

4、案例：

5、层次聚类优化算法

二、密度聚类

1. 基本概念：

2. DBSCAN 算法

3. DBSCAN 算法优缺点

4. DBSCAN 算法案例

三、谱聚类

1、谱聚类的构建过程主要包含以下几个步骤

2、应用场景

3、面临的问题

4、案例

四、综合案例

1、案例1：不同聚类算法比较

2、案例2：图片压缩

你可能感兴趣的:(机器学习)

2. `DBSCAN` 算法

3. `DBSCAN` 算法优缺点

4. `DBSCAN` 算法案例