小白学视觉

干货 | 非常全面的谱聚类算法原理总结

点击上方“小白学视觉”，选择加"星标"或“置顶”
重磅干货，第一时间送达

谱聚类算法是目前最流行的聚类算法之一，其性能及适用场景优于传统的聚类算法如k-均值算法，本文对谱聚类算法进行了详细总结，内容主要参考论文《A Tutorial on Spectral Clustering》，下载链接：https://github.com/zhangleiszu/machineLearning，若对谱聚类算法有不理解的地方，欢迎交流。

1. 谱聚类模型的优化思想

2. 图的表示方法

3. 邻接矩阵的表示方法

4. 拉普拉斯矩阵定义及其属性

5. 无向图切图的含义

6. 谱聚类算法原理

7. 谱聚类算法流程

8. 拉普拉斯矩阵的选择

9. 簇类个数的选择

10. 谱聚类算法与k均值算法比较

11. 谱聚类算法的参数择优

12. 小结

1. 谱聚类模型的优化思想

上文提到若簇内的相似度高且簇间的相似度低，则聚类性能较好，因此优化聚类模型的标准是提高簇类相似度高且降低簇间的相似度。

谱聚类模型的优化思想也是基于此标准，下面定性给出谱聚类模型的目标函数：

谱聚类模型优化的方法是最小化该目标函数。

谱聚类是一种基于图论的聚类算法，在介绍谱聚类算法原理之前，首先介绍下图的相关概念。

2. 图的表示方法

图G（graph）是由点的集合V（vertex）和边的集合E（edge）组成，即G=(V,E)，其中V为数据集，E为样本点与样本点的权重，用表示，等于0表示样本点与样本点没有连接。

因此对于容量为n的数据集，其图的有向邻接矩阵W表示为：，无向图的权重

上图的无向权重W表示为：

定义为样本点的度：

样本点度的含义为所有与该样本点连接的权重之和。

数据集所有样本点的度定义为度矩阵D：

矩阵D是对角矩阵且非对角元素均为0。

下面定义指示向量，下标A表示数据集V的一个子集，若样本点，则

，反之。

如下图，数据集包含两个子集A1和A2：

因此指示向量：

易知不同子集的指示向量相互正交。

我们有两种定义子集A大小的方法：

3. 邻接矩阵的表示方法

上节介绍邻接矩阵的权重即是样本间的相似度，衡量相似度的方法有 ε邻近法，K近邻法和全连接法，下面一一介绍这三种方法。

3.1 ε-邻近法

若样本间的距离小于 ε，则用权重 ε连接两个样本；样本间的距离大于ε，则连接两个样本的权重等于0。因此，图的无向权重表达式如下：

其中是样本i与样本j的距离。

ε近邻描述样本间的权重只有ε和0，缺失了很多信息。

3.2 k近邻法

k近邻法只考虑离该样本点最近的k个样本的权重，不在k近邻范围的样本，权重为0，然而这种定义方法会导致有向邻接矩阵，因为该矩阵并非对称矩阵，比如样本点j是样本点i的k近邻，样本点i并不一定是样本点j的k近邻。

为了使邻接矩阵是对称矩阵，我们对k近邻法有两种改进方法：第一种方法是若样本点j是样本点i的k近邻或样本点i是样本点j的k近邻，则该样本间的权重不为0，数学表达式如下：

第二种方法是若样本点互为k近邻，则该样本间的权重不为0，数学表达式如下：

3.3 全连接法

全连接法直接用相似度衡量所有的样本间权重，因此样本间的权重都大于0，常用高斯相似函数评价样本间的权重。数学表达式如下：

ε-邻近法与k近邻法在密度分布不均的聚类任务中有较大的误差，实际项目中常用全连接法构建邻接矩阵，邻接矩阵的权重常用高斯相似函数。全连接法的缺点是构建的邻接矩阵并非稀疏矩阵，导致计算量的增加。

4. 拉普拉斯矩阵及其属性

拉普拉斯矩阵L是谱聚类算法的基础，本节介绍下面两种拉普拉斯矩阵及其属性，分别是非标准化的拉普拉斯矩阵和标准化的拉普拉斯矩阵。

4.1 非标准化的拉普拉斯矩阵

非拉普拉斯矩阵定义为度矩阵D与邻接矩阵W的差，表达式如下：

L = D - W

度矩阵D和邻接矩阵W的定义请参考二三节。

非标准化的拉普拉斯矩阵有如下属性：

（1）对于任意的n维向量，有：

证明：

（2）由于D和W是对称矩阵，拉普拉斯矩阵L也是对称矩阵，由属性（1）得，即拉普拉斯矩阵L是半正定矩阵。

（3）拉普拉斯矩阵L的最小特征值为0，相应的特征向量是全为1的向量。

证明：

由上式可得：f是全为1的特征向量，即。

（4）L为半正定的对称矩阵，因此L有n个非负的实数特征值，即。

（5）假设图G是无向权重图，拉普拉斯矩阵的特征值为0时，对应的特征向量个数等于连通子集的个数，且该特征向量等于指示向量。假设下图G可划分为3个连通子集Ai(i=1,2,3)：

即图G的拉普拉斯矩阵L特征值为0的特征向量个数为3，且该特征向量等于指示向量，结果为：

4.2 标准化的拉普拉斯矩阵

我们有两种标准化拉普拉斯矩阵的定义方法，分别为和，定义为：

下面总结和的几个重要属性：

（1）对于任意n维向量，有：

证明：

（2）若的特征值和特征向量分别为λ和v，那么的特征值为λ时对应的特征向量w满足：

证明：

因此特征值为λ时的特征向量为。

（3）若拉普拉斯矩阵L满足如下等式：

上式左乘，可得的特征值和特征向量分别为λ和v。

（4）若的特征值和特征向量分别为0和全为1的向量L，那么可由属性（2）可得的特征值为0时的特征向量为。

（5）由属性（1）（2）可得，和有n个非负的实数特征值。

（6）假设图G是无向权重图，和特征值为0时的特征向量个数k等于图的连通子集的个数Ai(i=1,2,...k)，的特征向量是指示向量，的特征向量是。

5. 无向图切图的含义

无向图是由样本点和边组成，如下图的图G：

数据集的聚类可看成是无向图的切分，假设图G切分后包含两个连通的子集A，B，则AB之间的切图权重为：

其中表示图G的邻接矩阵。

若对图G切分成k个连通子集Ai(i=1,2,...,k)，最简单的方法是最小化下式：

其中表示的补集。

这种切分法只考虑了最小化簇间的相似度并没有考虑簇内的相似度，因此这种切分标准并不准确，如对上图G进行切分，得到如下的切分结果：

这种切分后产生的两个簇类（子集）明显是错误的，因此需要对切分方法进行优化，下一节将介绍谱聚类算法的两种切图方法。

6. 谱聚类算法原理

上一节的切图方法只考虑了簇间的相似度，导致每个簇类包含的样本数差别极大，如上一节的切分结果。因此需要用每个子集的大小对上一节的切分方法进行标准化，第二节介绍有两种定义子集大小的方法，根据这这两种定义引出最常用的切图方法：RatioCut切图和Ncutt切图，本节假设簇类个数为k，即切图后的子集个数为k。

6.1 RatioCut切图

若定义子集大小为子集包含的样本个数，则RatioCut切图方法为：

最小化上式得到最优的切分结果，如何最小化？这就要用到之前介绍的拉普拉斯矩阵和指示向量。

由指示向量定义可知指示向量个数与簇类个数相等且指示向量维度与样本数相等，因此我们定义k个指示向量

，n维指示向，表达式如下：

易知指示向量是单位正交向量。

看到单位正交向量，我们是不是想到了矩阵的特征值分解，下面我们计算拉普拉斯矩阵L的特征向量是指示向量时的特征值：

由第四节拉普拉斯矩阵的第一个属性可知：

由指示向量的定义，上式等价于：

根据上式等式可得：

其中Tr表示取矩阵的迹。

因此最小化等价于：

只需要求矩阵L的前k个最小的特征值以满足切图的最小化，取相应的k个n维特征向量组成的矩阵，对该矩阵进行k均值聚类算法，得到聚类结果。

6.2 Ncutt切图

若定义子集大小为，则RatioCut切图方法为：

我们定义n维指示向量，表达式如下：

我们同样计算的值：

由指示向量的性质得：

由上式推导可得：

由于，有，其中I为单位向量。

因此，最小化等价于：

为了方便计算，需要将指示向量组成的矩阵转换为单位正交矩阵：

其中U为单位正交矩阵，得：

因此，最小化等价于：

因此只需要求矩阵（）的前k个最小的特征值满足切图的最小化，取相应的k个n维特征向量组成的矩阵，并对该矩阵的每行进行标准化，最后对该标准化矩阵进行k均值聚类算法得到聚类结果。

或者求矩阵的前k个最小的特征值对应的特征向量，除了不需要进行行标准化外，算法步骤与一致。的特征向量v可以通过属性3求解：

由于和是标准化的拉普拉斯矩阵，因此 Ncutt切图也称为标准化的谱聚类算法，RatioCut切图称为非标准化的谱聚类算法。

7. 谱聚类算法流程

谱聚类算法包括非标准化的谱聚类算法和标准化的谱聚类算法，本节介绍这两种谱聚类的算法步骤。

输入：相似矩阵，簇类个数等于k

非标准化的谱聚类算法流程：

1）计算邻接矩阵W和度矩阵D；

2）计算非标准化的拉普拉斯矩阵L；

3）计算矩阵L的k个最小特征值对应的n维特征向量；

4）k个n维特征向量组成n×k维的矩阵M；

5）每一行表示一个样本，对该n个样本进行k均值聚类算法，得到聚类结果。

标准化的谱聚类（）算法流程：

1）计算邻接矩阵W和度矩阵D；

2）计算标准化的拉普拉斯矩阵；

3）计算矩阵的k个最小特征值对应的n维特征向量；

4）k个n维特征向量组成n×k维的矩阵M；

5）行标准化矩阵M：

6）每一行表示一个样本，对该n个样本进行k均值聚类算法，得到聚类结果。

标准化的谱聚类（）算法流程：

1）计算邻接矩阵W和度矩阵D；

2）计算标准化的拉普拉斯矩阵；

3）计算矩阵的k个最小特征值对应的n维特征向量，通过下式求解特征向量：

4）k个n维特征向量组成n×k维的矩阵M；

5）每一行表示一个样本，对该n个样本进行k均值聚类算法，得到聚类结果。

8. 拉普拉斯矩阵的选择

本文介绍了三种拉普拉斯矩阵的算法，选择哪一种算法是谱聚类的一个基本问题。如果图是规则的且大多数样本点的度近似相等，选择任何一种拉普拉斯矩阵都是可行的。如果图中大多数样本点的度相差较大，建议使用标准化的拉普拉斯矩阵。

标准化的拉普拉斯矩阵建议使用，由标准化的拉普拉斯矩阵属性可知：若的特征向量是指示向量，则的特征向量是指示向量与的乘积，这可能会带来不可预知的误差，因此标准化的拉普拉斯矩阵使用。

为什么标准化的拉普拉斯矩阵比非标准化的拉普拉斯矩阵好？

原因：非标准化的拉普拉斯矩阵对应RatioCut切图，RatioCut切图描述簇内的相似度为簇内包含的样本个数|A|，标准化的拉普拉斯矩阵对应Ncutt切图，Ncutt切图描述簇内的相似度为vol(A)。由于vol(A)比|A|更能体现簇内的相似度，因此选择标准化的拉普拉斯矩阵。

9. 簇类个数的选择

谱聚类算法的第一个问题是簇类个数的选择，常用的方式是使用启发式的特征值差值搜索（eigengap heuristic），含义：若前k个特征值很小，且第k+1个特征值与前一个特征值相差比较大，则簇类个数选择k。为什么选择前k个最小的特征值作为簇类个数？我们假设图G可切分为k个完全没有交集的连通子集，那么有k个特征值等于0，第k+1个特征值大于0。因此可以设想特征值越小聚类的性能亦越好，选择特征值很小的个数作为簇类个数。

如下图不同簇类的样本分布：

我们对服从上图分布的样本集选择10近邻法构建相似矩阵，画出的前10个最小的特征值图：

由上图可知，前4个特征值等于0，即，第5个特征值大于0且与前一个特征值相差较大，因此选择簇类个数为4，符合样本集的分布理论。

若不同簇类的样本分布有重叠，如下图：

我们画出的前10个最小的特征值图：

由上图可知，特征值相差不明显，可能选择k=3或k=4。若不同簇类的样本分布存在严重的重叠，这种选择k值的算法也会给出模糊的结果。

10. 谱聚类算法与k均值算法比较

上文提到k均值算法在各向异性的数据集和非凸数据集的表现很差，谱聚类算法可以很好的处理这类数据集。

各向异性的数据集聚类对比：

非凸数据集的聚类对比：

# 非凸数据集
from sklearn import datasets
from sklearn import cluster
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
plt.figure(figsize=[6,6])
n_samples = 1500
noisy_circles = datasets.make_circles(n_samples=n_samples, factor=.5, noise=.05)
plt.scatter(noisy_circles[0][:,0],noisy_circles[0][:,1],marker='.')
plt.title("non-convex datasets")
plt.show()
# k=2训练数据,k-means聚类算法
y_pred = KMeans(n_clusters=2, random_state=random_state).fit_predict(noisy_circles[0])
plt.scatter(noisy_circles[0][:, 0], noisy_circles[0][:, 1], marker='.',c=y_pred)
plt.title("k-means clustering")
plt.show()
# spectralClustering聚类算法
y_pred = cluster.SpectralClustering(n_clusters=2,affinity="nearest_neighbors").fit_predict(noisy_circles[0])
plt.scatter(noisy_circles[0][:, 0], noisy_circles[0][:, 1], marker='.',c=y_pred)
plt.title("spectralClustering")
plt.show()

11. 谱聚类算法的参数择优

为了使聚类结果可视化，我们生成各向异性的二维数据集：

random_state = 170
n_samples =1500
X, y = datasets.make_blobs(n_samples=n_samples, random_state=random_state)
transformation = [[0.6, -0.6], [-0.4, 0.8]]
X_aniso = np.dot(X, transformation)
aniso = (X_aniso, y)
plt.figure()
plt.scatter(X_aniso[:,0],X_aniso[:,1],marker='.')
plt.show()

根据上一节的可视化图设置k=3，使用默认的谱聚类算法参数的聚类效果：

我们利用Caliniski-Harabaz指数评价聚类结果：

# 参数择优
from sklearn import metrics
for index, gamma in enumerate((0.01,0.1,1,10,15)):
    y_pred = cluster.SpectralClustering(n_clusters=3, gamma=gamma).fit_predict(X_aniso)
    print("Calinski-Harabasz Score with gamma=", gamma, "score:", metrics.calinski_harabaz_score(X, y_pred))

#>
	Calinski-Harabasz Score with gamma= 0.01 score: 5506.749740179376
	Calinski-Harabasz Score with gamma= 0.1 score: 875.228683610666
	Calinski-Harabasz Score with gamma= 1 score: 3023.915226286713
	Calinski-Harabasz Score with gamma= 10 score: 10633.868943793219
	Calinski-Harabasz Score with gamma= 15 score: 10633.868943793219

从上面的结果分析，我们粗略的知道gamma在10附近有较好的聚类性能：

# 在10附近找寻最优参数
for gamma in np.linspace(9,11,5):
    y_pred = cluster.SpectralClustering(n_clusters=3, gamma=gamma).fit_predict(X_aniso)
    print("Calinski-Harabasz Score with gamma=", gamma,"score:", metrics.calinski_harabaz_score(X, y_pred))

#>
	Calinski-Harabasz Score with gamma= 9.0 score: 10454.66879752764
	Calinski-Harabasz Score with gamma= 9.5 score: 10454.66879752764
	Calinski-Harabasz Score with gamma= 10.0 score: 10633.868943793219
	Calinski-Harabasz Score with gamma= 10.5 score: 10633.868943793219
	Calinski-Harabasz Score with gamma= 11.0 score: 10633.868943793219

因此，我们设置rbf核的参数gamma为10

y_pred = cluster.SpectralClustering(n_clusters=3,gamma=10).fit_predict(X_aniso)
plt.scatter(X_aniso[:,0],X_aniso[:,1],c =y_pred,marker='.')
plt.show()

聚类效果如下图：

12. 小结

谱聚类是基于图论的聚类算法，思想是图切分后的子集间有较低的相似度且子集内有较高的相似度，实现方法是对图的拉普拉斯矩阵降维再利用k均值聚类算法，谱聚类相比k-means在中小数据集有更广泛的应用。

参考：

https://www.cnblogs.com/pinard/p/6235920.html

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2：Python视觉实战项目52讲

在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

下载3：OpenCV实战项目20讲

在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

你可能感兴趣的:(聚类,算法,python,机器学习,人工智能)

国产信创AI IDE：开启智能编程新时代 InsCode AI IDE
国产信创AIIDE：开启智能编程新时代随着信息技术的迅猛发展，软件开发工具也在不断演进。近年来，人工智能（AI）技术的应用为编程工具带来了革命性的变化。其中，国产信创AIIDE——InsCodeAIIDE，作为一款由CSDN、GitCode和华为云CodeArtsIDE联合开发的新一代集成开发环境（IDE），以其智能化、高效化的特点，正在引领智能编程的新时代。最新接入DeepSeek-V3模型，点
如何用Python批量将CSV文件编码转换为UTF-8并转为Excel格式？字节王德发 python python excel 开发语言
在处理数据时，CSV文件格式常常用作数据的交换格式。不过，很多情况下我们会遇到编码问题，特别是当文件不是UTF-8编码时。为了更好地处理这些文件，可能需要将它们转换为UTF-8编码，并且将其转换为Excel格式，这样可以方便后续的数据分析和使用。今天就来聊聊如何用Python实现这一过程。准备工作：安装必要的库我们需要确保安装了所需的Python库。主要用到的库有pandas和openpyxl。p
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
Python 的 ORM（Object-Relational Mapping）工具浅讲 Code_Geo python 开发语言
SQLAlchemy相关讲解1.SQLAlchemy是什么？定义：一个Python的ORM（Object-RelationalMapping）工具，允许开发者通过Python类与对象操作数据库，而非直接编写SQL。核心组件：Core：底层SQL表达式语言，提供数据库无关的SQL操作接口。ORM：基于Core的高层抽象，将数据库表映射为Python类（模型），记录映射为对象。适用场景：需要灵活操作数
人工智能（AI）系统化学习路线 xiaoyu❅ python 人工智能学习
一、为什么需要系统化学习AI？人工智能技术正在重塑各行各业，但许多初学者容易陷入误区：❌盲目跟风：直接学习TensorFlow/PyTorch，忽视数学与算法基础。❌纸上谈兵：只看理论不写代码，无法解决实际问题。❌方向模糊：对CV/NLP/RL等细分领域缺乏认知，难以针对性提升。正确的学习姿势：“金字塔式”分层学习（理论→算法→框架→应用→工程化），逐步构建完整的AI知识体系。二、人工智能学习路线
#Python 项目：实现功能——使用钉钉“自定义”机器人在群中发送文字消息 Window Unlock 钉钉 python 机器人
（目前还是新手，程序难免有废话代码，请大家耐心看__比心）第一步：创建群聊机器人，参考官方手册官方链接：自定义机器人的创建和安装-钉钉开放平台此步骤可以得到两个关键参数：Webhook（机器人的通信网址）：https://oapi.dingtalk.com/robot/send?############（如这样）secret（加签未解密密钥）：SECe2######################
3DMAX点云算法：实现毫米级BIM模型偏差检测（附完整代码）夏末之花人工智能
摘要本文基于激光雷达点云数据与BIM模型的高精度对齐技术，提出一种融合动态体素化与多模态特征匹配的偏差检测方法。通过点云预处理、语义分割、模型配准及差异分析，最终实现建筑构件毫米级偏差的可视化检测。文中提供关键代码实现，涵盖点云处理、特征提取与深度学习模型搭建。一、核心算法流程点云预处理与特征增强去噪与下采样：采用统计滤波与体素网格下采样，去除离群点并降低数据量。语义分割：基于PointNet++
Python-有效字母异位词 m0_37763377 python 哈希算法算法数据结构
一、什么是字母异位词字母异位词‌是指由相同字母组成但排列顺序不同的单词。例如，"eat"、"tea"和"ate"都是字母异位词，因为它们由相同的字母组成，只是排列顺序不同。‌二、思路（一）暴力解法这里可以用两层循环来判断2个字符串的元素是否一样，显然时间复杂度为O(n²），在这里大家可以自己写一下，文章就不再提供演示。（二）哈希表解法1.什么是哈希表？哈希表（HashTable），也称为散列表，是
LeetCode56☞合并区间 fantasy_4 LeetCode刷题 leetcode python java 算法贪心算法
关联LeetCode题号56本题特点贪心本题思路将二维数组排序按照左边界排序。排序后，右边界的大小成为找到局部最大值的关键。由题意合并区间可知，应该取数组的’并集‘，局部最优解推出全局最优解，每次找到局部最大的范围，整体就会合并成一个大区间Python写法defmerge(self,intervals):result=[]iflen(intervals)==0:returnresult#区间集合为
【python】图形用户界面和游戏开发 usp1994 python ui ide
图形用户界面和游戏开发文章目录图形用户界面和游戏开发基于tkinter模块的GUI使用Pygame进行游戏开发制作游戏窗口在窗口中绘图加载图像实现动画效果碰撞检测事件处理基于tkinter模块的GUIGUI是图形用户界面的缩写，图形化的用户界面对使用过计算机的人来说应该都不陌生，在此也无需进行赘述。Python默认的GUI开发模块是tkinter（在Python3以前的版本中名为Tkinter），
Python 爬虫实战：如何爬取小红书数据并进行分析 Python爬虫项目 python 爬虫开发语言 selenium 测试工具
一、引言随着社交电商的崛起，小红书（Xiaohongshu）作为一款结合了社交和电商的应用，吸引了大量年轻用户。用户在平台上分享购物心得、生活经验以及个性化的消费推荐内容，形成了庞大的用户数据与内容生态。因此，如何从小红书获取数据进行分析，成为了数据科学、市场营销和社交媒体研究中的一个重要课题。本文将介绍如何使用Python编写爬虫爬取小红书的数据，分析如何通过小红书的开放API获取用户信息、帖子
每日一题——二叉树的直径 tt555555555555 面经算法题 C语言数据结构算法 leetcode
二叉树的直径问题描述示例示例1示例2提示问题分析算法设计代码实现复杂度分析测试用例测试用例1测试用例2总结问题描述给定一棵二叉树的根节点，返回该树的直径。二叉树的直径是指树中任意两个节点之间最长路径的长度。这条路径可能经过也可能不经过根节点root。两节点之间路径的长度由它们之间边数表示。示例示例1输入：root=[1,2,3,4,5]输出：3解释：最长路径的长度为3，例如路径[4,2,1,3]或
Python 常用内建模块-base64 赔罪 Python 系统学习 python 前端 linux
目录base64小结练习base64Base64是一种用64个字符来表示任意二进制数据的方法。用记事本打开exe、jpg、pdf这些文件时，我们都会看到一大堆乱码，因为二进制文件包含很多无法显示和打印的字符，所以，如果要让记事本这样的文本处理软件能处理二进制数据，就需要一个二进制到字符串的转换方法。Base64是一种最常见的二进制编码方法。Base64的原理很简单，首先，准备一个包含64个字符的数
基于python的ansys_基于python的感知机 weixin_39687990 基于python的ansys
一、1、感知机可以描述为一个线性方程，用python的伪代码可表示为：sum(weight_i*x_i)+bias->activation#activation表示激活函数，x_i和weight_i是分别为与当前神经元连接的其它神经元的输入以及连接的权重。bias表示当前神经元的输出阀值(或称偏置)。箭头(->)左边的数据，就是激活函数的输入2、定义激活函数f:deffunc_activator(
python ansys workbench联动_【干货】如何在ANSYS WORKBENCH中关联几何模型和有限元模型... weixin_39644377 python ansys workbench联动
原标题：【干货】如何在ANSYSWORKBENCH中关联几何模型和有限元模型我们都知道，通过诸如HPERMESH这样的有限元网格划分软件得到的模型，在传入ANSYS以后，只包含节点和单元信息。但是当我们在WB中使用模型操作时，有时候需要选择几何特征，如在圆孔面上施加圆柱支撑，而此时对象只有单元节点信息，并无体面线的几何信息，该怎么办呢？显然，处理此问题的有效途径，在于把有限元模型与该有限元模型对应
python ansys workbench联动_如何在ANSYS WORKBENCH中关联几何模型和有限元模型 YUNYA麻麻 python ansys workbench联动
我们都知道，通过诸如HPERMESH这样的有限元网格划分软件得到的模型，在传入ANSYS以后，只包含节点和单元信息。但是当我们在WB中使用模型操作时，有时候需要选择几何特征，如在圆孔面上施加圆柱支撑，而此时对象只有单元节点信息，并无体面线的几何信息，该怎么办呢？显然，处理此问题的有效途径，在于把有限元模型与该有限元模型对应的几何模型进行关联，再一起导入到MECHANICAL中进行分析，则既能够既享
数据增强：扩充数据集提升模型泛化能力 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1.数据增强的重要性在机器学习领域，模型的泛化能力至关重要。一个泛化能力强的模型能够在未见数据上表现良好，而过拟合的模型则会在训练数据上表现出色，但在新数据上表现糟糕。数据增强是一种有效提升模型泛化能力的技术，它通过对现有数据进行各种变换，人为地扩充数据集，从而增加训练数据的数量和多样性。1.2.数据增强的应用场景数据增强广泛应用于各种机器学习任务中，包括：图像识别:对图像进行旋转
数据增强：扩充数据集，提升模型的鲁棒性 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 LLM大模型落地实战指南计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
数据增强：扩充数据集，提升模型的鲁棒性1.背景介绍1.1数据集的重要性在机器学习和深度学习领域中,数据集是训练模型的基础。高质量的数据集对于构建准确、鲁棒的模型至关重要。然而,在现实世界中,获取大量高质量的数据通常是一个巨大的挑战。数据采集过程耗时耗力,而且成本高昂。此外,某些领域的数据存在隐私和安全问题,难以获取。1.2数据集不足的挑战当数据集规模有限时,模型很容易过拟合,无法很好地推广到新的、
从关键词到权重：TF-IDF算法解析多巴胺与内啡肽. 机器学习 tf-idf 算法机器学习
文章目录前言一、TF-IDF：关键词的“价值”评估师二、TF-IDF的计算：拆解关键词的“价值”三、TF-IDF的应用：从搜索引擎到文本挖掘四、代码实现：从《红楼梦》中提取核心关键词1、分卷处理1.1代码功能1.2代码实现1.2.1、读取文件1.2.2逐行处理1.2.3.关闭文件2、分词与停用词过滤2.1代码功能2.2代码实现2.2.1读取分卷内容构建DataFrame：2.2.2分词与停用词过滤
在 Ansys Mechanical 中创建等效应力结果并使用 Python 导出到文件 David WangYang 硬件工程
介绍在AnsysMechanical模型中，通常需要对许多实体/曲面体或它们组进行后处理等效应力或总变形等。使用分组在TreeGrouping文件夹中的NamedSelections，可以在Mechanical中编写Python脚本来自动生成结果对象。此外，once可以获取新创建的结果对象，并再次使用Mechanical中的Python脚本将所有结果集的结果导出到.csv文件。在本文中，我们将探讨
【算法学习之路】12.DFS 零零时算法学习之路深度优先算法学习 c++开发语言数据结构全排列
DFS前言一.DFS简介二.思路三.缺点四.三种类型五.题目1.2前言我会将一些常用的算法以及对应的题单给写完，形成一套完整的算法体系，以及大量的各个难度的题目，目前算法也写了几篇，题单正在更新，其他的也会陆陆续续的更新，希望大家点赞收藏我会尽快更新的！！！一.DFS简介1.深度优先搜索，是一种用于遍历或搜索树或图的算法。所谓深度优先，就是说每次搜尝试向更深的节点走。2.在搜索算法中，该DFS常常
关于使用python进行处理雷达数据笔记六毛驴 python 数据分析
好久不见，甚是想念本人深知这段时间鸽了一篇博（上一篇博），后续会补上的，今天想写一下关于使用python进行TI雷达接收回波数据处理的一些常见问题和解决方法。这也是前几天领导给我布置的任务，所以我将这段时间自己遇到的并且已经解决的问题进行了简单的汇总，也会推荐几本这几天阅读了python书籍。python书籍推荐：python学习手册MarkLutz著（对应python版本3.X，2.X都可）Py
焊接性能分析代码（Python）骑蜗牛上月亮 python 开发语言
welding_performance_data.xls数据文件。welding_strengthtoughness5001052012480855015490953013510115401447075601690018600121500139111578115importpandasaspdimportmatplotlib.pyplotaspltimporttkinterastkfrommatp
从零实现B站视频下载器：Python自动化实战教程木觞清 #编程语言自动化运维
一、项目背景与实现原理1.1B站视频分发机制Bilibili的视频采用音视频分离技术，通过以下方式提升用户体验：动态码率适配（1080P/4K/HDR）分段加载技术（基于M4S格式）内容保护机制（防盗链/签名验证）1.2技术实现路线graphTDA[模拟浏览器请求]-->B[获取加密播放信息]B-->C[解析音视频地址]C-->D[多线程下载]D-->E[FFmpeg合并]二、代码逐层解析2.1请
chatgpt赋能python：Python处理雷达基数据：从入门到实践 lvsetongdao123 ChatGpt python chatgpt 开发语言计算机
Python处理雷达基数据：从入门到实践随着气象技术的不断发展，雷达探测技术已成为当今天气预报和气象研究的主要手段之一。雷达基数据是气象雷达接收到的未经加工的原始数据，因其包含大量天气信息，不仅在天气预报、天气预警等方面得到了广泛应用，还被广泛地用于气象科研和大气环境研究。本文将介绍如何使用Python处理雷达基数据，解析其中的信息，获取有效的天气数据，以及分析和可视化这些数据。雷达基数据格式与处
使用TensorFlow、OpenCV和Pygame实现图像处理与游戏开发 UwoiGit tensorflow opencv pygame
在本篇文章中，我们将介绍如何结合使用TensorFlow、OpenCV和Pygame来进行图像处理和游戏开发。这三个工具在机器学习、计算机视觉和游戏开发领域都非常流行，并且它们的结合可以提供强大的功能和无限的创造力。我们将逐步介绍如何安装和配置这些工具，并提供相关的源代码示例。安装TensorFlowTensorFlow是一个基于数据流图的开源机器学习框架，提供了丰富的工具和库来构建和训练各种深度
PTA天梯赛PYthon7-10 树的遍历胡同Alley 算法数据结构 python
给定一棵二叉树的后序遍历和中序遍历，请你输出其层序遍历的序列。这里假设键值都是互不相等的正整数。输入格式：输入第一行给出一个正整数N（≤30），是二叉树中结点的个数。第二行给出其后序遍历序列。第三行给出其中序遍历序列。数字间以空格分隔。输出格式：在一行中输出该树的层序遍历的序列。数字间以1个空格分隔，行首尾不得有多余空格。输入样例：723157641234567输出样例：4163572代码长度限制
机器学习之KMeans算法知舟不叙机器学习算法 kmeans
文章目录引言1.KMeans算法简介2.KMeans算法的数学原理3.KMeans算法的步骤3.1初始化簇中心3.2分配数据点3.3更新簇中心3.4停止条件4.KMeans算法的优缺点4.1优点4.2缺点5.KMeans算法的应用场景5.1图像分割5.2市场细分5.3文档聚类5.4异常检测6.Python实现KMeans算法7.总结引言KMeans算法是机器学习中最经典的无监督学习算法之一，广泛应
机器学习流程—数据预处理清洗不二人生机器学习机器学习人工智能数据预处理
文章目录机器学习流程—数据预处理清洗定义问题数据预处理数据加载与展示重复数据处理数据类型空值处理无关特征删除数据分布删除异常值生成标签和特征数据分割机器学习流程—数据预处理清洗数据处理是将数据从给定形式转换为更可用和更理想的形式的任务，即使其更有意义、信息更丰富。使用机器学习算法、数学建模和统计知识，整个过程可以自动化。这个完整过程的输出可以是任何所需的形式，如图形、视频、图表、表格、图像等等，具
MMScan数据集：首个最大的多模态3D场景数据集，包含层次化的语言标注数据集
2024-10-24，由上海人工智能实验室联合多所高校创建了MMScan，这是迄今为止最大的多模态3D场景数据集，包含了层次化的语言标注。数据集的建立，不仅推动了3D场景理解的研究进展，还为训练和评估多模态3D感知模型提供了宝贵的资源。一、研究背景：随着大型语言模型（LLMs）的兴起和与其他数据模态的融合，多模态3D感知因其与物理世界的连接而受到越来越多的关注，并取得了快速进展。然而，现有的数据集
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p