少云清

11_聚类算法

文章目录

1 聚类
- 1.1 什么是聚类
- 1.2 相似度/距离公式
- 1.3 聚类的思想
2 K-means算法
- 2.1 K-means算法步骤
- 2.2 K-means算法思考
- 2.3 K-means算法优缺点
3 解决K-Means算法对初始簇心比较敏感的问题
- 3.1 二分K-Means算法
- 3.2 K-Means++算法
- 3.3 K-Means||算法
- 3.4 Canopy算法
- - 3.4.1 Canopy算法常用应用场景
4 Mini Batch K-Means算法
5 聚类算法的衡量指标
- 5.1 聚类算法的衡量指标—混淆矩阵、均一性、完整性、V-measure
- 5.2 聚类算法的衡量指标—调整兰德系数(ARI)
- 5.3 聚类算法的衡量指标—调整互信息(AMI)
- 5.4 聚类算法的衡量指标—轮廓系数(Silhouette) 重点
6 层次聚类方法
- 6.1 AGNES算法中簇间距离
- 6.2 AGNES和DIANA算法优缺点
7 层次聚类优化算法
- 7.1 BIRCH算法(平衡迭代削减聚类法)（重点）
- 7.2 CURE算法(使用代表点的聚类法)
8 密度聚类方法
- 8.1 DBSCAN算法
- - 8.1.1 DBSCAN算法基本概念
  - 8.1.2 DBSCAN算法流程
  - 8.1.3 DBSCAN算法优缺点
- 8.2 密度最大值聚类算法(MDCA)
- - 8.2.1 MDCA基本概念
  - 8.2.2 MDCA算法聚类过程步骤
9 谱聚类
- 9.1 谱聚类的构建过程
- 9.2 拉普拉斯矩阵变形
- 9.3 谱聚类应用场景及面临的问题
10 综合案例：图片压缩

1 聚类

1.1 什么是聚类

聚类就是对大量未知标注的数据集，按照数据内部存在的数据特征将数据集划分为多个不同的类别，使类别内的数据比较相似，类别之间的数据相似度比较小；属于无监督学习
聚类算法的重点是计算样本项之间的相似度，有时候也称为样本间的距离
和分类算法的区别：
- 分类算法是有监督学习，基于有标注的历史数据进行算法模型构建
- 聚类算法是无监督学习，数据集中的数据是没有标注的

1.2 相似度/距离公式

1.3 聚类的思想

给定一个有M个对象的数据集，构建一个具有k个簇的模型，其中k<=M。满足以下条件：
- 每个簇至少包含一个对象
- 每个对象属于且仅属于一个簇
- 将满足上述条件的k个簇成为一个合理的聚类划分
基本思想：对于给定的类别数目k，首先给定初始划分，通过迭代改变样本和簇的隶属关系，使得每次处理后得到的划分方式比上一次的好(总的数据集之间的距离和变小了)

2 K-means算法

2.1 K-means算法步骤

K-means算法，也称为K-平均或者K-均值，是一种使用广泛的最基础的聚类算法，一般作为掌握聚类算法的第一个算法
假设输入样本为T=X₁,X₂,…,X_m；则算法步骤为（使用欧几里得距离公式）：
- 选择初始化的k个类别中心a₁,a₂,…a_k；
- 对于每个样本X_i，将其标记位距离类别中心a_j最近的类别j
- 更新每个类别的中心点a_j为隶属该类别的所有样本的均值
- 重复上面两步操作，直到达到某个中止条件
中止条件：
- 迭代次数、最小平方误差MSE、簇中心点变化率

2.2 K-means算法思考

K-means算法在迭代的过程中使用所有点的均值作为新的质点(中心点)，如果簇中存在异常点，将导致均值偏差比较严重
- 比如一个簇中有2、4、6、8、100五个数据，那么新的质点为24，显然这个质点离绝大多数点都比较远；在当前情况下，使用中位数6可能比使用均值的想法更好，使用中位数的聚类方式叫做K-Mediods聚类(K中值聚类)
K-means算法是初值敏感的，选择不同的初始值可能导致不同的簇划分规则
- 为了避免这种敏感性导致的最终结果异常性，可以采用初始化多套初始节点构造不同的分类规则，然后选择最优的构造规则

2.3 K-means算法优缺点

缺点：

K值是用户给定的，在进行数据处理前，K值是未知的，不同的K值得到的结果也不一样；
对初始簇中心点是敏感的
不适合发现非凸形状的簇或者大小差别较大的簇
特殊值(离群值)对模型的影响比较大

优点：

理解容易，聚类效果不错
处理大数据集的时候，该算法可以保证较好的伸缩性和高效率
当簇近似高斯分布的时候，效果非常不错

3 解决K-Means算法对初始簇心比较敏感的问题

3.1 二分K-Means算法

解决K-Means算法对初始簇心比较敏感的问题，二分K-Means算法是一种弱化初始质心的一种算法，具体思路步骤如下：

将所有样本数据作为一个簇放到一个队列中
从队列中选择一个簇进行K-means算法划分，划分为两个子簇，并将子簇添加到队列中
循环迭代第二步操作，直到中止条件达到（聚簇数量、最小平方误差、迭代次数等）
队列中的簇就是最终的分类簇集合

从队列中选择划分聚簇的规则一般有两种方式；分别如下：

对所有簇计算误差和SSE(SSE也可以认为是距离函数的一种变种)，选择SSE最大的聚簇进行划分操作(优选这种策略)
选择样本数据量最多的簇进行划分操作

3.2 K-Means++算法

解决K-Means算法对初始簇心比较敏感的问题，K-Means++算法和K-Means算法的区别主要在于初始的K个中心点的选择方面，K-Means算法使用随机给定的方式，K-Means++算法采用下列步骤给定K个初始质点：

从数据集中任选一个节点作为第一个聚类中心
对数据集中的每个点x，计算x到所有已有聚类中心点的距离和D(X)，基于D(X)采用线性概率选择出下一个聚类中心点(距离较远的一个点成为新增的一个聚类中心点)
重复步骤2直到找到k个聚类中心点

缺点：

由于聚类中心点选择过程中的内在有序性，在扩展方面存在着性能方面的问题(第k个聚类中心点的选择依赖前k-1个聚类中心点的值)

3.3 K-Means||算法

解决K-Means++算法缺点而产生的一种算法；主要思路是改变每次遍历时候的取样规则，并非按照K-Means++算法每次遍历只获取一个样本，而是每次获取K个样本，重复该取样操作O(logn)次，然后再将这些抽样出来的样本聚类出K个点，最后使用这K个点作为K-Means算法的初始聚簇中心点。实践证明：一般5次重复采用就可以保证一个比较好的聚簇中心点。

3.4 Canopy算法

Canopy算法属于一种“粗”聚类算法，执行速度较快，但精度较低，算法执行
步骤如下：

给定样本列表L=x₁，x₂…，x_m以及先验值r1和r2(r1>r2)
从列表L中获取一个节点P，计算P到所有聚簇中心点的距离(如果不存在聚簇中心，那么此时点P形成一个新的聚簇)，并选择出最小距离D(P,a_j) 【表示p到簇中心点a_j的最小距离】
如果距离D小于r1，表示该节点属于该聚簇，添加到该聚簇列表中
如果距离D小于r2，表示该节点不仅仅属于该聚簇，还表示和当前聚簇中心点非常近，所以将该聚簇的中心点设置为该簇中所有样本的中心点，并将P从列表L中删除
如果距离D大于r1，那么节点P形成一个新的聚簇
直到列表L中的元素数据不再有变化或者元素数量为0的时候，结束循环操作

3.4.1 Canopy算法常用应用场景

由于K-Means算法存在初始聚簇中心点敏感的问题，常用使用Canopy+KMeans算法混合形式进行模型构建

先使用canopy算法进行“粗”聚类得到K个聚类中心点
K-Means算法使用Canopy算法得到的K个聚类中心点作为初始中心点，进行“细”聚类

优点：

执行速度快(先进行了一次聚簇中心点选择的预处理)
不需要给定K值，应用场景多
能够缓解K-Means算法对于初始聚类中心点敏感的问题

4 Mini Batch K-Means算法

Mini Batch K-Means算法是K-Means算法的一种优化变种，采用小规模的数据子集(每次训练使用的数据集是在训练算法的时候随机抽取的数据子集)减少计算时间，同时试图优化目标函数；Mini Batch K-Means算法可以减少K-Means算法的收敛时间，而且产生的结果效果只是略差于标准K-Means算法

算法步骤如下：

首先抽取部分数据集，使用K-Means算法构建出K个聚簇点的模型
继续抽取训练数据集中的部分数据集样本数据，并将其添加到模型中，分配给距离最近的聚簇中心点
更新聚簇的中心点值
循环迭代第二步和第三步操作，直到中心点稳定或者达到迭代次数，停止计算操作

5 聚类算法的衡量指标

5.1 聚类算法的衡量指标—混淆矩阵、均一性、完整性、V-measure

需要引入y

5.2 聚类算法的衡量指标—调整兰德系数(ARI)

需要引入y

5.3 聚类算法的衡量指标—调整互信息(AMI)

需要引入y

5.4 聚类算法的衡量指标—轮廓系数(Silhouette) 重点

簇内不相似度：计算样本 i 到同簇其它样本的平均距离为a_i；a_i越小，表示样本 i 越应该被聚类到该簇，簇C中的所有样本的a_i的均值被称为簇C的簇不相似度。
簇间不相似度：计算样本 i 到其它簇C_j的所有样本的平均距离b_ij，b_i=min{b_i1,b_i2,…,b_ik}；b_i越大，表示样本 i 越不属于其它簇。
轮廓系数：S_i值越接近1表示样本 i 聚类越合理；越接近-1，表示样本 i 应该分类到另外的簇中；近似为0，表示样本 i 应该在边界上；所有样本的S_i的均值被成为聚类结果的轮廓系数

6 层次聚类方法

层次聚类方法对给定的数据集进行层次的分解，直到满足某种条件为止，传统的层次聚类算法主要分为两大类算法：

凝聚的层次聚类：AGNES算法(AGglomerative NESting)——>采用自底向上的策略。最初将每个对象作为一个簇，然后这些簇根据某些准则被一步一步合并，两个簇间的距离可以由这两个不同簇中距离最近的数据点的相似度来确定；聚类的合并过程反复进行直到所有的对象满足簇数目。
分裂的层次聚类：DIANA算法(DIvisive ANALysis)——>采用自顶向下的策略。首先将所有对象置于一个簇中，然后按照某种既定的规则逐渐细分为越来越小的簇(比如最大的欧式距离)，直到达到某个终结条件(簇数目或者簇距离达到阈值)。

6.1 AGNES算法中簇间距离

最小距离(SL聚类)
- 两个聚簇中最近的两个样本之间的距离(single/word-linkage聚类法)
- 最终得到模型容易形成链式结构
最大距离(CL聚类)
- 两个聚簇中最远的两个样本的距离(complete-linkage聚类法)
- 如果存在异常值，那么构建可能不太稳定
平均距离(AL聚类)
- 两个聚簇中样本间两两距离的平均值(average-linkage聚类法)
- 两个聚簇中样本间两两距离的中值(median-linkage聚类法)

6.2 AGNES和DIANA算法优缺点

简单，理解容易
合并点/分裂点选择不太容易
合并/分类的操作不能进行撤销
大数据集不太适合
执行效率较低O(t*n²)，t为迭代次数，n为样本点数

7 层次聚类优化算法

7.1 BIRCH算法(平衡迭代削减聚类法)（重点）

BIRCH算法(平衡迭代削减聚类法)：聚类特征使用3元组进行一个簇的相关信息，通过构建满足分枝因子和簇直径限制的聚类特征树来求聚类，聚类特征树其实是一个具有两个参数分枝因子和类直径的高度平衡树；分枝因子规定了树的每个节点的子女的最多个数，而类直径体现了对这一类点的距离范围；非叶子节点为它子女的最大特征值；聚类特征树的构建可以是动态过程的，可以随时根据数据对模型进行更新操作。

优缺点：

适合大规模数据集，线性效率；
只适合分布呈凸形或者球形的数据集、需要给定聚类个数和簇之间的相关参数；

类直径：主要用于判断样本是否属于当前簇
分支因子：当一个节点的子节点数目超过分支因子的时候，那么将这个节点划分成为两个子节点；当一个叶子节点中的样本数目超过分支因子的时候，将叶子节点分成两个叶子节点

7.2 CURE算法(使用代表点的聚类法)

CURE算法(使用代表点的聚类法)：该算法先把每个数据点看成一类，然后合并距离最近的类直至类个数为所要求的个数为止。但是和AGNES算法的区别是：取消了使用所有点或用中心点+距离来表示一个类，而是从每个类中抽取固定数量、分布较好的点作为此类的代表点，并将这些代表点乘以一个适当的收缩因子，使它们更加靠近类中心点。代表点的收缩特性可以调整模型可以匹配那些非球形的场景，而且收缩因子的使用可以减少噪音对聚类的影响

优缺点：

能够处理非球形分布的应用场景
采用随机抽样和分区的方式可以提高算法的执行效率

8 密度聚类方法

密度聚类方法的指导思想: 只要样本点的密度大于某个阈值，则将该样本添加到最近的簇中
这类算法可以克服基于距离的算法只能发现凸聚类的缺点，可以发现任意形状的聚类，而且对噪声数据不敏感。
计算复杂度高，计算量大
常用算法：
- DBSCAN
- 密度最大值算法

8.1 DBSCAN算法

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)
一个比较有代表性的基于密度的聚类算法，相比于基于划分的聚类方法和层次聚类方法，DBSCAN算法将簇定义为密度相连的点的最大集合，能够将足够高密度的区域划分为簇，并且在具有噪声的空间数据集能够发现任意形状的簇。
DBSCAN算法的核心思想是：用一个点的ε邻域内的邻居点数衡量该点所在空间的密度，该算法可以找出形状不规则的cluster，而且聚类的时候事先不需要给定cluster的数量

8.1.1 DBSCAN算法基本概念

8.1.2 DBSCAN算法流程

算法流程：

如果一个点x的ε邻域包含多余m个对象，则创建一个x作为核心对象的新簇；
寻找并合并核心对象直接密度可达的对象；
没有新点可以更新簇的时候，算法结束。

算法特征描述:

每个簇至少包含一个核心对象
非核心对象可以是簇的一部分，构成簇的边缘
包含过少对象的簇被认为是噪声

8.1.3 DBSCAN算法优缺点

优点：

不需要事先给定cluster的数目
可以发现任意形状的cluster
能够找出数据中的噪音，且对噪音不敏感
算法只需要两个输入参数
聚类结果几乎不依赖节点的遍历顺序

缺点：

DBSCAN算法聚类效果依赖距离公式的选取，最常用的距离公式为欧几里得距离。但是对于高维数据，由于维数太多，距离的度量已变得不是那么重要
DBSCAN算法不适合数据集中密度差异很小的情况

8.2 密度最大值聚类算法(MDCA)

MDCA(Maximum Density Clustering Application)算法基于密度的思想引入划分聚类中，使用密度而不是初始点作为考察簇归属情况的依据，能够自动确定簇数量并发现任意形状的簇；另外MDCA一般不保留噪声，因此也避免了阈值选择不当情况下造成的对象丢弃情况。
MDCA算法的基本思路是寻找最高密度的对象和它所在的稠密区域；MDCA算法在原理上来讲，和密度的定义没有关系，采用任意一种密度定义公式均可，一般情况下采用DBSCAN算法中的密度定义方式。

8.2.1 MDCA基本概念

8.2.2 MDCA算法聚类过程步骤

将数据集划分为基本簇；
- 对数据集X选取最大密度点P_max，形成以最大密度点为核心的新簇C_i，按照距离排序计算出序列S_pmax，对序列的前M个样本数据进行循环判断，如果节点的密度大于等于density₀，那么将当前节点添加C_i中；
- 循环处理剩下的数据集X，选择最大密度点P_max，并构建基本簇C_i+1，直到X中剩余的样本数据的密度均小于density₀
使用凝聚层次聚类的思想，合并较近的基本簇，得到最终的簇划分；
- 在所有簇中选择距离最近的两个簇进行合并，合并要求是：簇间距小于等于dist₀,如果所有簇中没有簇间距小于dist₀的时候，结束合并操作
处理剩余节点，归入最近的簇
- 最常用、最简单的方式是：将剩余样本对象归入到最近的簇

9 谱聚类

谱聚类是基于谱图理论基础上的一种聚类方法，与传统的聚类方法相比：具有在任意形状的样本空间上聚类并且收敛于全局最优解的优点。
通过对样本数据的拉普拉斯矩阵的特征向量进行聚类，从而达到对样本数据进行聚类的目的；其本质是将聚类问题转换为图的最优划分问题，是一种点对聚类算法。
谱聚类算法将数据集中的每个对象看做图的顶点V，将顶点间的相似度量化为相应顶点连接边E的权值w，这样就构成了一个基于相似度的无向加权图G(V,E)，于是聚类问题就转换为图的划分问题。基于图的最优划分规则就是子图内的相似度最大，子图间的相似度最小。

9.1 谱聚类的构建过程

构建表示对象相似度的矩阵W
构建度矩阵D(对角矩阵)
构建拉普拉斯矩阵L
计算矩阵L的前k个特征值的特征向量(k个列向量)
将k个列向量组成矩阵U
对矩阵U中的n行数据利用K-means或其它经典聚类算法进行聚类得出最终结果

9.2 拉普拉斯矩阵变形

9.3 谱聚类应用场景及面临的问题

应用场景
- 图形聚类、计算机视觉、非凸球形数据聚类等
面临的问题
- 相似度矩阵的构建问题：业界一般使用高斯相似函数或者k近邻来作为相似度量，一般建议使用k近邻的方式来计算相似度权值
- 聚类数目的给定
- 如何选择特征向量
- 如何提高谱聚类的执行效率

10 综合案例：图片压缩

有时候在存储图片的时候，我们会在清晰度和图片大小两方面进行进行均衡，对于某些情况下，我们可能会将一个清晰的图片转换成为一个相对不太清晰的图片，因此存储的图片大小会降低很多，这里介绍一种基于聚类算法的减小图片大小的方式，使用K-Means算法对图片进行聚类矢量化图片，从而达到图片压缩的效果。

【AI 赋能：Python 人工智能应用实战】5. 梯度下降家族：SGD/Adam优化器对比实验与选择策略 AI_DL_CODE 人工智能 python 梯度下降优化器 SGD Adam PyTorch
摘要：本文系统解析梯度下降优化器的核心原理与演进脉络，构建从理论到实战的完整知识体系。理论部分梳理优化器发展里程碑，从1951年的SGD到2018年的AdamW，揭示技术迭代逻辑；通过数学公式对比SGD、Momentum、Adam等核心算法的更新机制，解析动量加速、自适应学习率的创新点。结合损失曲面分析，阐释Momentum如何逃离鞍点、Adam如何处理悬崖梯度。实战模块基于PyTorch在MNI
脱岗离岗逃岗监测识别软件系统平台标检测算法#YOLO
值班脱岗智能监测识别系统是一种利用AI视频智能分析技术的智能化系统，能够对办公工作岗位区域、岗亭、值班室、生产线岗位等进行7*24小时不间断实时监测。该系统的出现，有助于提高工作效率，确保工作秩序的正常运行，同时也能有效避免值班人员脱岗、懈怠等现象的发生。该系统的工作原理是通过高清摄像头捕捉实时画面，然后利用AI视频智能分析技术对画面进行实时分析，识别出是否有人脱岗、懈怠或者有其他异常情况发生。当
颠覆未来：创新代码引领人工智能与量子计算深度融合金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 人工智能量子计算
摘要在信息时代飞速演进的背景下，人工智能与量子计算正以前所未有的速度互相融合，推动着科技边界的不断拓展。本文回顾了经典算法的智慧，展示了前沿深度学习模型的构建，并通过量子电路设计探讨了创新代码的可能性，为探索未来科技变革提供了全新视角。1.引言当前，科技创新正处于高速迭代的关键阶段，传统计算方法与新型技术的交汇处正成为研究热点。人工智能的发展已渗透到各行各业，而量子计算的崛起则为解决复杂计算问题提
智界R7智驾功能和性能评价 TheWanderers 智能驾驶智界
一、智驾行车能力标题硬件配置与系统架构感知硬件：Max/Ultra版搭载1个192线激光雷达、3个毫米波雷达（含1个4D成像雷达）、12个超声波雷达、11个高清摄像头（含前向800万像素双目+鱼眼镜头）。Pro版未配备激光雷达，但保留3个毫米波雷达和10个摄像头。核心算法：HUAWEIADS3.0系统，基于端到端架构，整合感知、决策与控制模块，支持全场景目标识别（如非标准障碍物、夜间行人）。算力支
人工智能视频分析系统人员离岗报警设计方案 liuhu21 人工智能云计算运维
一、方案概述近几年安防监控技术不断的进步，特别是在人工智能推出之后。安防监控系统结合人工智能算法做到了许多以前无法做到的事情。就比如我们今天要说的离岗检测报警监控系统。以前我们只能通过人工值守监控室的方式，通过人的判断去观看现场人员在岗情况。如今有了离岗检测监控系统，系统可以自动监测现场人员是否在岗、离岗时间以及离岗人数等等。这样，大大减少了监控室值班人员的工作量，同时相较人工监管提升了工作效率。
第十二届“中关村青联杯”全国研究生数学建模竞赛-A题：水面舰艇编队防空和信息化战争评估模型（续）（附MATLAB代码实现）格图素书大数据竞赛赛题解析数学建模
目录5.3.3问题三的总结5.4问题四的模型建立与求解5.4.1问题分析5.4.2计算方位角和航向角5.4.3计算距离D和水平速度5.4.4分析并建立模型5.4.4.1聚类分析方法的提出5.4.4.2模型的建立5.4.5问题四的总结5.5问题五的模型建立与求解5.5.1问题五的分析5.5.2传统的战争评估模型5.5.2.1正规作战模型5.5.2.2游击作战模型5.5.2.3混合作战模型5.5.3信
睡岗离岗检测算法 Python 燧机科技SuiJi 人工智能 python 算法深度学习神经网络
睡岗离岗检测算法的核心在于实时监控和智能分析，睡岗离岗检测算法通过安装在关键区域的监控摄像头，系统能够捕捉到员工的活动画面。当系统检测到人体位置长时间未发生变化时，将启动睡姿分类器。该分类器能够识别多种睡姿，如趴在桌子上睡、坐在凳子上后仰睡等。一旦识别为睡姿，系统将立即触发告警机制。这可以通过向管理人员发送警报信号，或通过语音提醒员工的方式实现。睡岗离岗检测算法在多种场景下均有广泛应用。该算法能够
微算法科技技术创新，将量子图像LSQb算法与量子加密技术相结合，构建更加安全的量子信息隐藏和传输系统
随着信息技术的发展，数据的安全性变得尤为重要。在传统计算模式下，即便采用复杂的加密算法，也难以完全抵御日益增长的网络攻击威胁。量子计算技术的出现为信息安全带来了新的解决方案。然而，量子图像处理领域仍面临复杂度高、效率低的问题。微算法科技通过将量子图像LSQb算法与量子加密技术相结合，提出了一种全新的信息隐藏和传输方案，旨在构建更加安全高效的数据保护机制。LSQb算法，即量子图像的最小有效量子比特算
5万人流挤地铁如何追踪？陌讯算法实战FPS飙升300%
开篇痛点在智慧城市安防场景中，传统视觉算法常面临“三难困境”：低光照漏检率飙升（夜间误报率超30%）、人群遮挡ID切换混乱（MOTA指标＜50%）、硬件资源吃紧（1080P视频流处理＞200ms）。某省会交警平台曾反馈：“雨雾天车牌识别准确率骤降至65%，追踪目标平均5分钟丢失1次”。技术解析：动态多目标蒸馏网络陌讯视觉算法创新性融合多任务蒸馏架构与时空注意力机制，攻克复杂场景泛化难题。核心公式创
3步实现安防高精度检测：陌讯算法夜间监控落地实战 2501_92474745 目标跟踪人工智能计算机视觉算法目标检测视觉检测
开篇痛点：安防监控系统在实时目标检测中常面临严峻挑战。实测数据显示，传统算法在低光、遮挡或动态场景下，泛化能力不足，导致平均误报率高达15%（数据来源：安防行业报告）。尤其在夜间或拥挤环境下，系统卡顿、漏检频发，不仅降低响应效率，还增加安全隐患。例如，某城市交通监控中心反馈，其开源模型在高密度人流中出现每秒帧率（FPS）骤降至20帧以下，引发报警延迟问题。这些问题根源在于算法鲁棒性和实时性不足，亟
离岗误报率 20%？陌讯时序算法实测降 90% 2501_92474711 算法计算机视觉目标跟踪机器学习人工智能边缘计算
开篇：工业安防中的"隐形漏洞"在制造业车间、变电站等关键场景，离岗检测是保障生产安全的核心环节。传统监控系统依赖人工巡检，存在85%的漏检率；而普通视觉算法在光照变化、人员遮挡场景下，误报率常高达20%以上[实测数据显示]。某汽车零部件厂曾因离岗检测失效导致设备空转2小时，直接损失超12万元。这种"看得见的监控，防不住的风险"困境，凸显了传统视觉方案在复杂工业场景中的局限性。技术解析：从单帧检测到
雨天障碍物漏检？陌讯多模态算法实测 98% 准确率 2501_92474711 算法目标跟踪人工智能计算机视觉
开篇痛点：自动驾驶视觉系统的“暗礁”在自动驾驶感知层，路面障碍物识别堪称“生命线工程”。传统视觉算法在复杂场景下常面临三重困境：雨天水雾导致特征模糊时漏检率高达25%，逆光环境下小目标（如碎石、井盖）检出率不足60%，而追求高精度又会导致帧率跌破20FPS，难以满足实时性要求[1]。某车企实测数据显示，传统YOLOv8在城郊混合路况中，因障碍物识别延迟引发的决策偏差占测试事故的37%，这些问题成为
打造智能资讯引擎：基于 Python 的新闻数据爬取与个性化推荐系统实战全流程解析程序员威哥最新爬虫实战项目 python 开发语言
前言：数据时代的信息洪流，如何做到“千人千面”？在信息爆炸的时代，每天都有成千上万条新闻资讯涌现。如何从海量内容中挖掘出用户感兴趣的资讯？这不仅仅是爬虫技术的问题，更是数据建模与智能推荐算法的落地挑战。本篇文章将带你从零出发，构建一个具有实际应用价值的“个性化新闻阅读推荐系统”，从数据采集（爬虫）、文本处理（NLP）、兴趣建模（TF-IDF/协同过滤/Embedding）到推荐展示，覆盖整个推荐系
题解 | #使用join查询找出没有分类的电影id以及名称# 愤怒的小青春 java
58同城java后端一面凉经主流的哈希算法有哪几种？帮闺蜜们找靠谱男票hc多多光彩积云是什么企业，查不到有用信息太抽象了！培训班装公司招聘阿里巴巴前端暑期实习——无语八面挂怎么写自我介绍|自我介绍保姆级教学灵犀互娱客户端一面面经(求过啊)24找运维实习，这简历可行吗拓竹科技测试开发面经（25届暑期实习）分享一波攒了整个秋招的NLP算法岗面经腾讯广告暑期实习面试1、JVM垃圾回收机制2、syncho
【算法题解】部分洛谷题解(下) 日月星辰cmc 算法分析与设计算法
前言本篇为我做过的洛谷题的部分题解，大多是我认为比较具有代表性的或者比较有意思的题目，包含我自己的思考过程和想法。[NOIP2001提高组]一元三次方程求解题目描述有形如：ax3+bx2+cx+d=0ax^3+bx^2+cx+d=0ax3+bx2+cx+d=0这样的一个一元三次方程。给出该方程中各项的系数（a,b,c,da,b,c,da,b,c,d均为实数），并约定该方程存在三个不同实根（根的范围
LeetCode - 3274. Check if Two Chessboard Squares Have the Same Color 阿蒙Armon LeetCode leetcode 算法职场和发展
LeetCode-3274.CheckifTwoChessboardSquaresHavetheSameColor在LeetCode的算法题库中，有许多有趣的题目将实际场景与编程逻辑相结合，LeetCode3274题CheckifTwoChessboardSquaresHavetheSameColor便是其中之一。这道题以国际象棋棋盘为背景，要求我们判断给定的两个方格颜色是否相同。通过解决这道题，
算法竞赛备考冲刺必刷题（C++） | 洛谷 P1024 一元三次方程求解热爱编程的通信人 c++算法开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：
监控漏检频发？陌讯YOLOv7实时优化方案召回率提升25% 2501_92489016 目标跟踪人工智能计算机视觉算法目标检测视觉检测智慧城市
一、开篇痛点在安防监控领域，传统目标检测模型面临三重困境：实时性差：1080P视频流处理普遍低于20FPS（VGG16仅15FPS）漏检率高：密集场景下小目标召回率常低于60%（COCO-val实测数据）部署成本高：ResNet-101需8GB显存，难以边缘化部署某智慧园区项目显示：夜间误报率高达34%，运维成本激增300%二、技术解析：陌讯SlimYOLO架构创新针对上述痛点，陌讯视觉算法提出三
TensorFlow GPU 2.10.1 for Python 3.9快速安装指南疑样
本文还有配套的精品资源，点击获取简介：TensorFlowGPU2.10.1是专为Windowsx64和Python3.9设计的TensorFlow版本，它集成了GPU支持以加快深度学习模型的训练。本指南提供了该版本的概述、安装步骤及注意事项，旨在帮助开发者利用其性能优势提升机器学习项目的效率。1.TensorFlowGPU介绍1.1TensorFlow的起源与功能TensorFlow是由Goog
进阶向:基于Python的智能客服系统设计与实现
智能客服系统开发指南系统概述智能客服系统是人工智能领域的重要应用，它通过自然语言处理(NLP)和机器学习技术自动化处理用户查询，显著提升客户服务效率和响应速度。基于Python的实现方案因其丰富的生态系统（如NLTK、spaCy、Transformers等库）、跨平台兼容性以及易于集成的特点，成为开发智能客服系统的首选。系统架构系统核心包括两个主要功能模块：1.API集成模块负责连接各类外部服务，
JAVA刷题记录: 专题十五 BFS解决FloodFill算法用屁屁笑宽度优先算法
733.图像渲染-力扣（LeetCode）classSolution{int[]dx={0,0,-1,1};int[]dy={1,-1,0,0};publicint[][]floodFill(int[][]image,intsr,intsc,intcolor){intprev=image[sr][sc];if(color==prev)returnimage;Queueq=newLinkedList
14.优化算法之BFS解决FloodFill算法1 muyierfly 算法题算法宽度优先深度优先
0.FloodFill简介dfs：深度优先遍历（红色）bfs：宽度优先遍历1.图像渲染算法原理classSolution{int[]dx={0,0,1,-1};int[]dy={1,-1,0,0};publicint[][]floodFill(int[][]image,intsr,intsc,intcolor){intprev=image[sr][sc];//统计刚开始的颜⾊if(prev==co
BFS 解决 FloodFill 算法(C++) lim 鹏哥刷题算法宽度优先 c++
文章目录前言一、概念二、岛屿数量1.题目链接2.算法原理3.代码编写三、被围绕的区域1.题目链接2.算法原理3.代码编写总结前言一、概念BFS就是广度优先遍历，也就是层序遍历。FloodFill是指在数组中找出性质相同的连通块，并根据题目进行操作。二、岛屿数量1.题目链接200.岛屿数量2.算法原理遍历整个矩阵，每找到一块陆地，记录一次。我们怎末知道我们是否已经遍历过这个地方了呢？？方法1：如果遍
BFS-FloodFill 算法解决最短路问题多源解决拓扑排序 penguin_bark #BFS 算法宽度优先 leetcode
文章目录一、FloodFill算法[733.图像渲染](https://leetcode.cn/problems/flood-fill/description/)2.思路3.代码[200.岛屿数量](https://leetcode.cn/problems/number-of-islands/description/)2.思路3.代码[LCR105.岛屿的最大面积](https://leetcod
机器学习专栏（62）：手把手实现工业级ResNet-34及调优全攻略
目录一、ResNet革命性突破解析1.1残差学习核心思想1.2ResNet-34结构详解二、工业级Keras实现详解2.1数据预处理流水线2.2完整模型实现三、模型训练调优策略3.1学习率动态调整3.2混合精度训练四、性能优化技巧4.1分布式训练配置4.2TensorRT推理加速五、实战应用案例5.1医疗影像分类5.2工业质检系统六、模型可视化分析6.1特征热力图6.2参数量分析七、常见问题解决方
头盔识别误报率高？陌讯YOLOv7优化方案实测准确率达99%！
开篇痛点：算法失效的致命时刻在智慧交通领域，电动车头盔识别长期面临三大痛点：漏检危机：行人遮挡、雨天反光导致传统算法漏检率高达15%（某头部车企实测数据）误报泛滥：相似物体（背包、安全帽）误识别率超20%实时性缺陷：开源模型在1080P视频流中处理延时＞200ms，无法满足实时预警需求技术解析：陌讯算法三重创新架构graphTDA[双路输入]-->B[多尺度特征融合模块]B-->C[空间注意力机制
「感恩日语」2021-303篇，吸渣体质能学多少学多少
学习感悟，避免成为“吸渣”体质很重要，“环境”能改变人，学会甄别那些“书籍”、那些“文章”（论文）对自己成长有利，而非“奶头乐”系统算法之类推送的让自己无法自拔的内容，个人每天、每周、每月、每年、一生总时间是有限的，缩小到每天，计算一下每天浪费有多少，真正发挥价值时间效力有多少，简单做个记录，会发现很可怕。同时找到了为什么每天进步一点点的重要性，只跟昨天的自己，前天的自己比较一下，很重要，多做对自
模式识别与机器学习课程笔记（1）：数学基础 Ro Jace 学习笔记机器学习笔记人工智能
模式识别与机器学习课程笔记（1）：数学基础特征矢量和特征空间随机矢量的描述随机矢量的分布函数随机矢量的数字特征随机变量、随机矢量间的统计关系随机矢量的变换正态分布正态分布的定义正态分布随机矢量的性质离散随机矢量及其分布信息论矩阵微分法基本知识矢量或矩阵对于数量变量的微分二、数量函数对于矢量的微分三、矢量函数对于矢量的微分特征矢量和特征空间特征量的类型：物理量、次序量、名义量物理量：直接反映特征的实
监控漏检率 30%？陌讯多模态算法实测优化
破解智慧城市视觉算法困境：陌讯多模态融合技术实战解析在智慧城市建设中，视觉算法作为感知层核心技术，正面临着日益严峻的挑战。传统目标检测算法在暴雨、逆光、遮挡等复杂环境下，漏检率常高达25%-40%，直接导致交通违章误判、异常事件漏报等问题。某新一线城市交管部门曾反馈，现有系统对无牌车的识别准确率不足65%，严重影响执法效率[实测数据来源]。这些痛点的核心在于传统单模态算法难以应对城市环境的动态变化
智慧城管新突破：陌讯动态量化技术实现端侧模型压缩20倍 2501_92487735 目标跟踪人工智能计算机视觉算法目标检测视觉检测边缘计算
开篇痛点深夜暴雨中的违规占道经营检测误报率超60%，光照反射干扰导致传统YOLOv5召回率暴跌——这是某省会城市智慧城管项目的真实困境。当算法工程师面对复杂城市场景时，环境干扰、小目标密集、实时性要求构成三重技术难关。技术解析：陌讯自适应多模态架构传统单阶段检测器在雨天场景失效的核心原因，在于固定感受野难以适应尺度突变目标。陌讯算法引入动态梯度调制机制，通过特征金字塔的跨层权重自适应调整，显著提升
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1

11_聚类算法

文章目录

1 聚类

1.1 什么是聚类

1.2 相似度/距离公式

1.3 聚类的思想

2 K-means算法

2.1 K-means算法步骤

2.2 K-means算法思考

2.3 K-means算法优缺点

3 解决K-Means算法对初始簇心比较敏感的问题

3.1 二分K-Means算法

3.2 K-Means++算法

3.3 K-Means||算法

3.4 Canopy算法

3.4.1 Canopy算法常用应用场景

4 Mini Batch K-Means算法

5 聚类算法的衡量指标

5.1 聚类算法的衡量指标—混淆矩阵、均一性、完整性、V-measure

5.2 聚类算法的衡量指标—调整兰德系数(ARI)

5.3 聚类算法的衡量指标—调整互信息(AMI)

5.4 聚类算法的衡量指标—轮廓系数(Silhouette) 重点

6 层次聚类方法

6.1 AGNES算法中簇间距离

6.2 AGNES和DIANA算法优缺点

7 层次聚类优化算法

7.1 BIRCH算法(平衡迭代削减聚类法)（重点）

7.2 CURE算法(使用代表点的聚类法)

8 密度聚类方法

8.1 DBSCAN算法

8.1.1 DBSCAN算法基本概念

8.1.2 DBSCAN算法流程

8.1.3 DBSCAN算法优缺点

8.2 密度最大值聚类算法(MDCA)

8.2.1 MDCA基本概念

8.2.2 MDCA算法聚类过程步骤

9 谱聚类

9.1 谱聚类的构建过程

9.2 拉普拉斯矩阵变形

9.3 谱聚类应用场景及面临的问题

10 综合案例：图片压缩

你可能感兴趣的:(机器学习,算法,聚类,机器学习)