学习笔记：聚类算法Kmeans/K-均值算法

前记

Kmeans是最简单的聚类算法之一，但是运用十分广泛，最近看到别人找实习笔试时有考到Kmeans，故复习一下顺手整理成一篇笔记。Kmeans的目标是：把n 个样本点划分到k 个类簇中，使得每个点都属于离它最近的质心对应的类簇，以之作为聚类的标准。质心，是指一个类簇内部所有样本点的均值。

算法描述

?

Step 
1
. 从数据集中随机选取K个点作为初始质心

将每个点指派到最近的质心，形成k个类簇

Step 
2
. repeat

重新计算各个类簇的质心(即类内部点的均值)

重新将每个点指派到最近的质心，形成k个类簇

until    质心不再波动

例如下图的样本集，我们目标是分成3个类簇，初始随机选择的3个质心比较集中，但是迭代4次之后，质心趋于稳定，并将样本集分为3部分。

Kmeans算法，对于距离度量可以使用余弦相似度，也可以使用欧式距离或其它标准；质心，是指一个类簇内部所有样本点的均值；随机初始化的质心，当随机效果不理想时，Kmeans算法的迭代次数变多。Kmeans算法思想比较简单，但实用。

代码实现

?

package 
kmeans;

public 
class 
Point {

public 
double
[] x;    
// 特征维度

public 
int 
len_arr;    
// 特征维数

public 
boolean 
isSample = 
false
;    
// True判断是数据集的点，False是第二次kmenas所计算得来的质心

public 
int 
id;    
// 质心分配的id=0

public 
String text;    
// 用于描述鸢尾花种类

public 
Point(
double
[] x, 
int 
len_arr, 
boolean 
isSample, 
int 
id) {

this
.x = x;

this
.len_arr = len_arr;

this
.isSample = isSample;

this
.id = id;

}

// 计算欧氏距离

public 
double 
Distance(Point other) {

double 
sum = 
0
;

for 
(
int 
i = 
0
; i < len_arr; i++) {

sum += Math.pow(x[i] - other.x[i], 
2
);

}

sum = Math.sqrt(sum);

return 
sum;

}

// 以下两个方法用于数据结构Set, 第一次kmeans生成k个随机点时用到

@Override

public 
boolean 
equals(Object other) {

if 
(other.getClass() != Point.
class
) {

return 
false
;

}

return 
id == ((Point) other).id;

}

@Override

public 
int 
hashCode() {

return 
id;

}

}

?

package 
kmeans;

import 
java.util.*;

public 
class 
Cluster {

public 
int 
id;    
// 簇id

public 
Point center;    
// 簇质心

public 
List<Point> members = 
new 
ArrayList<>();    
// 簇中成员(数据集点)

public 
Cluster(
int 
id, Point center) {

this
.id = id;

this
.center = center;

}

@Override

public 
boolean 
equals(Object o) {

if 
(o.getClass() != Cluster.
class
) {

return 
false
;

}

return 
id == ((Cluster) o).id;

}

}

?

package 
kmeans;

import 
java.util.*;

public 
class 
Kmeans {

public 
List<Point> samples;    
// 数据集点

public 
List<Cluster> clusters = 
new 
ArrayList<>(); 
// 存放聚类类簇结果

public 
int 
k;    
// 聚类个数

public 
int 
arr_len;    
// 数据集点特征维数

public 
int 
steps;    
// 最大迭代次数

public 
Kmeans(List<Point> samples, 
int 
k, 
int 
arr_len, 
int 
steps) {

this
.samples = samples;

this
.k = k;

this
.arr_len = arr_len;

this
.steps = steps;

}

public 
void 
run() {

FirstStep();    
// 算法Step 1

double 
oldDist = Loss();    
// 计算各个类簇内点到质心的距离和

double 
newDist = 
0
;

for 
(
int 
i = 
0
; i < steps; i++) {

SecondStep();    
// 算法Step 2

newDist = Loss();

if 
(oldDist - newDist < 
0.01
) {    
// 如果质心不再变化，则停止学习

break
;

}

System.out.println(
"Step " 
+ i + 
":" 
+ (oldDist - newDist));

oldDist = newDist;

}

// 打印结果

for 
(
int 
i = 
0
; i < clusters.size(); i++) {

System.out.println(
"第" 
+ i + 
"个簇:"
);

for 
(Point p : clusters.get(i).members) {

if 
(!p.isSample) {

continue
;

}

System.out.print(
"("
);

for 
(
int 
xi = 
0
; xi < p.x.length; xi++) {

if 
(xi != 
0
) {

System.out.print(
","
);

}

System.out.print(p.x[xi]);

}

System.out.print(
")"
);

System.out.println(
"\t" 
+ p.text);

}

}

}

public 
void 
FirstStep() {    
// 算法Step 1

Set<Point> centers = 
new 
HashSet<>();    
// 从样本数据集中随机选取k个不重复的质心

int 
id = 
0
;    
// 类簇id

while 
(centers.size() < k) {

Random r = 
new 
Random();    
// 随机选取样本数据集的数据下标

int 
ti = r.nextInt(samples.size()) % samples.size();

if 
(centers.contains(samples.get(ti))) {

continue
;

}

centers.add(samples.get(ti));

Cluster clu = 
new 
Cluster(id++, samples.get(ti));

clusters.add(clu);

}

Classify();    
// 开始根据k个质心进行聚类

}

public 
void 
SecondStep() {    
// 算法Step 2

List<Cluster> newClusters = 
new 
ArrayList<>();

for 
(Cluster clu : clusters) {

double
[] tx = 
new 
double
[arr_len];

for 
(Point p : clu.members) {

for 
(
int 
i = 
0
; i < arr_len; i++) {

tx[i] += p.x[i];

}

}

for 
(
int 
i = 
0
; i < arr_len; i++) {

tx[i] /= clu.members.size();

}    
// 重新在各个类簇内部计算新的质心

Point newCenter = 
new 
Point(tx, arr_len, 
false
, 
0
);

Cluster newClu = 
new 
Cluster(clu.id, newCenter);

newClusters.add(newClu);

}

clusters.clear();

clusters = newClusters;

Classify();    
// 根据新的质心重新聚类

}

public 
void 
Classify() {    
// 聚类步骤，将各个点分配到距离最近的质心所在的类簇

for 
(
int 
i = 
0
; i < samples.size(); i++) {

double 
mindistance = Double.MAX_VALUE;

int 
clu_Id = -
1
;

for 
(Cluster clu : clusters) {

if 
(samples.get(i).Distance(clu.center) < mindistance) {

mindistance = samples.get(i).Distance(clu.center);

clu_Id = clu.id;

}

}

for 
(
int 
j = 
0
; j < clusters.size(); j++) {

if 
(clusters.get(j).id == clu_Id) {

clusters.get(j).members.add(samples.get(i));

break
;

}

}

}

}

public 
double 
Loss() {    
// 计算类簇内部各个点到质心的距离

double 
sum = 
0
;

for 
(Cluster clu : clusters) {

for 
(Point p : clu.members) {

sum += p.Distance(clu.center);

}

}

return 
sum;

}

}

?

package 
kmeans;

import 
java.util.*;

public 
class 
Keyven {

public 
static 
void 
main(String[] args) {

Scanner input = 
new 
Scanner(System.in);

int 
n = input.nextInt();

int 
arr_len = input.nextInt();

List<Point> samples = 
new 
ArrayList<>();

for 
(
int 
i = 
0
; i < n; i++) {

double
[] x = 
new 
double
[arr_len];

for 
(
int 
j = 
0
; j < arr_len; j++) {

x[j] = input.nextDouble();

}

String text = input.nextLine();

Point p = 
new 
Point(x, arr_len, 
true
, i + 
1
);

p.text = text;

samples.add(p);

}

Kmeans km = 
new 
Kmeans(samples, 
3
, arr_len, 
1000
);

km.run();

input.close();

}

}

实验效果

鸢尾花的数据集下载：http://archive.ics.uci.edu/ml/

算法分析

（1）离群点的处理：离群点一般称为噪音，离群点有可能影响类簇的发现，导致实验效果不合理，因此在进行Kmeans之前发现并提出离群点是有必要的。

（2）初始质心的选取：初始质心的随机选取有可能出现过度集中的情况，导致迭代次数增多，这时可以使用Kmeans++来解决这个问题，Kmeans++算法步骤如下图：

也可以使用另外一种方法：随机地选择第一个点，或取所有点的质心作为第一个点。然后，对于每个后继初始质心，选择离已经选取过的初始质心最远的点。使用这种方法，确保了选择的初始质心不仅是随机的，而且是散开的。但是，这种方法可能选中离群点。此外，求离当前初始质心集最远的点开销也非常大。

（3）算法终止条件：一般是目标函数达到最优或者达到最大的迭代次数即可终止。对于不同的距离度量，目标函数往往不同。当采用欧式距离时，目标函数一般为最小化对象到其簇质心的距离的平方和，如下：

当采用余弦相似度时，目标函数一般为最大化对象到其簇质心的余弦相似度和，如下：

（4）K值得选取：Kmeans算法的聚类个数K 值是由用户设定的，因为一开始我们并不知道数据集的分布，Kmeans又不像EM算法那样自动学习聚类成K 个类簇。为解决这个问题，可以将Kmeans与层次聚类结合，首先采用层次聚类算法粗略决定聚类个数，并找到初始聚类，然后用Kmeans来优化聚类结果。

扩展

其它聚类算法：谱聚类、层次聚类，等。这里仅简单地介绍层次聚类。

层次聚类，是一种很直观的算法。顾名思义就是要一层一层地进行聚类，可以从下而上地把小的cluster合并聚集，也可以从上而下地将大的cluster进行分割，一般采用从下而上地聚类。
从下而上地合并cluster，就是每次找到距离最短的两个cluster，然后进行合并成一个大的cluster，直到全部合并为一个cluster。整个过程就是建立一个树结构，类似于下图。

那么，如何判断两个cluster之间的距离呢？一开始每个数据点独自作为一个类，它们的距离就是这两个点之间的距离。而对于包含不止一个数据点的cluster，就可以选择多种方法了，最常用的就是average-linkage ，这种方法就是把两个集合中的点两两的距离全部放在一起求一个平均值。

只要得到了上面那样的聚类树，想要分多少个cluster都可以直接根据树结构来得到结果。

后记

注意，K-means算法与KNN算法没有关系，K-means算法是一种聚类算法，而KNN（K近邻算法）是一种分类算法，下面举一个例子来说明KNN算法。假如手头有一堆已经标记好分类的数据点集，新进来一个点，需要我们预测其类别，我们可以取该点的k 个邻居（距离该点最近的k 个点），如果这k 个邻居点大多数属于某一个类别C，则我们预测该点很大可能也属于类别C。例如下图中的黑点为预测点，取其7个邻居点，黄色居多，利用极大似然估计，我们可以认为黑色点属于黄色。

KNN算法可以使用Kd树来实现，具体请参考《统计机器学习 · 李航著》，这里有一篇Kd-Tree的博文：Kd Tree算法原理和开源实现代码

你可能感兴趣的:(k-means,KDD)

K-means 算法的介绍与应用小魏冬琅 matlab 算法 kmeans 机器学习
目录引言K-means算法的基本原理表格总结：K-means算法的主要步骤K-means算法的MATLAB实现优化方法与改进K-means算法的应用领域表格总结：K-means算法的主要应用领域结论引言K-means算法是一种经典的基于距离的聚类算法，在数据挖掘、模式识别、图像处理等多个领域中得到了广泛应用。其核心思想是将相似的数据对象聚类到同一个簇中，而使得簇内对象的相似度最大、簇间的相似度最小
机器学习实战笔记5——线性判别分析绍少阿机器学习笔记可视化机器学习 python 人工智能
任务安排1、机器学习导论8、核方法2、KNN及其实现9、稀疏表示3、K-means聚类10、高斯混合模型4、主成分分析11、嵌入学习5、线性判别分析12、强化学习6、贝叶斯方法13、PageRank7、逻辑回归14、深度学习线性判别分析（LDA）Ⅰ核心思想对于同样一件事，站在不同的角度，我们往往会有不同的看法，而降维思想，亦是如此。同上节课一样，我们还是学习降维的算法，只是提供了一种新的角度，由上
基于图的推荐算法(12):Handling Information Loss of Graph Neural Networks for Session-based Recommendation 阿瑟_TJRS
前言KDD2020,针对基于会话推荐任务提出的GNN方法对已有的GNN方法的缺陷进行分析并做出改进主要针对lossysessionencoding和ineffectivelong-rangedependencycapturing两个问题：基于GNN的方法存在损失部分序列信息的问题，主要是在session转换为图以及消息传播过程中的排列无关(permutation-invariant)的聚合过程中造
机器学习之 K-均值聚类算法维生素￥机器学习机器学习算法均值算法
K-均值（K-means）聚类算法是一种常用的无监督学习算法，用于将数据集划分为K个不同的簇。该算法通过迭代的方式将数据点分配到最近的簇中，并更新簇的中心，直到收敛为止。一、K-均值聚类算法的基本步骤：初始化K个簇的中心点（可以随机选择或者根据数据集初始化）。将每个数据点分配到最近的簇中。更新每个簇的中心点为该簇所有数据点的平均值。重复步骤2和3，直到簇的中心点不再改变或达到指定的迭代次数。二、K
gps路径压缩算法王建文go 算法
公司的gps点位特别多,导致数据存储以及查询都会造成一定的压力.所以我们需要使用gps路径压缩算法我调研了两种:k-means和Douglas-Peuckerk-means压缩的底层原理是:自定义簇的数量,假设是100个,那么就会计算所有gps点,把最相近的点,放在一个簇里,以此类推,计算出100个簇,然后每个簇计算出一个中心点,100簇的中心点也就是我们这段gps的压缩路径.Douglas-Pe
Spark MLlib模型训练—聚类算法 K-means 不二人生 Spark ML 实战算法 spark-ml 聚类
SparkMLlib模型训练—聚类算法K-meansK-means是一种经典的聚类算法，广泛应用于数据挖掘、图像处理、推荐系统等领域。它通过将数据划分为(k)个簇（clusters），使得同一簇内的数据点尽可能相似，而不同簇之间的数据点差异尽可能大。ApacheSpark提供了K-means聚类算法的高效实现，支持大规模数据的分布式计算。本文将详细介绍K-means聚类算法的原理，并结合Spark
Spark MLlib模型训练—聚类算法 Bisecting K-means 不二人生 Spark ML 实战算法 spark-ml 聚类
SparkMLlib模型训练—聚类算法BisectingK-means由于传统的KMeans算法的聚类结果易受到初始聚类中心点选择的影响，因此在传统的KMeans算法的基础上进行算法改进，对初始中心点选取比较严格，各中心点的距离较远，这就避免了初始聚类中心会选到一个类上，一定程度上克服了算法陷入局部最优状态。二分KMeans(BisectingKMeans)算法的主要思想是：首先将所有点作为一个簇
看demo学算法之 k-means 小琳ai 算法 kmeans 机器学习
大家好，这里是小琳AI课堂！今天我们要继续深入探讨k-means算法，这是一种在数据科学和机器学习中非常流行的聚类方法。✨k-means的四大步骤随机启动：先随便挑k个数据点当老大（簇中心）。分配小弟：每个数据点看看离哪个老大最近，然后加入那个团队。老大换人：每个团队重新算算中心位置，换个新老大。重复搞事：一直重复分配小弟和换老大的步骤，直到老大们换得差不多了或者到了预定的次数。k-means的闪
自然语言处理系列五十四》文本聚类算法》K-means文本聚类算法原理陈敬雷-充电了么-CEO兼CTO 算法大数据人工智能自然语言处理 nlp ai 人工智能 kmeans AIGC 聚类
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列五十四文本聚类算法》K-means文本聚类算法原理K-means文本聚类算法代码实战总结自然语言处理系列五十四文本聚类算法》K-means文本聚类算法原理K-means文本聚类是K-means算法的一个常用应用场景，下面介绍
【闲谈】聚类算法的金融数据挖掘应用及实践爱写代码的July 其他金融大数据数据分析数据可视化 python
目录一数据挖掘技术在金融领域应用概述二聚类算法介绍三聚类算法在金融数据挖掘中的应用1.聚类算法在客户细分领域的应用2.聚类算法在客户信用评估领域的应用四算法实践与个人体会1.聚类算法的实践——以k-means算法为例的银行客户数据集分析2.个人实际应用体会五总结与展望参考文献一数据挖掘技术在金融领域应用概述随着金融行业的不断发展，金融领域数字化转型程度愈发加深，计算机科学在金融领域的应用显得更为重
python爬虫：通过DBLP数据库获取数据挖掘顶会KDD在2023年的论文收录和相关作者信息千里澄江 python 数据分析 python 爬虫算法数据挖掘数据分析
Task1读取网站主页整个页面的html内容并解码为文本串（可使用urllib.request的相应方法），将其以UTF-8编码格式写入page.txt文件。Code1importurllib.requestwithurllib.request.urlopen('https://dblp.dagstuhl.de/db/conf/kdd/kdd2023.html')asresponse:html=r
程序猿成长之路之数据挖掘篇——Kmeans聚类算法 zygswo 数据挖掘数据挖掘算法 kmeans
Kmeans是一种可以将一个数据集按照距离（相似度）划分成不同类别的算法，它无需借助外部标记，因此也是一种无监督学习算法。什么是聚类用官方的话说聚类就是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。用自己的话说聚类是根据不同样本数据间的相似度进行种类划分的算法。这种划分可以基于我们的业务需求或建模需求来完成，也可以单纯地帮助我们探索数据的自然结构和分布。什么是K-means聚类用官方的
学习笔记1 三大聚类方法：K-means聚类、层次聚类、DBSCAN聚类泠泠风来聚类 matlab
学习笔记1：三大聚类方法：K-means聚类、层次聚类、DBSCAN聚类文章目录前言一、K-means聚类操作过程二、层次聚类操作过程三、DBSCAN聚类操作过程总结前言在样本数量较多的情况下，可以通过聚类将样本划分为多个类，对每个类中单独使用模型进行分析和相关运算，亦可以探究不同类之间的相关性和主要差异。例如MathorCup2022年D题此外，可以借助https://www.naftaliha
K-means聚类算法：从原理到实践的全面解读一休哥助手人工智能算法 kmeans 聚类
引言在当今数据驱动的时代，机器学习技术的发展已经成为各行各业的重要驱动力。在机器学习中，聚类算法是一类被广泛应用的技术之一。聚类旨在将数据集中的样本划分为不同的组，使得组内的样本相似度高，组间的相似度低。K-means聚类算法作为聚类算法中的一种经典方法，因其简单、高效的特性被广泛应用于各个领域。在本文中，我们将深入探讨K-means聚类算法，从基本原理到实际应用，以及算法的优化和实现方法。首先，
K-means++算法坐看云起时zym
K-means++简介K-means++算法是K-means算法的改进版本，由DavidArthur和SergeiVassilvitskii于2007年提出。传统的K-means算法需要在初始阶段在数据集中随机选择个点作为聚类中心，而K-means算法的聚类效果和运行时间很大程度上受初始聚类中心的选择的影响。K-means++算法对于初始聚类中心的选择进行了改进。K-means++选择聚类中心的思
聚类算法-Kmeans聚类红米煮粥机器学习 kmeans 聚类
一、K-means聚类介绍1.含义K-means聚类是一种非常流行的无监督学习算法，用于将数据点划分为预定义的K个簇（或组），其中每个簇由其质心（即簇中所有点的均值）定义。K-means算法的目标是使簇内的点尽可能紧密地聚集在一起，同时使不同簇之间的点尽可能远离。2.基本步骤：选择K值：首先，你需要决定将数据分成多少个簇，即K的值。K的选择通常是基于问题的上下文或通过一些启发式方法（如肘部法则）来
计算机毕业设计Hadoop+Spark知识图谱体育赛事推荐系统体育赛事热度预测系统体育赛事数据分析体育赛事可视化体育赛事大数据机器学习大数据毕业设计大数据毕设机器学习人工智能计算机毕业设计大全
开发技术前端：vue.js、element-ui、echarts后端：springboot、mybatis大数据：spark、hadoop数据库：mysql关系型数据库、neo4j图数据库算法：协同过滤推荐算法、MLP深度学习模型、SVD神经网络混合推荐算法、lstm模型、KNN、CNN、Sklearn、K-Means第三方平台：百度AI、阿里云短信、支付宝沙箱支付爬虫：Pythonchrome-
每天一个数据分析题（四百八十七）- 非监督学习跟着紫枫学姐学CDA 数据分析题库数据分析学习数据挖掘
关于非监督学习，在K-means聚类分析使用的距离是（）A.欧式距离B.绝对距离C.Minkowski距离D.笛卡尔距离数据分析认证考试介绍：点击进入题目来源于CDA模拟题库点击此处获取答案数据分析专项练习题库内容涵盖Python，SQL，统计学，数据分析理论，深度学习，可视化，机器学习，Spark八个方向的专项练习题库，数据分析从业者刷题必备神器！
每天一个数据分析题（四百八十八）- 非监督学习跟着紫枫学姐学CDA 数据分析题库数据分析学习数据挖掘
关于非监督学习，在K-means聚类分析使用的距离是（）A.欧式距离B.绝对距离C.Minkowski距离D.笛卡尔距离数据分析认证考试介绍：点击进入题目来源于CDA模拟题库点击此处获取答案数据分析专项练习题库内容涵盖Python，SQL，统计学，数据分析理论，深度学习，可视化，机器学习，Spark八个方向的专项练习题库，数据分析从业者刷题必备神器！
各种聚类方法的聚类思想介绍及其优缺点 QianMo-WXJ 知识补充聚类机器学习
聚类是一种无监督学习方法，旨在将数据集中的样本划分为若干个组，使得同一组内的样本相似度最大，而不同组之间的样本相似度最小。以下是几种常见的聚类方法及其思想、优缺点的介绍：1.K-means聚类聚类思想：K-means将数据分成K个簇，每个簇由一个中心（质心）代表。算法通过迭代优化，使得每个簇中的样本与质心的距离平方和最小。步骤：随机初始化K个质心。将每个样本分配到最近的质心。重新计算每个簇的质心。
文献01-单细胞多组学 hlllllllhhhhh 文献-单细胞多组学 python
目录【SIMBA系列教程】回顾：KDD2024|HiGPT:当大模型遇上图神经网络Nat.Biotechnol2023|利用MaxFuse整合空间和单细胞数据跨模态弱链接的特征Nat.Commun2024|"单细胞蝴蝶"：基于双对齐变分自编码器的通用单细胞跨模态翻译方法 Nat.Biotech.|LINGER从单细胞多组学数据推断基因调控网络生信乐园#scRNA-seq数据分析#scATAC-se
21、什么是数据挖掘和KDD（知识发现）攻城狮笔记
我对流程很感兴趣。我想知道做事的好方法，即使是最好的办法，如果可能的话。即使您没有技能或深刻理解，过程也可以帮到您。它可以引领方式，技能和深刻的理解可以遵循。至少，我用它来推动我的大部分工作。我认为研究数据挖掘是有用的，因为它是一个从数据中发现的过程。在这篇文章中，您将从教科书和论文中探索“数据挖掘”的权威定义。由于数据挖掘是一个过程，因此定义将包括对过程的许多解释。image.png金矿照片信誉
GWO优化kmeans 2301_78492934 机器学习算法人工智能 matlab kmeans 聚类
GWO（灰狼优化器）是一种群体智能优化算法，它模拟了灰狼的社会结构和狩猎行为。GWO算法通过模拟灰狼的等级制度、狩猎策略和搜索机制来寻找问题的最优解。而K-means是一种经典的聚类算法，用于将数据点划分为K个簇。将GWO优化算法应用于K-means聚类中，主要是为了解决K-means算法对初始簇中心敏感和容易陷入局部最优解的问题。以下是GWO优化K-means的原理和过程的详细介绍：1.GWO算
高斯混合模型聚类（GMM）matlab实现唐维康高斯混合模型聚类
GaussianMixtureModel，就是假设数据服从MixtureGaussianDistribution，换句话说，数据可以看作是从数个GaussianDistribution中生成出来的。实际上，我们在K-means和K-medoids两篇文章中用到的那个例子就是由三个Gaussian分布从随机选取出来的。实际上，从中心极限定理可以看出，Gaussian分布（也叫做正态(Normal)分
聚类分析入门：使用Python和K-means算法进行数据聚类 Evaporator Core python
文章标题：聚类分析入门：使用Python和K-means算法进行数据聚类简介聚类分析是机器学习中的一个重要任务，它涉及将数据集中的样本分成多个类别或簇，使得同一簇内的样本相似度较高，不同簇之间的样本相似度较低。K-means算法是一种常用的聚类算法，它通过迭代优化簇的中心点来实现聚类。本文将介绍如何使用Python编程语言和Scikit-learn库实现K-means算法，以及如何对数据进行聚类分
基于聚类的点云背景分离算法python代码 love6a6 算法聚类 python
点云背景分离是一个常用的计算机视觉任务，它旨在从点云数据中分离出感兴趣的物体。聚类是一种常用的方法，可以通过将相似的点聚集在一起来完成背景分离。下面是一个简单的基于K-Means聚类的点云背景分离的Python代码示例，使用的是scikit-learn库：importnumpyasnpfromsklearn.clusterimportKMeansfromsklearn.preprocessingi
open3d k-means 聚类云杂项 open3d持续更新 kmeans 聚类算法计算机视觉 python 机器学习
k-means聚类一、算法原理1、介绍2、算法步骤二、代码1、机器学习生成`kmeans`聚类2、点云学习生成聚类三、结果1、原点云2、机器学习生成`kmeans`聚类3、点云学习生成聚类四、相关链接一、算法原理1、介绍K-means聚类算法是一种无监督学习算法，主要用于数据聚类。该算法的主要目标是找到一个数据点的划分，使得每个数据点与其所在簇的质心（即该簇所有数据点的均值）之间的平方距离之和最小
K-means（K均值聚类算法）算法笔记 Longlongaaago 机器学习机器学习 kmeans算法
K-means（K均值聚类算法）算法笔记K-means算法，是比较简单的无监督的算法，通过设定好初始的类别k，然后不断循环迭代，将给定的数据自动分为K个类别。事实上，大家都知道K-means是怎么算的，但实际上，它是GMM（高斯混合模型）的一个特例，其而GMM是基于EM算法得来的，所以本文，将对K-means算法的算法思想进行分析。算法流程K-means算法的算法流程非常简单，可以从下图进行讲解(
k-means 选择K的demo 你有啥子事
#!/usr/bin/envpython#-*-coding:utf-8-*-#@Time:2018/10/12下午5:29#@Author:liuchengwei#@Site:#@File:demo.py#@Software:PyCharmimportsysifsys.version[0]=='2':reload(sys)sys.setdefaultencoding("utf-8")fromge
2019-04-15派森学习第147天每日派森
想要实现E-ACO的程序。先实现根据论文中的公式计算K-means的K值，在此之前写出给定K值后进行K-means聚类的程序。给定K=5后，聚类情况：K-means考虑到派工中的实际情况，维修站驻守的工人人数也不会太多，直接可以把工人人数设置为k。
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分