#Kmeans 第61页

机器学习经典算法9-k-means

2.基本算法 kmeans的基本流程如下： 1.初始化：k个中心节点作为类别初始质心 2.对于数据集中的每个数据点对于k个

moodytong·2013-08-19 11:00

2013.7.16

虽然是中文期刊，虽然未完成，但依然有很多东西要好好总结一下原先的打算就是，攒些经验，关于实验，关于写文章最重要的收获，大概是写各种脚本做实验，比较好用的文本处理工具：awk，sed最崩溃的事，Mahout里的KMeans

Daisy8867·2013-08-17 00:15

mahout源码KMeansDriver分析之五KmeansDriver(完结篇)

好吧，我上篇博客的仿造CIReducer的代码的确是有误的，错在哪？map输出的中心点是两个不错，但是其key是不一样的，所以要送到不同的reduce函数中（注意这里是函数，而非reducer，如果是同一个key则要送到同一个reduce中），所以不是一个for循环就搞定的，应该要key的个数个for循环才行。那就是说reducer中的reduce函数一次只能接受一个中心点了（针对一直使用的数据来

thecloud·2013-08-08 20:00

mahout源码KMeansDriver分析之五CIMapper

接上文重点分析map操作： Vector probabilities = classifier.classify(value.get());// 第一行 Vector selections = policy.select(probabilities); // 第二行 for (Iterator<Element> it = selections.ite

thecloud·2013-08-07 01:00

《机器学习实战》(1)――kNN算法

如果学过KMeans聚类算法，那么学这个算法会感觉更简单。我对这个算法的过程理解如下：第一步：把所有的训练集读入到内存中，这也是这个算法为什么会有空间复杂度

sbp810050504·2013-08-06 14:54

《机器学习实战》(1)——kNN算法

如果学过KMeans聚类算法，那么学这个算法会感觉更简单。我对这个算法的过程理解如下：第一步：把所有的训练集读入到内存中，这也是这个算法为什么会有空间复杂度高的

sbp810050504·2013-08-06 14:54

mahout源码KMeansDriver分析之五CIMapper初探

接着上篇，继续分析代码。下面就到了MR的循环了，这里MR应该算是比较好理解的，重点是退出循环的条件设置，即如何判断前后两次中心点误差小于给定阈值。首先，while循环：while(iterationvList=getInputData(); for(VectorWritablevalue:vList){ Vectorprobabilities=classifier.classify(value.g

thecloud·2013-08-06 00:00

mahout源码KMeansDriver分析之四

比如编写下面的测试程序：packagemahout.fansy.test.kmeans.middle; importjava.io.IO

thecloud·2013-08-05 20:00

Mahout源码K均值聚类算法分析（4）

比如编写下面的测试程序：packagemahout.fansy.test.kmeans.middle; importjava.io.IO

fansy1990·2013-08-05 20:00

Mahout源码K均值聚类算法分析（3）

现在补上，首先编写下面的debug代码：packagemahout.fansy.test.kmeans; importjava.io.IOException; importorg.apache.hadoop.conf

fansy1990·2013-08-05 00:00

mahout源码KMeansDriver分析之三自动写入中心点文件

现在补上，首先编写下面的debug代码： package mahout.fansy.test.kmeans; import java.io.IOException; import org.apache.hado

thecloud·2013-08-05 00:00

mahout源码KMeansDriver分析之二中心点文件分析（无语篇）

首先说下，为什么题目后面会有个“无语篇”，因为我觉得今晚这几个钟头太坑爹了。为什么，且听我慢慢道来：按照昨天的计划，我应该把代码仿造成单机可运行的代码。但是首先我要有输入数据不是？所以我最开始做的就是仿造clusterIn的数据，即中心向量的文件。昨天也说过中心向量文件应该就是把一组（key，value）对（要求value的格式为ClusterWritable，key格式任意）写入一个序列文件即可

thecloud·2013-08-02 01:00

mahout源码KMeansDriver分析之二中心点文件分析（无语篇）

首先说下，为什么题目后面会有个“无语篇”，因为我觉得今晚这几个钟头太坑爹了。为什么，且听我慢慢道来：按照昨天的计划，我应该把代码仿造成单机可运行的代码。但是首先我要有输入数据不是？所以我最开始做的就是仿造clusterIn的数据，即中心向量的文件。昨天也说过中心向量文件应该就是把一组（key，value）对（要求value的格式为ClusterWritable，key格式任意）写入一个序列文件即可

thecloud·2013-08-02 01:00

mahout源码KMeansDriver分析之二中心点文件分析（无语篇）

首先说下，为什么题目后面会有个“无语篇”，因为我觉得今晚这几个钟头太坑爹了。为什么，且听我慢慢道来：按照昨天的计划，我应该把代码仿造成单机可运行的代码。但是首先我要有输入数据不是？所以我最开始做的就是仿造clusterIn的数据，即中心向量的文件。昨天也说过中心向量文件应该就是把一组（key，value）对（要求value的格式为ClusterWritable，key格式任意）写入一个序列文件即可

thecloud·2013-08-01 17:00

mahout源码KMeansDriver分析之一整体分析

今天开始分析KMeansDriver的源码，由于之前已经分析过KMeans算法的原理（其实是已经使用hadoop实现过了），所以在这里就不讲原理了，而且大家对这个算法的原理基本都清楚（搞数据挖掘的最清楚的应该就算这个算法了吧

thecloud·2013-07-31 20:00

Mahout源码K均值聚类算法分析（1）

今天开始分析KMeansDriver的源码，由于之前已经分析过KMeans算法的原理（其实是已经使用hadoop实现过了），所以在这里就不讲原理了，而且大家对这个算法的原理基本都清楚（搞数据挖掘的最清楚的应该就算这个算法了吧

fansy1990·2013-07-31 20:00

mahout源码KMeansDriver分析之一整体分析

今天开始分析KMeansDriver的源码，由于之前已经分析过KMeans算法的原理（其实是已经使用hadoop实现过了），所以在这里就不讲原理了，而且大家对这个算法的原理基本都清楚（搞数据挖掘的最清楚的应该就算这个算法了吧

thecloud·2013-07-31 20:00

mahout源码KMeansDriver分析之一整体分析

今天开始分析KMeansDriver的源码，由于之前已经分析过KMeans算法的原理（其实是已经使用hadoop实现过了），所以在这里就不讲原理了，而且大家对这个算法的原理基本都清楚（搞数据挖掘的最清楚的应该就算这个算法了吧

thecloud·2013-07-31 12:00

mahout之kmean聚类

.Kmeans聚类 Kmeans算法思想也比较简单：可见http://baike.baidu.com/view/3447609.htm首先从n个数据对象选择k个对象作为初始聚类中心；而对于所剩下其它对象

july_2·2013-07-17 15:00

KMeans和KMedoid 的Matlab实现

KMeans和KMedoid算法是聚类算法中比较普遍的方法，本文讲了其原理和matlab中实现的代码。

lcj_cjfykx·2013-07-15 02:00

mahout之Kmeans使用及结果分析

Mahout-Kmeans 1，两个输入路径：一个是数据的点；一个是初始集群。

ghost_face·2013-07-12 19:00

newLISP 10.5.3 发布，类 Lisp 的脚本语言

newLISP 10.5.3 修复了一些 bug ，为 KMEANS 集群分析器增加了一些函数。 newLISP是一个类似Lisp语言的、用于一般用途的脚本语言。

·2013-07-11 17:00

机器学习实战之KMeans

fromnumpyimport* defloadDataSet(fileName): dataMat=[] fr=open(fileName) forlineinfr.readlines(): curLine=line.strip().split('\t') fltLine=map(float,curLine) dataMat.append(fltLine) returndataMat def

li385805776·2013-07-08 15:00

java实现kmeans算法

kmeans算法是一种经典的聚类算法，其核心思想是：根据给定的聚类个数k，随机选择k个点作为初始的中心节点，然后按照样本中其他节点与这k个节点的距离进行分类。

iteye_13839·2013-07-04 15:14

java实现kmeans算法

kmeans算法是一种经典的聚类算法，其核心思想是：根据给定的聚类个数k，随机选择k个点作为初始的中心节点，然后按照样本中其他节点与这k个节点的距离进行分类。

czhsuccess·2013-07-04 15:00

matlab-kmeans函数注释

原文地址：matlab-kmeans函数注释作者：tigermatlab-kmeans函数注释X=[randn(100,2)+ones(100,2);...

lvyuan30276·2013-07-01 16:00

simple kmeans.m

function[means,Nmeans]=simple_kmeans(X,K,maxerr)%function[medias,Nmedias]=simple_kmedias(X,K,maxerr)%

lvyuan30276·2013-07-01 16:00

输出hadoop[置顶] hadoop之测试KMeans(二)：输出结果分析

新手发帖，很多方面都是刚入门，有错误的地方请大家见谅，欢送批评指正前次给出了hadoop之测试KMeans(一)：运行源码实例，这次来分析一下整个MapReduce的输出结果。

·2013-05-28 23:00

hadoop之测试KMeans(二)：输出结果分析

上次给出了hadoop之测试KMeans(一)：运行源码实例，这次来分析一下整个MapReduce的输出结果。

ShiZhixin·2013-05-28 12:00

weka定制计划已添加到github

有需要的同学可以去下载使用，其中我已经配置好libsvm和liblinear，聚类的clusterEvaluation也定制输出了一些额外的信息比如错误聚类的原始类标和聚类类标的对比（这个功能可以帮助我们定位到类似EM或者KMEANS

Change Dir·2013-05-28 11:00

hadoop之测试KMeans(一)：运行源码实例

新学hadoop，测试了helloword级别的程序WordCount，打算用hadoop做聚类分析，这次测试KMeans，二维的数据，具体代码来自于http://download.csdn.net/detail

zstarstone·2013-05-24 11:16

hadoop之测试KMeans(一)：运行源码实例

新学hadoop，测试了helloword级别的程序WordCount，打算用hadoop做聚类分析，这次测试KMeans，二维的数据，具体代码来自于http://download.csdn.net/detail

ShiZhixin·2013-05-24 11:00

Mahout Canopy Clustering学习

KMeans聚类可以通过你给定的k值把集合聚类成k个集合。有时，你无法知道这个集合分成几类最佳，即无法给出相应的k值。Canopy 聚类可以帮你解决这个问题。

zhan8610189·2013-05-08 21:00

Hama Kmeans Clustering学习

跟前一篇<<Mahout KMeans Clustering学习>>的流程一致,分四不走，在这里我不再多说了。 BSP有三种特性：1. 局部计算，2.

zhan8610189·2013-05-05 00:00

Mahout Kmeans Clustering 学习

把数据拷到集群上，放到kmeans/目录下 hadoop fs -mv synthetic_control.data kmeans/synthetic_control.data

zhan8610189·2013-05-04 18:00

用matlab做聚类分析 .

说明：如果是要用matlab做kmeans聚类分析，直接使用函数kmeans即可。使用方法:kmeans(输入矩阵，分类个数k)。

xuezhisd·2013-04-27 19:16

sheshou2·2013-04-26 18:00

三种常见的聚类算法的python实现 kmeans、Hierarchical clustering、kmedoids

这里，用一个《ProgrammingCollectiveIntelligence》中的聚类例子，写几个经典聚类算法的实现，分别是hierachiclaCluster、kmeans、kmedoids。

糖拌咸鱼·2013-04-10 20:00

strict weak ordering

Strictmeansthatpr(X,X)isfalse.WeakmeansthatXandYhaveanequivalentorderingif!pr(X,Y)&&!

Favor·2013-04-01 21:00

基本Kmeans算法介绍及其实现

1.基本Kmeans算法[1][cpp]viewplaincopyprint?

stevie·2013-03-14 16:55

k-means和kd-tree简明教程推荐

看到一个非常好的k-means和kd-tree教程，简洁直观，值得推荐，来自以色列学者DanPelleg的主页：http://www.pelleg.org/shared/hp/kmeans.htmlDanPelleg

anshan1984·2013-03-09 20:00

【hadoop】大规模中文网站聚类kmeans的mapreduce实现（下）

接上一篇，上一篇主要是计算tfidf，下篇主要是文档向量的建立以及kmeas的实现。四网页向量以及初始中心点选取网页向量以及初始中心点的选取在DocumentVetorBuid中的一个Mapreduce中完成,中间过程如下表所示。输出类似如下:16 26272:0.00587873/22456:0.00264058/22502:0.00289516/23702:0.002

lawrencesgj·2013-02-24 11:00

【hadoop】大规模中文网站聚类kmeans的mapreduce实现（上）

这是一个课程设计，主要是应用mapreduce对大规模的中文网站使用kmeans进行聚类，最后将相关的网站标记为同一类输出。

lawrencesgj·2013-02-24 10:00

KMeans笔记 K值以及初始类簇中心点的选取

KMeans算法是最常用的聚类算法，主要思想是:在给定K值和K个初始类簇中心点的情况下，把每个点(亦即数据记录)分到离其最近的类簇中心点所代表的类簇中，所有点分配完毕之后，根据一个类簇内的所有点重新计算该类簇的中心点

·2013-01-27 15:00

hadoop下kmeans算法实现四

KMapper.javaimportjava.io.ByteArrayOutputStream; importjava.io.IOException; importjava.net.URI; importjava.util.StringTokenizer; importorg.apache.hadoop.conf.Configuration; importorg.apache.hadoop.fs

lskyne·2013-01-26 10:00

hadoop下的Kmeans算法实现三

初始化中心点CenterInitial.javaimportjava.io.ByteArrayInputStream; importjava.io.ByteArrayOutputStream; importjava.io.IOException; importjava.io.OutputStream; importjava.net.URI; importorg.apache.hadoop.con

lskyne·2013-01-26 09:00

hadoop下的Kmeans算法实现二

输入数据，保存在2.txt中：(1,1)(9,9)(2,3)(10,30)(4,4)(34,40)(5,6)(15,20)3.txt用于保存临时的中心part-r-00000用于保存reduce的结果程序的mapreduce过程及结果：初始化过程：(10,30)(2,3) 13/01/2608:58:38WARNutil.NativeCodeLoader:Unabletoloadnative-ha

lskyne·2013-01-26 09:00

hadoop下的Kmeans算法实现一

前一段时间，从配置hadoop到运行kmeans的mapreduce程序，着实让我纠结了几天，昨天终于把前面遇到的配置问题和程序运行问题搞定。

lskyne·2013-01-26 09:00

机器学习-KMeans聚类 K值以及初始类簇中心点的选取

KMeans算法是最常用的聚类算法，主要思想是:在给定K值和K个初始类簇中心点的情况下，把每个点(亦即数据记录)分到离其最近的类簇中心点所代表的类簇中，所有点分配完毕之后，根据一个类簇内的所有点重新计算该类簇的中心点

·2013-01-26 00:00

Hadoop传递参数的方法总结

最直接的方式就是使用Configuration的各种set方法，对于基本数据类型都有很好的支持，比如传递kmeans聚类算法的中心点个数。如何传递一个对象型参数？

eryk86·2013-01-14 11:00

推荐频道

#Kmeans

机器学习经典算法9-k-means

2013.7.16

mahout源码KMeansDriver分析之五KmeansDriver(完结篇)

mahout源码KMeansDriver分析之五CIMapper

《机器学习实战》(1)――kNN算法

《机器学习实战》(1)——kNN算法

mahout源码KMeansDriver分析之五CIMapper初探

mahout源码KMeansDriver分析之四

Mahout源码K均值聚类算法分析（4）

Mahout源码K均值聚类算法分析（3）

mahout源码KMeansDriver分析之三自动写入中心点文件

mahout源码KMeansDriver分析之二中心点文件分析（无语篇）

mahout源码KMeansDriver分析之二中心点文件分析（无语篇）

mahout源码KMeansDriver分析之二中心点文件分析（无语篇）

mahout源码KMeansDriver分析之一整体分析

Mahout源码K均值聚类算法分析（1）

mahout源码KMeansDriver分析之一整体分析

mahout源码KMeansDriver分析之一整体分析

mahout之kmean聚类

KMeans和KMedoid 的Matlab实现

mahout之Kmeans使用及结果分析

newLISP 10.5.3 发布，类 Lisp 的脚本语言

机器学习实战之KMeans

java实现kmeans算法

java实现kmeans算法

matlab-kmeans函数注释

simple kmeans.m

输出hadoop[置顶] hadoop之测试KMeans(二)：输出结果分析

hadoop之测试KMeans(二)：输出结果分析

weka定制计划 已添加到github

hadoop之测试KMeans(一)：运行源码实例

hadoop之测试KMeans(一)：运行源码实例

Mahout Canopy Clustering学习

Hama Kmeans Clustering学习

Mahout Kmeans Clustering 学习

用matlab做聚类分析 .

R语言数据挖掘相关包的介绍

三种常见的聚类算法的python实现 kmeans、Hierarchical clustering、kmedoids

strict weak ordering

基本Kmeans算法介绍及其实现

k-means和kd-tree简明教程推荐

【hadoop】大规模中文网站聚类kmeans的mapreduce实现（下）

【hadoop】大规模中文网站聚类kmeans的mapreduce实现（上）

KMeans笔记 K值以及初始类簇中心点的选取

hadoop下kmeans算法实现四

hadoop下的Kmeans算法实现三

hadoop下的Kmeans算法实现二

hadoop下的Kmeans算法实现一

机器学习-KMeans聚类 K值以及初始类簇中心点的选取

Hadoop传递参数的方法总结

weka定制计划已添加到github