E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
CANOPY
探索推荐引擎内部的秘密,第 3 部分: 深入推荐引擎相关算法 - 聚类 (三)
Canopy
聚类算法
Canopy
聚类算法的基本原则是:首先应用成本低的近似的距离计算方法高效的将数据分为多个组,这里称为一个
Canopy
,我们姑且将它翻译为“华盖”,
Canopy
之间可以有重叠的部分;然后采用严格的距离计算方式准确的计算在同一
东方神剑
·
2014-11-13 14:00
Canopy
算法计算聚类的簇数
我们可以根据
Canopy
算法来粗略确定K值(可以认为相等)。看一下
Canopy
算法的过程: (1)设样本集合为S,
dliyuedong
·
2014-11-02 16:00
算法
Mahout学习——
Canopy
Clustering
Mahout学习——CanopyClustering聚类是机器学习里很重要的一类方法,基本原则是将“性质相似”(这里就有相似的标准问题,比如是基于概率分布模型的相似性又或是基于距离的相似性)的对象尽可能的放在一个Cluster中而不同Cluster中对象尽可能不相似。对聚类算法而言,有三座大山需要爬过去:(1)、alargenumberofclusters,(2)、ahighfeaturedime
hanfei2511
·
2014-11-01 00:37
数据挖掘
机器学习
hadoop
机器学习
Mahout学习――
Canopy
Clustering
Mahout学习――CanopyClustering 聚类是机器学习里很重要的一类方法,基本原则是将“性质相似”(这里就有相似的标准问题,比如是基于概率分布模型的相似性又或是基于距离的相似性)的对象尽可能的放在一个Cluster中而不同Cluster中对象尽可能不相似。对聚类算法而言,有三座大山需要爬过去:(1)、alargenumberofclusters,(2)、ahighfeatur
hanfei2511
·
2014-11-01 00:37
hadoop
数据挖掘
Mahout
机器学习
kmeans
canopy聚类
Python科学计算利器——Anaconda
为此我尝试过EnthoughtCanopy,但
Canopy
感觉把问题搞得复杂化,管理Python扩展也不太方便。直到今天我发现了Anaconda。
andong777
·
2014-06-29 00:00
nlp
anaconda
python
Canopy
Clustering(
Canopy
聚类)
CanopyClusteringCanopy算法是基于Kmeans算法的一种优化的聚类方法。优化体现在:1.前期能通过一些低性能的算法,快速的获取聚类中心2.分好的每个聚类内部在进行k-means计算(不同聚类之间不进行相似度计算)实现原理:(借助网上的一张截图)算法步骤:(1)将数据集向量化,然后放到list集合中,同时设定两个距离阈(yu)值:T1和T2(2)循环从list中去取一个,作为一个
江中炼
·
2014-06-22 23:00
CANOPY
数据挖掘笔记-聚类-
Canopy
-并行处理分析
Canopy
并行化处理在Mahout里面有很好的实现,网上有很多人都做过相关的分析,有的写的很详细,本来只想看看MahoutCanopy源码就好了,但还是觉得自己记录下也好。
wulinshishen
·
2014-06-13 12:00
mapreduce
数据挖掘
Mahout
聚类
CANOPY
数据挖掘笔记-聚类-
Canopy
-2
Canopy
并行化处理在Mahout里面有很好的实现,网上有很多人都做过相关的分析,有的写的很详细,本来只想看看Mahout
Canopy
源码就好了,但还是觉得自己记录下也好。
fighting_2013
·
2014-06-13 12:00
java
算法
数据挖掘
聚类
CANOPY
数据挖掘笔记-聚类-
Canopy
-原理与简单实现
Canopy
聚类算法是一个将对象分组到类的简单、快速、精确地方法。每个对象用多维特征空间里的一个点来表示。这个算法使用一个快速近似距离度量和两个距离阈值T1>T2来处理。
wulinshishen
·
2014-06-12 18:00
java
数据挖掘
聚类
CANOPY
数据挖掘笔记-聚类-
Canopy
-1
Canopy
聚类算法是一个将对象分组到类的简单、快速、精确地方法。每个对象用多维特征空间里的一个点来表示。这个算法使用一个快速近似距离度量和两个距离阈值 T1>T2来处理。
fighting_2013
·
2014-06-12 18:00
java
算法
数据挖掘
聚类
CANOPY
mahout 实现
canopy
数据准备:
canopy
.dat文件,COPY到HDFS上,文件内容如下:8.18.1 7.17.1 6.26.2 7.17.1 2.12.1 1.11.1 0.10.1 3.03.0算法简单说明,步骤如下
fz2543122681
·
2014-05-27 16:00
Mahout
canopy
聚类
[-]
Canopy
聚类一
Canopy
算法流程二MapReduce实现一簇定义二发现中心点三划分数据三API说明四参考文献
Canopy
聚类一、
Canopy
算法流程
Canopy
算法,流程简单,容易实现,一下是算法
fz2543122681
·
2014-05-27 16:00
机器学习
Mahout
canopy
聚类
Canopy
聚类一、
Canopy
算法流程
Canopy
算法,流程简单,容易实现,一下是算法(1)设样本集合为S,确定两个阈值t1和t2,且t1>t2。
yueyedeai
·
2014-05-23 15:00
Mahout
机器学习
Canopy
for iOS7:Safari浏览器功能强化插件安装设置使用教程
CanopyforiOS7是一款Safari增强插件,可以为您的safari增加以下实用功能:书签页长按已保存连接可快速新建页面跳转、批量添加已开启页面到书签、批量关闭已开启的网页等等。CanopyforiOS7是一款针对手机Safari浏览器的增强插件,它可以批量关闭网页、删除记录、重新打开已关闭的网页,开启全屏显示等。CanopyforiOS7具体功能包括:-书签页长按已保存连接可快速新建页面
佚名
·
2014-05-21 12:50
进行Mahout0.8聚类研究时,突然出现无法连接服务器问题,解决方案
突然出现,连接不上服务器错误参考信息如下:hadoop@master:~$mahoutcanopy-i/user/hadoop/mahout6/vecfile-o/user/hadoop/mahout6/
canopy
-result-t11
zhongwen7710
·
2014-05-18 21:00
hadoop
Mahout
Mahout学习——
Canopy
Clustering
聚类是机器学习里很重要的一类方法,基本原则是将“性质相似”(这里就有相似的标准问题,比如是基于概率分布模型的相似性又或是基于距离的相似性)的对象尽可能的放在一个Cluster中而不同Cluster中对象尽可能不相似。对聚类算法而言,有三座大山需要爬过去:(1)、alargenumberofclusters,(2)、ahighfeaturedimensionality,(3)、alargenumbe
wenyusuran
·
2014-05-13 14:00
python学习遇到问题及解决方案
1.Enthought默认安装,初始化问题:(http://help.
canopy
/welcome.html)WSGIProxy"Server"Error.'
tianzhaixing
·
2014-04-27 22:00
python
解决方案
ASCII
Codec
mahout中
canopy
算法应用于广告点击用户类别识别
canopy
算法基本思想如下:将数据集向量化得到一个线性集合后放入内存,选择两个距离阈值:T1和T2,其中T1>T2,T1和T2的值可以用交叉校验来确定;从线性集合中任取一点P,用低计算成本方法快速计算点
xqj198404
·
2013-12-20 18:00
算法
数据挖掘
Mahout
hadoop日志【6】----mahout的速度
今天测试mahout的数据提取和处理结果很郁闷了一下数据提炼很快,半个小时不到完成了,就处理为vector的了但是开始使用
canopy
算法分析就不行了整整一个小时才跑了4%而以前相同的数据使用hive进行数据逻辑处理接近一个小时都处理完了而且小集群的五台机器全部性能消耗达到了
xqj198404
·
2013-12-11 16:00
性能
Mahout
基于命令行的mahout软件0.8版本
Canopy
算法分析的数据处理流程
mahout软件0.8版本
Canopy
算法分析的数据处理分为以下三个步骤:从数据库提炼你需要处理的数据的字段依据提炼的数据处理为vectors将处理后的vectors数据读取一、从数据库提炼数据这是一个
xqj198404
·
2013-12-10 18:00
算法
Mahout
hdfs
Mahout系列之------
Canopy
算法
Canopy
算法,流程简单,容易实现,一下是算法(1)设样本集合为S,确定两个阈值t1和t2,且t1>t2。(2)任取一个样本点p属于S,作为一个
Canopy
,记为C,从S中移除p。
thd52java
·
2013-11-09 14:00
Mahout
Mahout 系列之--
canopy
算法
Canopy
算法,流程简单,容易实现,一下是算法(1)设样本集合为S,确定两个阈值t1和t2,且t1>t2。(2)任取一个样本点p属于S,作为一个
Canopy
,记为C,从S中移除p。
yueyedeai
·
2013-11-09 14:00
Mahout
机器学习
Canopy
Method算法
原文: http://www.cnblogs.com/shipengzhi/articles/2540514.html 聚类是机器学习里很重要的一类方法,基本原则是将“性质相似”(这里就有相似的标准问题,比如是基于概率分布模型的相似性又或是基于距离的相似性)的对象尽可能的放在一个Cluster中而不同Cluster中对象尽可能不相似。对聚类算法而言,有三座大山需要爬过去:(1)、alargen
u010064842
·
2013-10-06 15:00
canopy聚类
Mahout Spectral聚类
谱聚类(SpectralClustering)这名字看着就比
Canopy
、K-means来得高端大气上档次,事实上它确实是一种比较现代化的聚类方法,并且极具工程应用价值。
xyilu
·
2013-08-10 19:00
Mahout
clustering
Spectral
Mahout
Canopy
聚类
本着这样的学习思路,我们按以下步骤来快速了解Mahout中怎么使用
Canopy
聚类。*CanopyClustering是什么?*输入数据的格式是什么?*输出结果如何查看?CanopyClusterin
xyilu
·
2013-07-30 19:00
Mahout源码
canopy
聚类算法分析(3)
经过了前面两篇文章的分析,相信大家对CanopyReducer的分析就不会碰到太大的疑问,因为CanopyReducer的操作简直就和CanopyMapper的操作一模一样,也是把所有的样本数据分为若干组,即又按照map的操作执行了一次,那么就会有同学问了?那不是都不需要用reduce么?大家这里想一下,map的输出和输入有什么区别。假如map的输入有100个样本被分为了5组,并且clusterF
fansy1990
·
2013-07-23 19:00
源码分析
canopy聚类算法
mahout源码
canopy
算法分析之三CanopyReducer
经过了前面两篇文章的分析,相信大家对CanopyReducer的分析就不会碰到太大的疑问,因为CanopyReducer的操作简直就和CanopyMapper的操作一模一样,也是把所有的样本数据分为若干组,即又按照map的操作执行了一次,那么就会有同学问了?那不是都不需要用reduce么?大家这里想一下,map的输出和输入有什么区别。假如map的输入有100个样本被分为了5组,并且clusterF
thecloud
·
2013-07-23 19:00
Mahout
mahout源码
canopy
算法分析之三CanopyReducer
经过了前面两篇文章的分析,相信大家对CanopyReducer的分析就不会碰到太大的疑问,因为CanopyReducer的操作简直就和CanopyMapper的操作一模一样,也是把所有的样本数据分为若干组,即又按照map的操作执行了一次,那么就会有同学问了?那不是都不需要用reduce么?大家这里想一下,map的输出和输入有什么区别。假如map的输入有100个样本被分为了5组,并且clusterF
thecloud
·
2013-07-23 19:00
Mahout
mahout源码
canopy
算法分析之三CanopyReducer
经过了前面两篇文章的分析,相信大家对CanopyReducer的分析就不会碰到太大的疑问,因为CanopyReducer的操作简直就和CanopyMapper的操作一模一样,也是把所有的样本数据分为若干组,即又按照map的操作执行了一次,那么就会有同学问了?那不是都不需要用reduce么?大家这里想一下,map的输出和输入有什么区别。假如map的输入有100个样本被分为了5组,并且clusterF
thecloud
·
2013-07-23 19:00
Mahout
mahout源码
canopy
算法分析之二CanopyMapper
首先更正一点,前篇博客里面说到一个
Canopy
的测试的例子里面有这样的一句代码: buildClusters(Configuration conf, Path input, Path output
thecloud
·
2013-07-22 22:00
Mahout
Mahout源码
canopy
聚类算法分析(2)
首先更正一点,前篇博客里面说到一个
Canopy
的测试的例子里面有这样的一句代码:buildClusters(Configurationconf,Pathinput,Pathoutput, DistanceMeasuremeasure
fansy1990
·
2013-07-22 22:00
Mahout
源码分析
canopy聚类算法
mahout源码
canopy
算法分析之二CanopyMapper
首先更正一点,前篇博客里面说到一个
Canopy
的测试的例子里面有这样的一句代码: buildClusters(Configuration conf, Path input, Path output
thecloud
·
2013-07-22 22:00
Mahout
mahout源码
canopy
算法分析之二CanopyMapper
首先更正一点,前篇博客里面说到一个
Canopy
的测试的例子里面有这样的一句代码: buildClusters(Configuration conf, Path input, Path output
thecloud
·
2013-07-22 22:00
Mahout
mahout算法
canopy
源码分析之一:获得输入数据
对于
canopy
的输入数据需要的形式为序列文件,同时保证key:Text、value:VectorWritable。
thecloud
·
2013-07-21 19:00
Mahout
mahout算法
canopy
源码分析之一:获得输入数据
对于
canopy
的输入数据需要的形式为序列文件,同时保证key:Text、value:VectorWritable。
thecloud
·
2013-07-21 19:00
Mahout
mahout算法
canopy
源码分析之一:获得输入数据
对于
canopy
的输入数据需要的形式为序列文件,同时保证key:Text、value:VectorWritable。
thecloud
·
2013-07-21 19:00
Mahout
Mahout聚类算法
canopy
源码分析(1)
对于
canopy
的输入数据需要的形式为序列文件,同时保证key:Text、value:VectorWritable。
fansy1990
·
2013-07-21 19:00
Mahout
源码分析
canopy聚类算法
Mahout算法源码(0):搭建环境及
Canopy
获得输入数据
使用软件:VMware6.5、redhat、hadoop-1.0.4、eclipse、mahout-0.7(主机为win7);1.首先使用虚拟机搭建一个伪分布式hadoop集群,在主机的浏览器中输入:虚拟机名:50030 ,查看集群状态(可以参考配置hosts文件);2.下载两个版本的mahout(以1.7为例),如下图所示:其中mahout-distribution-0.7-src.zip是等下
fansy1990
·
2013-07-21 00:00
源码分析
环境搭建
CANOPY
mahout算法源码分析之零:搭建环境及
Canopy
获得输入数据
使用软件:VMware6.5、redhat、hadoop-1.0.4、eclipse、mahout-0.7(主机为win7);1.首先使用虚拟机搭建一个伪分布式hadoop集群,在主机的浏览器中输入:虚拟机名:50030,查看集群状态(可以参考配置hosts文件);2.下载两个版本的mahout(以1.7为例),如下图所示:其中mahout-distribution-0.7-src.zip是等下要
thecloud
·
2013-07-21 00:00
Mahout
mahout算法源码分析之零:搭建环境及
Canopy
获得输入数据
使用软件:VMware6.5、redhat、hadoop-1.0.4、eclipse、mahout-0.7(主机为win7);1.首先使用虚拟机搭建一个伪分布式hadoop集群,在主机的浏览器中输入:虚拟机名:50030,查看集群状态(可以参考配置hosts文件);2.下载两个版本的mahout(以1.7为例),如下图所示:其中mahout-distribution-0.7-src.zip是等下要
thecloud
·
2013-07-20 16:00
Mahout
mahout算法源码分析之零:搭建环境及
Canopy
获得输入数据
使用软件:VMware6.5、redhat、hadoop-1.0.4、eclipse、mahout-0.7(主机为win7);1.首先使用虚拟机搭建一个伪分布式hadoop集群,在主机的浏览器中输入:虚拟机名:50030,查看集群状态(可以参考配置hosts文件);2.下载两个版本的mahout(以1.7为例),如下图所示:其中mahout-distribution-0.7-src.zip是等下要
thecloud
·
2013-07-20 16:00
Mahout
mahout之
canopy
聚类
1.
Canopy
聚类
Canopy
聚类是一种简单、快速、但不太准确的聚类方法。 该算法需一种快速的近似距离度量方法和两个距离阈值T1>T2。
july_2
·
2013-07-17 10:00
mahout之Kmeans使用及结果分析
SequenceFile(Key, VectorWritable)格式; 而初始集群的输入文件格式是SequenceFiles(Text, Cluster |
Canopy
ghost_face
·
2013-07-12 19:00
Mahout
kmeans
解决Windows7下安装Enthought
Canopy
(32-bit) IDLE 无响应的伪办法:P
最近在看公开课,MIT里有个课程使用的是python的语言,按照页面给的链接下载了EnthoughtCanopy,但是却无法打开IDLE,为此郁闷半天。 这里的打不开是双击后无响应。你报个错误,我还能搜索。可是双击后什么没动静,这个才最麻烦:( 刚刚在网上找了找,结合自己的实际操作,记录解决该问题的“伪”办法如下, 进入这个命令提示符,而不是
weilaiqing
·
2013-05-20 19:00
windows
python
7
Mahout
Canopy
Clustering学习
Canopy
聚类 可以帮你解决这个问题。它能够在你给出的域值[t2, t1]范围内,把这些数据分成若干类别,每种类别称之为
Canopy
。
zhan8610189
·
2013-05-08 21:00
cluster
Canopy
聚类算法
一、概念 与传统的聚类算法(比如K-means)不同,
Canopy
聚类最大的特点是不需要事先指定k值(即clustering的个数),因此具有很大的实际应用价值。
liangtee
·
2013-04-25 19:00
聚类
kmeans
CANOPY
关于mahout中的canop聚类
1.
Canopy
聚类
Canopy
聚类是一种简单、快速、但不太准确的聚类方法。该算法需一种快速的近似距离度量方法和两个距离阈值T1>T2。
nuoline
·
2013-02-25 18:00
Mahout学习——
Canopy
Clustering
转自:http://www.cnblogs.com/vivounicorn/archive/2011/09/23/2186483.htmlMahout学习——CanopyClustering 聚类是机器学习里很重要的一类方法,基本原则是将“性质相似”(这里就有相似的标准问题,比如是基于概率分布模型的相似性又或是基于距离的相似性)的对象尽可能的放在一个Cluster中而不同Cluster中对
zhouleilei
·
2013-02-04 10:00
Mahout clustering
Canopy
+K-means 源码分析
聚类分析 聚类(Clustering)可以简单的理解为将数据对象分为多个簇(Cluster),每个簇 里的所有数据对象具有一定的相似性,这样一个簇可以看多一个整体对待,以此可以提高计算质量或减少计算量。而数据对象间相似性的衡量通常是通过坐标系中空间距离的大小来判断;常见的有 欧几里得距离算法、余弦距离算法、皮尔逊相关系数算法
chenwq
·
2012-06-03 16:00
cluster
Mahout学习——
Canopy
Clustering
查看原文聚类是机器学习里很重要的一类方法,基本原则是将“性质相似”(这里就有相似的标准问题,比如是基于概率分布模型的相似性又或是基于距离的相似性)的对象尽可能的放在一个Cluster中而不同Cluster中对象尽可能不相似。对聚类算法而言,有三座大山需要爬过去:(1)、alargenumberofclusters,(2)、ahighfeaturedimensionality,(3)、alargen
azhao_dn
·
2012-05-31 14:00
hadoop
算法
vector
存储
output
pair
上一页
1
2
3
4
5
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他