mahout介绍

Mahout案例

  1. 运行Mahout自带的Kmeans算法,同时验证安装的Mahout是否能正常运行
  2. 准备测试集。下载文件synthetic control.data(下载地址

http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data )并把这个文件放在MAHOUT_HOME目录下的synthetic control.data文件夹中

  1. 启动Hadoop集群。命令如下:start-all.sh
  2. 创建测试目录testdata,并把数据文件synthetic control.data导入这个testdata目录中。注意,这里的名字只能是testdata

hadoop fs –mkdir testdata #

hadoop fs –put/opt/mahout-distribution-0.7/synthetic_control.datatestdata

  1. 运行Kmeans算法。命令如下

hadoop jar/opt/mhout-distribution-0.7/mahout-examples-0.7-job.jar org.apache.mahout.clustering.synthetic control.keans.job

mahout seqdumper:将SequenceFile文件转换成可读的文本形式

mahout vectordump:将向量文件装换成可读文本的形式

mahout clusterdump:分析最后聚类的输出结果

源代码在 org.apache.mahout.utils///目录下

 

 

Mahout算法库

包括三大类:聚类、协同过滤、分类等算法

  1. 聚类算法

(1).聚类分析又称群分析,它是研究(样品和指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。

(2).聚类分析是由若干模式组成的,通常模式是一个度量的向量,或者是多维空间中的一个点

(3).聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一个聚类中的模式之间具有更多的相似性

(4)聚类的用途是很广泛的。

可以在市场上利用聚类,在数据库中区分不同的消费群体,概括每一个消费者的消费习惯

 

 

Canopy Clustering

Canopy 聚类

K-Means Clustering

K均值算法

Fuzzy K-Means

模糊K均值

Expectation maximization

EM聚类(期望最大化聚类)

Means shift Clustering

均值漂移聚类

Hierarchical Clustering

层次聚类

Dirichiet Process Clustering

狄利克雷过程聚类

Latent Dirichiet Allocation

LDA聚类算法

Spectral Clustering、Minhash Clustering、Top Down Clustering

谱算法

  1. 分类算法

分类就是按照某种标准给对象贴标签,在根据对象标签区分归类

分类是事先定义好类别,类别数不变

案例

比如程序员区分大豆和绿豆。我们输入的数据,比如颜色值、半径大小,属于黄豆还是绿豆。。。。首先我们需要拿出一些“豆子”的数据给程序,并告诉他是黄豆还是绿豆,然后通过自己的算法,让程序“计算”区别两种东西的“边界条件”,或者说提取特征。相当于训练/学习等概念

算法类

算法名

中文名

 

Logistics Regression

逻辑回归

Bayesian

贝叶斯

Support vector Machines

支持向量机

Perceptron and winnow

感知器算法

Neural Network

神经网络

Random Forests

随机森林

Restrict boltzmann machines

有限波尔兹曼机

 

  1. 协同过滤

电子商务推荐系统的一种主要算法。推荐算法

协同过滤推荐是在信息过滤和信息系统中正在迅速成为很受欢迎的技术。与传统的不同,传统的基于内容过滤直接分析内容进行推荐。协同过滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些相似用户对某一信息的评价,形成系统对该指定用户对此信息喜好程度预测。

案例:推荐系统,商品推荐和用户推荐

关联规则挖掘

Parallel FP Growth Algorithm

并行FP Growth

回归

Locally Weighted Linear Regression

局部加权线性回归

降维

/维约简

Stochastic Singular Value Decomposition

奇异值分解

Principal Components Analysis

主成分分析

Independent Components Analysis

独立成分分析

Gaussian Components Analysis

高斯判别分析

进化算法

并行化了Watchmake框架

 

推荐/协同过滤

Non-distributed recommenders

Taste(UserCF、itemCF、StopOne)

Distributed Recommenders

itemCF

向量相似度计算

RowSimilarityJob

计算列间相似度

VectorDistanceJob

计算向量间距离

非Map-Reduces算法

Hidden Markov models

隐马尔科夫模型

集合方法拓展

Collocations

拓展了Java类

 

你可能感兴趣的:(大数据)