mahout环境搭建

环境:
操作系统:ubuntu12.04
JDK:1.6
maven:3.2.5
mahout:0.7
eclipse:4.2.2
1、因为mahout是基于maven搭建的,所以第一步需要安装maven
参考这篇文章http://www.cnblogs.com/dyllove98/archive/2013/07/08/3177900.html
下载地址是http://maven.apache.org/download.cgi
因为我的jdk是1.6,所以我下载的是apache-maven-3.2.5-bin.tar.gz
大家可以通过mvn –version查看是否配置正确
mahout环境搭建_第1张图片
2、下载mahout源码
http://mahout.apache.org/
我下载的是mahout-distribution-0.7-src.tar.bz2

tar -jxvf mahout-distribution-0.7-src.tar.bz2
cd mahout-distribution-0.7
mvn eclipse:eclipse

导入到eclipse中即可
其实对于mahout源码的编译有两种方式,具体可以参考这篇文章:http://blog.sina.com.cn/s/blog_6a67b5c50100wp6x.html

另外,如果想在eclipse中安装m2e插件的话,如果http://download.eclipse.org/technology/m2e/milestones不行的话,是因为eclipse版本和maven版本不匹配,可以尝试http://download.eclipse.org/technology/m2e/milestones/1.4这个地址

其实源码编译不编译通过,都不影响你在mahout上做开发,大家可以参考这个网址http://my.oschina.net/xinyuan6009/blog/220564写一个简单的mahout程序

如果仅仅搭建二进制环境的话,可以参考下面的链接http://www.cnblogs.com/linjiqin/archive/2013/03/15/2961649.html
1、下载mahout二进制文件
mahout-distribution-0.7.tar.gz
2、配置环境变量
3、启动hadoop
4、mahout –help
mahout环境搭建_第2张图片
5、通过k-means算法检查mahout是否配置正确
大家可以运行这个命令
参考链接http://zhidao.baidu.com/question/579933914.html
mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job –numClusters 3 –t1 0.5 –t2 10 –maxIter 10 -i ./testdata/synthetic_control.data -o output -ow
可以通过这个对命令行参数进行解释:
mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job –help
mahout环境搭建_第3张图片
对于输出结果的解释:
大家可以参考这个连接http://www.linuxidc.com/Linux/2014-01/94575.htm和http://blog.sina.com.cn/s/blog_518dac4c0101gekm.html
命令为:

mahout seqdumper -i output/clusteredPoints/part-r-00000 -o /home/hadoop/part-1
cat part-1 | more

其实最后对于mahout整个流程的安装,还有一篇文章,参考http://www.fx114.net/qa-145-115880.aspx

你可能感兴趣的:(maven,Mahout)