Mac OS Hadoop Mahout安装
1. 下载Hadoop,Mahout:
可以直接从labs.renren.com/apache-mirror/hadoop和labs.renren.com/apache-mirror/mahout下载
2. 配置Hadoop配置文件:
(1) core-site.xml:
<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Put site-specific property overrides in this file. --> <configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000/</value> </property> </configuration>
(2) mapred-site.xml
<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Put site-specific property overrides in this file. --> <configuration> <property> <name>mapred.job.tracker</name> <value>localhost:9001</value> </property> </configuration>
(3) hdfs-site.xml
<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Put site-specific property overrides in this file. --> <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>
(4) 在 hadoop-env.sh文件末尾加入以下配置信息:
export JAVA_HOME=/System/Library/Frameworks/JavaVM.framework/Versions/1.6.0/Home export HADOOP_INSTALL=/Users/alex/Documents/DevRes/hadoop-0.21.0 export PATH=$PATH:$HADOOP_INSTALL/bin
3. 配置SSH
在系统偏好设置->共享里勾选'远程登录'选项
配置无密钥登陆:
(1) 生成密钥(公钥):
ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
ssh-keygen代表生成密钥;-t表示指定生成的密钥类型;dsa是dsa密钥认证的意思,即密钥类型;-P用于提供密语;-f指定生成的密钥文件
(2) 把公钥加入认证文件中:
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
设置完成后用SSH登陆本机就不会要求输入密码
4. 运行Hadoop:
格式化:
bin/hadoop namenode -format
启动所有进程:
bin/start-all.sh
如果报错:
Unable to load realm info from SCDynamicStore
则在hadoop-env.sh文件末尾加入:
export HADOOP_OPTS="-Djava.security.krb5.realm=OX.AC.UK -Djava.security.krb5.kdc=kdc0.ox.ac.uk:kdc1.ox.ac.uk"
5. 测试WordCount
首先生成输入文件input.txt:
1 hello world 2 hello hadoop
在HDFS下创建目录input:
bin/hadoop fs -mkdir input
将输入文件放入该目录中:
bin/hadoop fs -put input.txt input
执行Hadoop自带的example.jar中的WordCount:
bin/hadoop jar hadoop-version-example.jar wordcount input output
运行结果会放入output文件夹中,显示该文件夹中的信息:
bin/hadoop fs -ls output
会显示三个文件:_SUCCESS,_logs,part-r-00000,真正的结果存放在part-r-00000中:
bin/hadoop fs -cat output/part-r-00000
最终的结果为:
hadoop 1 hello 2 world 1
6. 配置Mahout:
在/etc/profile文件末尾加入以下配置信息
export=JAVA_HOME/System/Library/Frameworks/JavaVM.framework/Versions/1.6.0/Home export MAHOUT_HOME=/path/to/mahout
执行bin/mahout --help,如果有帮助信息则说明安装成功
7. 在Eclipse中配置Hadoop和Mahout
(1) 配置Hadoop和在别的OS下配置Hadoop一样,都是将Hadoop的Eclipse-plugin的jar包导入Eclipse的plugin文件夹,然后在Eclipse的preference->Hadoop Map/Reduce下配置Hadoop的安装路径
(2) 配置好Hadoop后,新建一个Map/Reduce工程,然后将mahout目录下的core,core-job,math,util四个jar包加入到该工程的Build Path中即可
参考文献:
[2] Mac OS下安装伪分布式Hadoop及Eclipse插件
[3] 配置SSH免密钥登陆
[4] Unable to load realm info from SCDynamicStore错误解决