阿里云上部署java8和hadoop3.0、spark、hive及Mahout

1.安装JDK1.8

到oracle官网:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
linux是64位的,安装 jdk-8u131-linux-x64.tar.gz 

安装及配置参考http://blog.csdn.net/rchm8519/article/details/48721913

/usr/jdk就是一个链接目录。实际的java目录为/usr/java


2.安装Hadoop3.0

到hadoop官网:http://hadoop.apache.org/releases.html

这里我选择的是最新版Hadoop3.0 alpha3 binary版本。注
意source版本是需要自己编译的,而binary是已经编译好,可以直接运行的。
下面是binary版本的下载地址:
http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.0.0-alpha3/hadoop-3.0.0-alpha3.tar.gz

tar -xzvf hadoop-3.0.0-alpha3.tar.gz
将解压目录移动到/usr/local,并重命名:
mv /download/hadoop-3.0.0-alpha3 /usr/local/hadoop


接下来就修改hadoop配置文件:
http://www.cnblogs.com/hehaiyang/p/4477626.html#label_2
文件路径为/usr/local/hadoop/etc/hadoop/,配置hadoop-env.sh。
阿里云上部署java8和hadoop3.0、spark、hive及Mahout_第1张图片

中间3行export是我添加的。

然后再次修改/etc/profile,
阿里云上部署java8和hadoop3.0、spark、hive及Mahout_第2张图片
添加下面的两句。
OK。

然后设置免密登陆,生成ssh密钥。
ssh-keygen -t rsa

ssh-copy-id localhost 
输入密码,搞定。


最后测试一下是否安装成功,输入:
hadoop
此时会显示hadoop文档

对于要伪分布式运行,要配置core-site.xml和hdfs-site.xml文件,参考:

core-site.xml 

        
                fs.defaultFS
                hdfs://Master:9000
        
        
                hadoop.tmp.dir
                file:/usr/local/hadoop/tmp
                Abase for other temporary directories.
        

hdfs-site.xml

        
                dfs.namenode.secondary.http-address
                Master:50090
        
        
                dfs.replication
                1
        
        
                dfs.namenode.name.dir
                file:/usr/local/hadoop/tmp/dfs/name
        
        
                dfs.datanode.data.dir
                file:/usr/local/hadoop/tmp/dfs/data
        


尝试伪分布式运行,出错提示:
ERROR: Attempting to launch hdfs secondarynamenode as root

ERROR: but there is no HDFS_SECONDARYNAMENODE_USER defined. Aborting launch.

按如下网站方法解决:
https://www.vastyun.com/bloger/179.html
成功运行。

3.安装Spark

4.安装Hive

5.安装Mahout




你可能感兴趣的:(大数据)