我的hadoop大数据之路(一)

    首先说明一下我这里的内容都是最最基础的hadoop内容,高手大大们可以绕路了。那么这里首先要说一下环境:vmworkstation(虚拟机,版本自己选吧,我用的是12),系统是centos6.5(不是我不想用7,我的电脑带7真的很费劲很费劲)。那么我们开始:

    1.安装JDK

由于Hadoop需要JDK的支持,那么首先你的linux系统上得有jdk,建议越高越好。我这里用的是jdk8,大家到oracle官方网站上下载就好。我下载的是*.jar.*类型的。然后在/usr下建立一个文件夹:java,把解压后的文件放入其中。然后对/etc/profile文件进行环境变量的配置:

    export JAVA_HOME=/usr/java/jdk1.8.0_65
    export JRE_HOME=$JAVA_HOME/jre
    export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin
    export CLASSPATH=./:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
上面是我的环境变量的配置。这里要注意的是这里面是:号不是;号。这样完毕后,如果大家输入java -version不报错并且输出java的版本号,那么说明大家的jdk安装成功了,恭喜,我们完成了第一部分。

    2.安装HADOOP

首先当然要下载hadoop了,这里是一个连接:hadoop下载地址,大家进去找相应的镜像下载即可,很简单。目前hadoop都出到2.x版本了,但是建议大家下载1.x的版本,听说(仅仅就是听说)1.x的比较稳定。我这里是1.2.1。下载完毕后将文件解压,在/usr/local/下放入解压后文件。然后为hadoop的安装路径添加方便使用的符号链接:$ln -s /usr/local/hadoop-1.2.1    /opt/hadoop 这样之后进行与jdk相同操作,添加环境变量:

export HADOOP_HOME=/usr/local/hadoop-1.2.1
export PATH=$HADOOP_HOME/bin:$PATH
这里要注意要把HADOOP_HOME放入到PATH中哦,上面给出了。这之后我们到Hadoop的conf目录下编辑Hadoop-env.sh 文件,搜索JAVA_HOME并取消改行的注释,修改路径指向JDK的安装路径。到这里为止恭喜你,我们完成了第二部分的工作。

    3.开始实践

输入如下命令:ssh-keygen 我们生成一堆openssh密钥对。里面会指向生成的位置,到该位置将新生成的公钥复制到已经授权的秘钥列表:

cp .ssh/id_rsa.pub     .ssh/autorized_keys

         然后我们尝试连接本机:ssh localhost 会打印一些信息。以后登录此本机就可以直接ssh -localhost了。这是为了以后做准备。

         那么现在到了真正hadoop现身的时候了,我们让hadoop计算圆周率:

Hadoop jar  hadoop位置/hadoop-examples-1.2.1.jar  pi 4 1000

那么就会打印出很多数据,类似于:

Number of Maps  = 4
Samples per Map = 1000
16/01/20 13:39:03 INFO util.NativeCodeLoader: Loaded the native-hadoop library
Wrote input for Map #0
Wrote input for Map #1
Wrote input for Map #2
Wrote input for Map #3
Starting Job
16/01/20 13:39:03 INFO mapred.FileInputFormat: Total input paths to process : 4
16/01/20 13:39:04 INFO mapred.JobClient: Running job: job_local264674731_0001
16/01/20 13:39:04 INFO mapred.LocalJobRunner: Waiting for map tasks
16/01/20 13:39:04 INFO mapred.LocalJobRunner: Starting task: attempt_local264674731_0001_m_000000_0.......

这里面其实就是hadoop把工作分成四个任务去完成然后把结果拼起来。

你可能感兴趣的:(大数据)