清风朗月

hadoop2.2.0 centos 编译安装详解

搭建环境:Centos x 6.4 64bit

1、安装JDK

我这里用的是64位机，要下载对应的64位的JDK,下载地址：http://www.oracle.com/technetwork/cn/java/javase/downloads/jdk7-downloads-1880260-zhs.html，选择对应的JDK版本，解压JDK，然后配置环境变量,

[html] view plaincopy
vi /etc/profile

注：这里有的人喜欢配置在当前用户里，我这里是配置的全局。
[html] view plaincopy
export PATH
export JAVA_HOME=/opt/jdk1.7
export PATH=$PATH:$JAVA_HOME/bin

source /etc/profile

测试下JDK是否安装成功: java -version
[html] view plaincopy
java version "1.7.0_45"
Java(TM) SE Runtime Environment (build 1.7.0_45-b18)
Java HotSpot(TM) 64-Bit Server VM (build 24.45-b08, mixed mode)

2、编译前的准备(maven)

maven官方下载地址，可以选择源码编码安装，这里就直接下载编译好的就可以了

[html] view plaincopy
wget http://mirror.bit.edu.cn/apache/maven/maven-3/3.1.1/binaries/apache-maven-3.1.1-bin.zip
解压文件后，同样在/etc/profie里配置环境变量

[html] view plaincopy
export MAVEN_HOME=/opt/maven3.1.1
export PATH=$PATH:$MAVEN_HOME/bin
验证配置是否成功: mvn -version

[html] view plaincopy
Apache Maven 3.1.1 (0728685237757ffbf44136acec0402957f723d9a; 2013-09-17 23:22:22+0800)
Maven home: /opt/maven3.1.1
Java version: 1.7.0_45, vendor: Oracle Corporation
Java home: /opt/jdk1.7/jre
Default locale: en_US, platform encoding: UTF-8
OS name: "linux", version: "2.6.32-358.el6.x86_64", arch: "amd64", family: "unix"

3、编译hadoop
这个地方你将会遇到各式各样的头疼问题

首先官方下载hadoop源码

[html] view plaincopy
wget http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-2.2.0/hadoop-2.2.0-src.tar.gz
如果是你32bit的机器，可以直接下载官方已经编译好的包，64bit的机子跑编译好的包跑不了。
        由于maven国外服务器可能连不上，先给maven配置一下国内镜像，在maven目录下，conf/settings.xml,在<mirrors></mirros>里添加，原本的不要动

[html] view plaincopy
<mirror>
     <id>nexus-osc</id>
      <mirrorOf>*</mirrorOf>
<name>Nexusosc</name>
<url>http://maven.oschina.net/content/groups/public/</url>
</mirror>

    同样，在<profiles></profiles>内新添加
[html] view plaincopy
<profile>
       <id>jdk-1.7</id>
       <activation>
         <jdk>1.7</jdk>
       </activation>
       <repositories>
         <repository>
           <id>nexus</id>
           <name>local private nexus</name>
           <url>http://maven.oschina.net/content/groups/public/</url>
           <releases>
             <enabled>true</enabled>
           </releases>
           <snapshots>
             <enabled>false</enabled>
           </snapshots>
         </repository>
       </repositories>
       <pluginRepositories>
         <pluginRepository>
           <id>nexus</id>
          <name>local private nexus</name>
           <url>http://maven.oschina.net/content/groups/public/</url>
           <releases>
             <enabled>true</enabled>
           </releases>
           <snapshots>
             <enabled>false</enabled>
           </snapshots>
         </pluginRepository>
       </pluginRepositories>
     </profile>
编译clean
[html] view plaincopy
cd hadoop2.2.0-src
mvn clean install –DskipTests

发现异常
[html] view plaincopy
[ERROR] Failed to execute goal org.apache.hadoop:hadoop-maven-plugins:2.2.0:protoc (compile-protoc) on project hadoop-common: org.apache.maven.plugin.MojoExecutionException: 'protoc --version' did not return a version -> [Help 1]
[ERROR]
[ERROR] To see the full stack trace of the errors, re-run Maven with the -e switch.
[ERROR] Re-run Maven using the -X switch to enable full debug logging.
[ERROR]
[ERROR] For more information about the errors and possible solutions, please read the following articles:
[ERROR] [Help 1] http://cwiki.apache.org/confluence/display/MAVEN/MojoExecutionException
[ERROR]
[ERROR] After correcting the problems, you can resume the build with the command
[ERROR]   mvn <goals> -rf :hadoop-common

hadoop2.2.0编译需要protoc2.5.0的支持，所以还要下载protoc，下载地址:https://code.google.com/p/protobuf/downloads/list，要下载2.5.0版本噢
对protoc进行编译安装前先要装几个依赖包:gcc,gcc-c++,make 如果已经安装的可以忽略

[html] view plaincopy
yum install gcc
yum intall gcc-c++
yum install make

安装protoc
[html] view plaincopy
tar -xvf protobuf-2.5.0.tar.bz2
cd protobuf-2.5.0
./configure --prefix=/opt/protoc/
make && make install
安装完配置下环境变量，就不多说了，跟上面过程一样。

别急，还不要着急开始编译安装，不然又是各种错误,需要安装cmake,openssl-devel,ncurses-devel依赖

[html] view plaincopy
yum install cmake
yum install openssl-devel
yum install ncurses-devel

目前的2.2.0 的Source Code 压缩包解压出来的code有个bug 需要patch后才能编译。否则编译hadoop-auth 会提示下面错误：

[ERROR] Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:2.5.1:testCompile (default-testCompile) on project hadoop-auth: Compilation failure: Compilation failure:
[ERROR] /home/chuan/trunk/hadoop-common-project/hadoop-auth/src/test/java/org/apache/hadoop/security/authentication/client/AuthenticatorTestCase.java:[84,13] cannot access org.mortbay.component.AbstractLifeCycle
[ERROR] class file for org.mortbay.component.AbstractLifeCycle not found
Patch :https://issues.apache.org/jira/browse/HADOOP-10110

ok,现在可以进行编译了，
[html] view plaincopy
mvn package -Pdist,native -DskipTests -Dtar

现在可以拿出你的手机，玩会游戏了，慢慢等吧！
[html] view plaincopy
[INFO] ------------------------------------------------------------------------
[INFO] Reactor Summary:
[INFO]
[INFO] Apache Hadoop Main ................................ SUCCESS [3.709s]
[INFO] Apache Hadoop Project POM ......................... SUCCESS [2.229s]
[INFO] Apache Hadoop Annotations ......................... SUCCESS [5.270s]
[INFO] Apache Hadoop Assemblies .......................... SUCCESS [0.388s]
[INFO] Apache Hadoop Project Dist POM .................... SUCCESS [3.485s]
[INFO] Apache Hadoop Maven Plugins ....................... SUCCESS [8.655s]
[INFO] Apache Hadoop Auth ................................ SUCCESS [7.782s]
[INFO] Apache Hadoop Auth Examples ....................... SUCCESS [5.731s]
[INFO] Apache Hadoop Common .............................. SUCCESS [1:52.476s]
[INFO] Apache Hadoop NFS ................................. SUCCESS [9.935s]
[INFO] Apache Hadoop Common Project ...................... SUCCESS [0.110s]
[INFO] Apache Hadoop HDFS ................................ SUCCESS [1:58.347s]
[INFO] Apache Hadoop HttpFS .............................. SUCCESS [26.915s]
[INFO] Apache Hadoop HDFS BookKeeper Journal ............. SUCCESS [17.002s]
[INFO] Apache Hadoop HDFS-NFS ............................ SUCCESS [5.292s]
[INFO] Apache Hadoop HDFS Project ........................ SUCCESS [0.073s]
[INFO] hadoop-yarn ....................................... SUCCESS [0.335s]
[INFO] hadoop-yarn-api ................................... SUCCESS [54.478s]
[INFO] hadoop-yarn-common ................................ SUCCESS [39.215s]
[INFO] hadoop-yarn-server ................................ SUCCESS [0.241s]
[INFO] hadoop-yarn-server-common ......................... SUCCESS [15.601s]
[INFO] hadoop-yarn-server-nodemanager .................... SUCCESS [21.566s]
[INFO] hadoop-yarn-server-web-proxy ...................... SUCCESS [4.754s]
[INFO] hadoop-yarn-server-resourcemanager ................ SUCCESS [20.625s]
[INFO] hadoop-yarn-server-tests .......................... SUCCESS [0.755s]
[INFO] hadoop-yarn-client ................................ SUCCESS [6.748s]
[INFO] hadoop-yarn-applications .......................... SUCCESS [0.155s]
[INFO] hadoop-yarn-applications-distributedshell ......... SUCCESS [4.661s]
[INFO] hadoop-mapreduce-client ........................... SUCCESS [0.160s]
[INFO] hadoop-mapreduce-client-core ...................... SUCCESS [36.090s]
[INFO] hadoop-yarn-applications-unmanaged-am-launcher .... SUCCESS [2.753s]
[INFO] hadoop-yarn-site .................................. SUCCESS [0.151s]
[INFO] hadoop-yarn-project ............................... SUCCESS [4.771s]
[INFO] hadoop-mapreduce-client-common .................... SUCCESS [24.870s]
[INFO] hadoop-mapreduce-client-shuffle ................... SUCCESS [3.812s]
[INFO] hadoop-mapreduce-client-app ....................... SUCCESS [15.759s]
[INFO] hadoop-mapreduce-client-hs ........................ SUCCESS [6.831s]
[INFO] hadoop-mapreduce-client-jobclient ................. SUCCESS [8.126s]
[INFO] hadoop-mapreduce-client-hs-plugins ................ SUCCESS [2.320s]
[INFO] Apache Hadoop MapReduce Examples .................. SUCCESS [9.596s]
[INFO] hadoop-mapreduce .................................. SUCCESS [3.905s]
[INFO] Apache Hadoop MapReduce Streaming ................. SUCCESS [7.118s]
[INFO] Apache Hadoop Distributed Copy .................... SUCCESS [11.651s]
[INFO] Apache Hadoop Archives ............................ SUCCESS [2.671s]
[INFO] Apache Hadoop Rumen ............................... SUCCESS [10.038s]
[INFO] Apache Hadoop Gridmix ............................. SUCCESS [6.062s]
[INFO] Apache Hadoop Data Join ........................... SUCCESS [4.104s]
[INFO] Apache Hadoop Extras .............................. SUCCESS [4.210s]
[INFO] Apache Hadoop Pipes ............................... SUCCESS [9.419s]
[INFO] Apache Hadoop Tools Dist .......................... SUCCESS [2.306s]
[INFO] Apache Hadoop Tools ............................... SUCCESS [0.037s]
[INFO] Apache Hadoop Distribution ........................ SUCCESS [21.579s]
[INFO] Apache Hadoop Client .............................. SUCCESS [7.299s]
[INFO] Apache Hadoop Mini-Cluster ........................ SUCCESS [7.347s]
[INFO] ------------------------------------------------------------------------
[INFO] BUILD SUCCESS
[INFO] ------------------------------------------------------------------------
[INFO] Total time: 11:53.144s
[INFO] Finished at: Fri Nov 22 16:58:32 CST 2013
[INFO] Final Memory: 70M/239M
[INFO] ------------------------------------------------------------------------

直到看到上面的内容那就说明编译完成了。
编译后的路径在:hadoop-2.2.0-src/hadoop-dist/target/hadoop-2.2.0

[html] view plaincopy
[root@localhost bin]# ./hadoop version
Hadoop 2.2.0
Subversion Unknown -r Unknown
Compiled by root on 2013-11-22T08:47Z
Compiled with protoc 2.5.0
From source with checksum 79e53ce7994d1628b240f09af91e1af4
This command was run using /data/hadoop-2.2.0-src/hadoop-dist/target/hadoop-2.2.0/share/hadoop/common/hadoop-common-2.2.0.jar

可以看出hadoop的版本
[html] view plaincopy
[root@localhost hadoop-2.2.0]# file lib//native/*
lib//native/libhadoop.a:        current ar archive
lib//native/libhadooppipes.a:   current ar archive
lib//native/libhadoop.so:       symbolic link to `libhadoop.so.1.0.0'
lib//native/libhadoop.so.1.0.0: <span style="color:#ff0000;">ELF 64-bit LSB shared object, x86-64, version 1</span> (SYSV), dynamically linked, not stripped
lib//native/libhadooputils.a:   current ar archive
lib//native/libhdfs.a:          current ar archive
lib//native/libhdfs.so:         symbolic link to `libhdfs.so.0.0.0'
lib//native/libhdfs.so.0.0.0:   <span style="color:#ff0000;">ELF 64-bit LSB shared object, x86-64, version 1</span> (SYSV), dynamically linked, not stripped

注意红色字体部分，如果下载官网的编译好的包，这里显示的是32-bit。

hadoop编译成功，下面可以来部署集群。

5、部署集群准备

     两台以上机器，修改hostname, ssh免登陆，关闭防火墙等

5.1、创建新用户

[html] view plaincopy
useradd hadoop
su hadoop
注意以下操作有些需要root权限
5.2、修改主机名

[html] view plaincopy
vi /etc/sysconfig/network
[html] view plaincopy
hostname master
注销一下系统
[html] view plaincopy
[root@master ~]#
变成master了,修改生效
5.3、修改hosts

[html] view plaincopy
vi /etc/hosts
新增你的主机IP和HOSTNAME

192.168.10.10 master
192.168.10.11 slave1
    5.4、ssh免登陆

查看ssh

[html] view plaincopy
[root@localhost data]# rpm -qa|grep ssh
libssh2-1.4.2-1.el6.x86_64
openssh-5.3p1-84.1.el6.x86_64
openssh-server-5.3p1-84.1.el6.x86_64
缺少openssh-clients,
[html] view plaincopy
yum install openssh-clients


修改/etc/ssh/sshd_config

        RSAAuthentication yes

PubkeyAuthentication yes

        AuthorizedKeysFile      .ssh/authorized_keys

把这三行放开保存

然后service sshd restart

现在开始配置无密登录

[html] view plaincopy
[hadoop@master ~]$ cd /home/hadoop/
[hadoop@master ~]$ ssh-keygen -t rsa
一路回车
[html] view plaincopy
[hadoop@master ~]$ cd .ssh/
[hadoop@master .ssh]$ cp id_rsa.pub authorized_keys
[hadoop@master .ssh]$ chmod 600 authorized_keys
把authorized_keys复制到其他要无密的机器上
[html] view plaincopy
[hadoop@master .ssh]$ scp authorized_keys [email protected]:/home/hadoop/.ssh/
记得这里是以要以root权限过去，不然会报权限错误
一般情况到这里就可以无密登录了，可是我怎么还是需要密码，经过一翻搜寻才知道这是centos6.4版本的问题，《关于centos ssh无密登录失败的记录》
[html] view plaincopy
[hadoop@master .ssh]$ ssh slave1
Last login: Mon Nov 25 14:49:25 2013 from master
[hadoop@slave1 ~]$
看到已经变成slave1了，说明成功鸟

6、开始集群配置工作
配置之前在要目录下创建三个目录，用来放hadooop文件和日志数据

[html] view plaincopy
[hadoop@master ~]$mkdir -p dfs/name
[hadoop@master ~]$mkdir -p dfs/data
[hadoop@master ~]$mkdir -p temp
把之前编译成功的版本移到hadoop目录下，注意目录权限问题
下面就开始配置文件

6.1 hadoop-env.sh

找到JAVA_HOME，把路径改为实际地址

        6.2 yarn-env.sh

同6.1

6.3 slave

配置所有slave节点

6.4 core-site.xml

[html] view plaincopy
              <property>
                              <name>fs.defaultFS</name>
                              <value>hdfs://master:9000</value>   //系统分布式URL
              </property>
<property>
                              <name>io.file.buffer.size</name>
                              <value>131072</value>
              </property>
             <property>
                              <name>hadoop.tmp.dir</name>
                              <value>file:/home/hadoop/temp</value>
              </property>
             <property>
                         <name>hadoop.proxyuser.hadoop.hosts</name>
                        <value>*</value>
            </property>
               <property>
                         <name>hadoop.proxyuser.hadoop.groups</name>
                        <value>*</value>
             </property>
注意fs.defaultFS为2.2.0新的变量，代替旧的：fs.default.name

6.5、hdfs-site.xml

配置namenode、datanode的本地目录信息

[html] view plaincopy
<property>
                <name>dfs.namenode.secondary.http-address</name>
               <value>master:9001</value>
        </property>
         <property>
                  <name>dfs.namenode.name.dir</name>
                 <value>/home/hadoop/dfs/name</value>
            </property>
           <property>
                    <name>dfs.datanode.data.dir</name>
                    <value>/home/hadoop/dfs/data,/mnt/d1,/mnt/d2,/mnt/d3<table border="1" cellspacing="0" cellpadding="0" style="background:black;"><tbody><tr><td valign="top"><span style="background-color: rgb(240, 240, 240);"></value></span></td></tr></tbody></table>            </property>
<span style="white-space:pre"> </span><property>
                     <name>dfs.replication</name>
                     <value>3</value>
             </property>
<span style="white-space:pre">      </span><property>
                     <name>dfs.webhdfs.enabled</name>
<span style="white-space:pre">          </span><value>true</value>
         </property>
新的：dfs.namenode.name.dir，旧：dfs.name.dir，新：dfs.datanode.name.dir，旧：dfs.data.dir
dfs.replication确定 data block的副本数目，hadoop基于rackawareness(机架感知)默认复制3份分block,（同一个rack下两个，另一个rack下一份，按照最短距离确定具体所需block, 一般很少采用跨机架数据块，除非某个机架down了）

6.6、mapred-site.xml

配置其使用 Yarn 框架执行 map-reduce 处理程序
这个地方需要把mapred-site.xml.template复制重新命名

[html] view plaincopy
<property>
                              <name>mapreduce.framework.name</name>
                              <value>yarn</value>
              </property>
              <property>
                              <name>mapreduce.jobhistory.address</name>
                              <value><span style="font-family: Consolas, 'Courier New', Courier, mono, serif; line-height: 18px;">master</span>:10020</value>
              </property>
              <property>
             <name>mapreduce.jobhistory.webapp.address</name>
             <value>master:19888</value>

     </property>

新的计算框架取消了实体上的jobtracker, 故不需要再指定mapreduce.jobtracker.addres，而是要指定一种框架，这里选择yarn. 备注2：hadoop2.2.还支持第三方的计算框架，但没怎么关注过。
配置好以后将$HADOOP_HOME下的所有文件，包括hadoop目录分别copy到其它3个节点上。
    6.7、yarn-site.xml

配置ResourceManager,NodeManager的通信端口，WEB监控端口等
[html] view plaincopy
    <property>
              <name>yarn.nodemanager.aux-services</name>
              <value>mapreduce_shuffle</value>
       </property>
       <property>
              <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
              <value>org.apache.hadoop.mapred.ShuffleHandler</value>
       </property>
<property>
              <name>yarn.resourcemanager.address</name>
              <value>master:8032</value>
      </property>
       <property>
              <name>yarn.resourcemanager.scheduler.address</name>
              <value>master:8030</value>
       </property>
       <property>
                      <name>yarn.resourcemanager.resource-tracker.address</name>
                       <value>master:8031</value>
        </property>
        <property>
                      <name>yarn.resourcemanager.admin.address</name>
                       <value>master:8033</value>
         </property>
         <property>
              <name>yarn.resourcemanager.webapp.address</name>
              <value>master:8088</value>
          </property>
[html] view plaincopy
<table cellspacing="0" cellpadding="0" class="t1   "><tbody><tr><td valign="middle" class="td1"><p class="p1"><property></p><p class="p1"><name>yarn.nodemanager.resource.memory-mb</name> //配置内存</p><p class="p1"><value>15360</value></p><p class="p1"></property></p></td></tr></tbody></table>
[html] view plaincopy
<table cellspacing="0" cellpadding="0" class="t1   "><tbody><tr><td valign="middle" class="td1"><p class="p1"><span style="background-color: rgb(255, 255, 255);">到这里基本配置好了，把所有复制到其他的slave节点。</span></p></td></tr></tbody></table>

7、启动hadoop

这里你可以进行环境变量设置，不举例了

7.1、格式化namenode

[html] view plaincopy
[hadoop@master hadoop]$ cd /home/hadoop/hadoop-2.2.0/bin/
[hadoop@master bin]$ ./hdfs namenode -format
7.2、启动hdfs
[html] view plaincopy
[hadoop@master bin]$ cd ../sbin/
[hadoop@master sbin]$ ./start-dfs.sh
这时候在master中输入jps应该看到namenode和secondarynamenode服务启动，slave中看到datanode服务启动

7.3、启动yarn
[html] view plaincopy
[hadoop@master sbin]$ ./start-yarn.sh

master中应该有ResourceManager服务，slave中应该有nodemanager服务

查看集群状态：./bin/hdfs dfsadmin –report

查看文件块组成： ./bin/hdfsfsck / -files -blocks

查看各节点状态:    http://192.168.10.10:50070

查看resourcemanager上cluster运行状态:    http:// 192.168.10.11:8088

8、安装中要注意的事项

8.1、注意版本，机器是32bit还是64位

8.2、注意依赖包的安装

8.3、写配置文件注意”空格“，特别是从别的地方copy的时候

8.4、关闭所有节点的防火墙

如果有看到类似"no route to host"这样的异常，基本就是防火墙没关

记得关的时候要切换到root帐号

[html] view plaincopy
（1）重启后永久性生效：

开启：chkconfig iptables on

关闭：chkconfig iptables off

（2）即时生效，重启后失效：

开启：service iptables start

关闭：service iptables stop
8.5、开启datanode后自动关闭
基本是因为namenode和datanode的clusterID不一致，可以参考《解决hadoop集群中datanode启动后自动关闭的问题》

其他一些特殊异常只能google之了

8.6 no datanode to stop

删除/tmp目录下的

adoop-daemon.sh代码，脚本是通过pid文件来停止hadoop服务的，而集群配置是使用的默认配置，pid文件位于/tmp目录下，对比/tmp目录下hadoop pid文件中的进程id和ps ax查出来的进程id，发现两个进程id不一致，终于找到了问题的根源。
赶紧去更新hadoop的配置吧！
修改hadoop-env.sh中的：HADOOP_PID_DIR = hadoop安装路径
9、运行测试例子

[html] view plaincopy
[hadoop@master bin]$ ./yarn jar ../share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar randomwriter /home/hadoop/dfs/input/
这里要注意不要用 -jar,不然会报异常“Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/util/ProgramDriver”
[html] view plaincopy
[hadoop@master bin]$ ./yarn jar ../share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount /home/hadoop/dfs/input/ /home/hadoop/dfs/output/
在input下面新建两个文件
[html] view plaincopy
$mkdir /dfs/input %echo ‘hello,world’ >> input/file1.in
$echo ‘hello, ruby’ >> input/file2.in

./bin/hadoop fs -mkdir -p /home/hadoop/dfs/input
./bin/hadoop fs –put /home/hadoop/dfs/input /home/hadoop/test/test_wordcount/in

查看word count的计算结果：
$bin/hadoop fs -cat /home/hadoop/test/test_wordcount/out/*
hadoop 1
hello 1
ruby

Yarn介绍 - 大数据框架 why do not 大数据 hadoop
YARN的概述YARN是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序YARN是Hadoop2.x版本中的一个新特性。它的出现其实是为了解决第一代MapReduce编程框架的不足，提高集群环境下的资源利用率，这些资源包括内存，磁盘，网络，IO等。Hadoop2.X版本中重新设计的这个YARN集群
大数据知识总结（三）：Hadoop之Yarn重点架构原理 Lansonli 大数据大数据 hadoop 架构 Yarn
文章目录Hadoop之Yarn重点架构原理一、Yarn介绍二、Yarn架构三、Yarn任务运行流程四、Yarn三种资源调度器特点及使用场景Hadoop之Yarn重点架构原理一、Yarn介绍ApacheHadoopYarn(YetAnotherReasourceNegotiator，另一种资源协调者)是Hadoop2.x版本后使用的资源管理器，可以为上层应用提供统一的资源管理平台。二、Yarn架构Y
《Hadoop系列》Docker安装Hadoop DATA数据猿 Hadoop Docker docker hadoop
文章目录Docker安装Hadoop1安装docker1.1添加docker到yum源1.2安装docker2安装Hadoop2.1使用docker自带的hadoop安装2.2免密操作2.2.1master节点2.2.2slave1节点2.2.3slave2节点2.2.4将三个容器中的authorized_keys拷贝到本地合并2.2.5将本地authorized_keys文件分别拷贝到3个容器中
Spark整合hive（保姆级教程）万家林 spark hive spark hadoop
准备工作：1、需要安装配置好hive，如果不会安装可以跳转到Linux下编写脚本自动安装hive2、需要安装配置好spark，如果不会安装可以跳转到Spark安装与配置（单机版）3、需要安装配置好Hadoop，如果不会安装可以跳转到Linux安装配置Hadoop2.6操作步骤：1、将hive的conf目录下的hive-site.xml拷贝到spark的conf目录下（也可以建立软连接）cp/opt
hadoop-yarn资源分配介绍-以及推荐常用优化参数 Winhole hadoop Linux
根据网上的学习，结合工作进行的一个整理。如果有什么不正确的欢迎大家一起交流学习~Yarn前言作为Hadoop2.x的一部分，YARN采用MapReduce中的资源管理功能并对其进行打包，以便新引擎可以使用它们。这也简化了MapReduce，使其能够做到最好，处理数据。使用YARN，您现在可以在Hadoop中运行多个应用程序，所有应用程序都共享一个公共资源管理。那资源是有限的，YARN如何识别资源并
Hadoop手把手逐级搭建第二阶段: Hadoop完全分布式(full) 郑大能
前置步骤:1).第一阶段：Hadoop单机伪分布(single)0.步骤概述1).克隆4台虚拟机2).为完全分布式配置ssh免密3).将hadoop配置修改为完全分布式4).启动完全分布式集群5).在完全分布式集群上测试wordcount程序1.克隆4台虚拟机1.1使用hadoop0克隆4台虚拟机hadoop1,hadoop2,hadoop3,hadoop41.1.0克隆虚拟机hadoop11.1
【解决方案】pyspark 初次连接mongo 时报错Class not found exception:com.mongodb.spark.sql.DefaultSource 能白话的程序员♫ Spark spark
部分报错如下：Traceback(mostrecentcalllast): File"/home/cisco/spark-mongo-test.py",line7,in df=spark.read.format("com.mongodb.spark.sql.DefaultSource").load() File"/home/cisco/spark-2.4.1-bin-hadoop2.
Hadoop-Yarn-ResourceManagerHA 隔着天花板看星星 hadoop 大数据分布式
在这里先给屏幕面前的你送上祝福，祝你在未来一年：技术步步高升、薪资节节攀升，身体健健康康，家庭和和美美。一、介绍在Hadoop2.4之前，ResourceManager是YARN集群中的单点故障ResourceManagerHA是通过Active/Standby体系结构实现的，在任何时候其中一个RM都是活动的，并且一个或多个RM处于备用模式，等待在活动发生任何事情时接管。二、架构官网的架构图如下：
java大数据hadoop2.9.2 hive操作 crud-boy java大数据大数据 hive hadoop
1、创建常规数据库表（1）创建表createtablet_stu2(idint,namestring,hobbymap)rowformatdelimitedfieldsterminatedby','collectionitemsterminatedby'-'mapkeysterminatedby':';（2）创建文件student.txt1,zhangsan,唱歌:非常喜欢-跳舞:喜欢-游泳:一般
java大数据hadoop2.9.2 Flume安装&操作 crud-boy java大数据大数据 flume
1、flume安装（1）解压缩tar-xzvfapache-flume-1.9.0-bin.tar.gzrm-rfapache-flume-1.9.0-bin.tar.gzmv./apache-flume-1.9.0-bin//usr/local/flume（2）配置cd/usr/local/flume/confcp./flume-env.sh.template./flume-env.shvifl
Hadoop2.7配置不会吐丝的蜘蛛侠。 Hadoop hadoop 大数据 hdfs
core-site.xmlfs.defaultFShdfs://bigdata/ha.zookeeper.quorum192.168.56.70:2181,192.168.56.71:2181,192.168.56.72:2181-->hadoop.tmp.dir/export/data/hadoop/tmpfs.trash.interval1440io.file.buffer.size13107
现成Hadoop安装和配置，图文手把手交你叫我小唐就好了一些好玩的事 hadoop 大数据分布式课程设计运维
为了可以更加快速的可以使用Hadoop，便写了这篇文章，想尝试自己配置一下的可以参考从零开始配置Hadoop，图文手把手教你，定位错误资源1.两台已经配置好的hadoop2.xshell+Vmware链接：https://pan.baidu.com/s/1oX35G8CVCOzVqmtjdwrfzQ?pwd=3biz提取码：3biz--来自百度网盘超级会员V4的分享两台虚拟机用户名和密码均为roo
如何对HDFS进行节点内(磁盘间)数据平衡格格巫 MMQ!! hadoop hdfs hdfs hadoop 大数据
1.文档编写目的当HDFS的DataNode节点挂载多个磁盘时，往往会出现两种数据不均衡的情况：1.不同DataNode节点间数据不均衡；2.挂载数据盘的磁盘间数据不均衡。特别是这种情况：当DataNode原来是挂载了几个数据盘，当磁盘占用率很高之后，再挂载新的数据盘。由于Hadoop2.x版本并不支持HDFS的磁盘间数据均衡，因此，会造成老数据磁盘占用率很高，新挂载的数据盘几乎很空。在这种情况下
spark运维问题记录 lishengping_max Spark spark
环境：spark-2.1.0-bin-hadoop2.71.Spark启动警告：neitherspark.yarn.jarsnotspark.yarn.archiveisset，fallingbacktouploadinglibrariesunderSPARK_HOME原因：如果没设置spark.yarn.jars，每次提交到yarn，都会把$SPARK_HOME/jars打包成zip文件上传到H
大数据组件部署下载链接运维道上奔跑者大数据 zookeeper hbase kafka hadoop hive
Hadoop2.7下载连接:https://archive.apache.org/dist/hadoop/core/hadoop-2.7.6/Hive2.3.2下载连接：http://archive.apache.org/dist/hive/hive-2.3.2/Zookeeper下载连接：https://archive.apache.org/dist/zookeeper/zookeeper-3.
【大数据开发运维解决方案】Hadoop+Hive+HBase+Kylin 伪分布式安装指南运维道上奔跑者大数据 hadoop 分布式
Hadoop2.7.6+Mysql5.7+Hive2.3.2+Hbase1.4.9+Kylin2.4单机伪分布式安装文档注意：####################################################################本文档已经有了最新版本，主要改动地方为：1、zookeeper改为使用安装的外置zookeeper而非hbase自带zookeeper，新
Hadoop2.7.6+Mysql5.7+Hive2.3.2+zookeeper3.4.6+kafka2.11+Hbase1.4.9+Sqoop1.4.7+Kylin2.4单机伪分布式安装及官方案例测运维道上奔跑者分布式 hbase zookeeper hadoop
####################################################################最新消息：关于spark和Hudi的安装部署文档，本人已经写完，连接：Hadoop2.7.6+Spark2.4.4+Scala2.11.12+Hudi0.5.1单机伪分布式安装注意：本篇文章是在本人写的Hadoop+Hive+HBase+Kylin伪分布式安装指南
hadoop2.0之环境搭建详细流程 hhf_Engineer
1、在安装hadoop2.0之前，需要准备好以下软件（如下图1）图1：然后将这两个软件共享到centos上（如下图2红箭头指向和图3红箭头指向所示）在vm这上面有个虚拟机，点击虚拟机后有个硬件和选项，点选项，下面有个共享文件夹。图2：点击虚拟机那个地方图3：添加上去以后按确定按钮即可！2、为了有个集群的概念，我们把一台linux机器复制成有三份！如下图4所示：注：在复制前，必须要把linux的机器
apache hadoop 2.4.0 64bit 在windows8.1下直接安装指南（无需虚拟机和cygwin）夜魔009 技术 windows8 hadoop 64bit 库 hdfs
工作需要，要开始搞hadoop了，又是大数据，自己感觉大数据、云，只是ERP、SOAP风潮之后与智能地球一起诞生的概念炒作。不过Apache是个神奇的组织，Java如果没有它也不会现在如火中天。言归正传：首先需要下载Apachehadoop2.4.0的tar.gz包，到本地解压缩到某个盘下，注意路径里不要带空格。否则你配置文件里需要用windows8.3格式的路径！第二确保操作系统是64bit，已
docker搭建单机hadoop 阿桔是只猫大数据 hadoop docker 大数据
docker搭建单机hadoop前言一、docker是什么？二、hadoop是什么？三、使用步骤1.下载jdkhadoop2.编写Dockerfile3.构建镜像4.运行镜像5.创建客户端前言在华为云上使用docker搭建一个简单的hadoop单机环境。一、docker是什么？Docker是一个开源的应用容器引擎。开发者将需要的东西整理成镜像文件，然后再容器化这些镜像文件，容器之前相互隔离，互不影
Hadoop-生产调优(更新中) OnePandas Hadoop hadoop 大数据分布式
第1章HDFS-核心参数1.1NameNode内存生产配置1）NameNode内存计算每个文件块大概占用150byte，一台服务器128G内存为例，能存储多少文件块呢？128*1024*1024*1024/150byte≈9.1亿GMBKBByte2）Hadoop2.x系列，配置NameNode内存NameNode内存默认2000m，如果内存服务器内存4G，NameNode内存可以配置3g。在ha
大数据-Hadoop概论 Mr.史 Hadoop hadoop 大数据
文章目录大数据概论1、大数据概念2、大数据特点1、Volume(大量)2、Velocity(高速)3、Variety(多样)4、Value(低价值密度)3、大数据应用场景4、大数据部门业务流程分析5、大数据部门组织机构Hadoop1、Hadoop是什么？2、Hadoop发展史3、Hadoop三大发行版本1、ApacheHadoop2、ClouderaHadoop3、HortonworksHadoo
Elk运维-Elastic7.6.1集群安装部署消逝的bug 运维 elk 数据库
集群安装结果说明实例配置安装软件安装账号hadoop12C4G磁盘：50G云服务器elasticsearchkibanardhadoop22C4G磁盘：50G云服务器elasticsearchrdhadoop32C4G磁盘：50G云服务器elasticsearchrd整个安装过程使用的账号：root、rd(自己新建的账号)安装包下载：下载包中包含esfilebeatkibanaik等相关软件链接：
记一次Flink自带jar包与第三方jar包依赖冲突解决一枚小刺猬 flink flink jar hadoop
flink版本1.14.5hadoop2.6.0为了实现flink读取hive数据写入第三方的数据库，写入数据库需要调用数据库的SDK，当前SDK依赖的protobuf-java-3.11.0.jar，guava-29.0-android.jar与flink中lib下的部分jar包冲突，flink与hadoop、hive编译的jar中使用的guava，protobuf都要低于第三方sdk，因此会遇
[SparkSQL] Rdd转化DataFrame 通过StructType为字段添加Schema 林沐之森
1、开发环境spark-2.1.0-bin-hadoop2.62、Rdd转换成DataFrame，为字段添加列信息参数nullable说明：Indicatesifvaluesofthisfieldcanbenullvaluesvalschema=StructType(List(StructField("name",StringType,nullable=false),StructField("ag
YARN 工作原理无羡爱诗诗
1、Hadoop2新增了YARN，YARN的引入主要有两个方面的变更：其一、HDFS的NameNode可以以集群的方式部署，增强了NameNode的水平扩展能力和高可靠性，水平扩展能力对应HDFSFederation，高可靠性对应HA。其二、MapReduce将Hadoop1时代的JobTracker中的资源管理及任务生命周期管理拆分成两个独立的组件，资源管理对应ResourceManager，任
Hadoop2.0架构及其运行机制，HA原理 Toner_唐纳大数据
文章目录一、Hadoop2.0架构1.架构图2.HA1)NameNode主备切换2)watcher监听3)脑裂问题3.组件1.HDFS2.MapReduce3.Yarn1.组件2.调度流程一、Hadoop2.0架构1.架构图以上是hadoop2.0的架构图，根据hadoop1.0的不足，改进而来。1.NameNode节点，由原先的一个变成两个,解决单点故障问题2.JournalNode集群，处理E
idea上搭建pyspark开发环境 jackyan163
1环境版本说明python版本：Anaconda3.6.5spark版本：spark-2.4.8-bin-hadoop2.7idea版本：2019.32环境变量配置2.1python环境变量配置将python.exe所在的目录配置到path环境变量中2.2spark环境变量配置下载spark安装包，我下载的是spark-2.4.8-bin-hadoop2.7.tgz将安装包解压到一个非中文目录配置
指导手册05：MapReduce编程入门 weixin_30655219 大数据
指导手册05：MapReduce编程入门Part1:使用Eclipse创建MapReduce工程操作系统：Centos6.8,hadoop2.6.4情景描述：因为Hadoop本身就是由Java开发的，所以通常也选用Eclipse作为MapReduce的编程工具，本小节将完成Eclipse安装，MapReduce集成环境配置。1．下载与安装Eclipse（1）在官网下载Eclipse安装包“Ecli
Hadoop-HDFS高可用隔着天花板看星星 hadoop hdfs 大数据
一、说明在我的博客中已经包含了HDFS高可用的搭建，这里描述下它的原理。原理参考官网介绍：ApacheHadoop3.3.6–HDFSHighAvailabilityUsingtheQuorumJournalManager二、背景在Hadoop2.0.0之前，NameNode是HDFS集群中的单点故障（SPOF）。每个集群只有一个NameNode，如果NameNode节点发生故障会导致整个集群不可
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache

hadoop2.2.0 centos 编译安装详解

你可能感兴趣的:(hadoop2)