Hadoop第3周练习--Hadoop2.X编译安装和实验

1 作业题目... 5

2 编译Hadoop2.X 64bit. 5

2.1 运行环境说明... 5

2.1.1 硬软件环境... 5

2.1.2 集群网络环境... 6

2.2 环境搭建... 6

2.2.1 JDK安装和Java环境变量配置... 6

2.2.2 安装并设置maven. 8

2.2.3 以root用户使用yum安装svn. 9

2.2.4 以root用户使用yum安装autoconf automake libtool cmake. 10

2.2.5 以root用户使用yum安装ncurses-devel11

2.2.6 以root用户使用yum安装openssl-devel12

2.2.7 以root用户使用yum安装gcc*. 13

2.2.8 安装并设置protobuf13

2.3 编译Hadoop. 16

2.3.1 下载Hadoop源代码 Release2.2.0. 16

2.3.2 编译Hadoop源代码... 16

2.3.3 验证编译是否成功... 17

3 Hadoop2.X 64bit安装... 18

3.1 运行环境说明... 18

3.1.1 硬软件环境... 18

3.1.2 集群网络环境... 18

3.1.3 安装使用工具... 19

3.2 环境搭建... 21

3.2.1 配置本地环境... 21

3.2.2 设置操作系统环境... 24

3.3 配置Hadooop设置... 32

3.3.1 下载并解压hadoop安装包... 32

3.3.2 在Hadoop目录下创建子目录... 33

3.3.3 配置hadoop-env.sh. 34

3.3.4 配置yarn-env.sh. 35

3.3.5 配置core-site.xml36

3.3.6 配置hdfs-site.xml37

3.3.7 配置mapred-site.xml38

3.3.8 配置yarn-site.xml40

3.3.9 配置slaves文件... 41

3.3.10向各节点分发hadoop程序... 41

3.3.11格式化namenode. 42

3.3.12启动hdfs43

3.3.13验证当前进行... 43

3.3.14启动yarn. 43

3.3.15验证当前进行... 44

4 实验性问题解决... 44

4.1 运行环境说明... 44

4.1.1 硬软件环境... 44

4.1.2 集群网络环境... 45

4.2 问题1--给web监控界面加上安全机制... 45

4.2.1 修改Core-Site.xml文件... 45

4.2.2 手动创建signature-secret文件... 46

4.2.3 把该文件分发到两个datanode中... 47

4.2.4 重新启动hadoop. 47

4.2.5 验证访问... 47

4.3 问题2--模拟namenode崩溃并恢复... 48

4.3.1 删除NameNode中Name目录下所有文件，模拟崩溃... 48

4.3.2 重启Hadoop. 48

4.3.3 格式化NameNode. 50

4.3.4 获取DataNode的namespaceID.. 51

4.3.5 修改NameNode的namespaceID.. 52

4.3.6 删除NameNode的fsimage. 52

4.3.7 从SSN中拷贝fsimage到NN中... 52

4.3.8 重启Hadoop. 53

4.4 问题3--改变HDFS块大小... 53

4.4.1 在Hadoop中建立/input文件夹... 53

4.4.2 查看当前blocksize. 54

4.4.3 修改hdfs-site.xml配置文件... 54

4.4.4 重启Hadoop. 55

4.4.5 再次查看当前blocksize. 55

4.5 问题4--SNN与NN的分离... 56

4.5.1 复制虚拟机... 56

4.5.2 设置SNN虚拟机IP地址... 56

4.5.3 设置SNN虚拟机名称... 57

4.5.4 所有节点hosts 文件加入SNN的 IP对应信息... 57

4.5.5 所有节点masters文件加入SNN信息... 57

4.5.6 所有节点中修改hdfs-site.xml58

4.5.7 重启所有虚拟机... 59

4.5.8 配置ssh免密码登录... 59

4.5.9 重新格式化NameNode. 61

4.5.10启动Hadoop. 61

4.5.11验证... 61

4.6 问题5--再次格式化namenode，此时datanode是否能加入... 62

4.6.1 停止Hadoop并格式化... 62

4.6.2 启动Hadoop，并查看datanode状态... 62

4.6.3 查看datanode日志... 63

4.6.4 解决办法... 63

4.6.5 重启集群，查看datanode状态... 64

4.7 问题6--控制namenode检查点发生的频率... 65

4.7.1 在core-site.xml中修改检查点频率... 65

4.7.2 重启集群，查看检查点更新频率... 65

4.7.3 观察checkpoint 前后 namenode的变化... 66

4.7.4 基本原理... 66

5 问题解决... 67

5.1 安装CentOS64位虚拟机 This host supports Intel VT-x, but Intel VT-x is disabled. 67

5.2 *** is not in the sudoers file解决方法... 67

5.3 yum无法下载... 68

5.4 CentOS 64bit安装Hadoop2.2.0中出现文件编译位数异常... 69

5.5 编译Hadoop2.2.0出现代码异常... 70

1 作业题目

1. 部署Hadoop 2.x，建议尝试64位系统下进行本地编译的安装方式

2. 在Hadoop 1.x上进行探索性的实验研究，以下问题6选2

（1）能否给web监控界面加上安全机制，怎样实现？抓图过程

（2）模拟namenode崩溃，例如将name目录的内容全部删除，然后通过secondary namenode恢复namenode，抓图实验过程

（3）怎样改变HDFS块大小？实验验证并抓图过程

（4）把secondary namenode和namenode分离，部署到单独的节点，抓图实验过程

（5）在Hadoop集群实施成功后，再次格式化名称节点，请问此时datanode还能加入集群不？如果不能加入怎样解决？模拟过程并抓图

（6）怎样控制namenode检查点发生的频率，用实验模拟检查点发生的前后过程，并抓图发生前和发生后的元数据情况进行比较，说明之

2 编译Hadoop2.X 64bit

2.1 运行环境说明

2.1.1硬软件环境

l 主机操作系统：Windows 64 bit，双核4线程，主频2.2G，6G内存

l 虚拟软件：VMware® Workstation 9.0.0 build-812388

l 虚拟机操作系统：CentOS 6.5 64位，单核，1G内存

l JDK：1.7.0_55 64位

l Hadoop：Release 2.3.0 source

2.1.2集群网络环境

集群只包含一个节点，设置IP地址为192.168.1.200。

2.2 环境搭建

2.2.1JDK安装和Java环境变量配置

1. 下载JDK1.7 64bit安装包

打开JDK1.7 64bit安装包下载链接为：

http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html

打开界面之后，先选中 Accept License Agreement ，然后下载 jdk-7u55-linux-x64.tar.gz，如下图所示：

2. 赋予hadoop用户/usr/lib/java目录可读写权限，使用命令如下：

sudo chmod -R 777 /usr/lib/java

3. 把下载的安装包，使用ssh工具上传到/usr/lib/java 目录下，使用如下命令进行解压

tar -zxvf jdk-7u55-linux-x64.tar.gz

解压后目录如下图所示：

4. 使用root用户配置 /etc/profile，该设置对所有用户均生效

vi /etc/profile

export JAVA_HOME=/usr/lib/java/jdk1.7.0_55

export PATH=$JAVA_HOME/bin:$PATH

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

5. 重新登录并验证

logout

java -version

2.2.2安装并设置maven

1. 下载maven安装包，建议安装3.0以上版本，本次安装选择的是maven3.0.5的二进制包，下载地址如下

http://mirror.bit.edu.cn/apache/maven/maven-3/

2. 使用ssh工具把maven包上传到/home/hadoop/Downloads目录

3. 解压缩apache-maven-3.0.5-bin.tar.gz包

tar -zxvf apache-maven-3.0.5-bin.tar.gz

4. 把apache-maven-3.0.5目录移到/usr/local目录下

sudo mv apache-maven-3.0.5 /usr/local

5. 在/etc/profile配置文件中加入如下设置

export PATH=$JAVA_HOME/bin:/usr/local/apache-maven-3.0.5/bin:$PATH

6. 编辑/etc/profile文件并验证配置是否成功:

source /etc/profile

mvn -version

2.2.3以root用户使用yum安装svn

yum install svn

2.2.4以root用户使用yum安装autoconf automake libtool cmake

yum install autoconf automake libtool cmake

2.2.5以root用户使用yum安装ncurses-devel

yum install ncurses-devel

2.2.6以root用户使用yum安装openssl-devel

yum install openssl-devel

2.2.7以root用户使用yum安装gcc*

yum install gcc*

2.2.8安装并设置protobuf

注：该程序包需要在gcc安装完毕后才能安装，否则提示无法找到gcc编译器。

1. 下载protobuf安装包

下载链接为： https://code.google.com/p/protobuf/downloads/list

2. 使用ssh工具把protobuf-2.5.0.tar.gz包上传到/home/hadoop/Downloads目录

3. 解压安装包

tar -zxvf protobuf-2.5.0.tar.gz

4. 把protobuf-2.5.0目录转移到/usr/local目录下

sudo mv protobuf-2.5.0 /usr/local

5. 进行目录运行命令

进入目录以root用户运行如下命令：

./configure

make

make check

make install

6. 验证是否安装成功

运行成功之后，通过如下方式来验证是否安装成功

protoc

2.3 编译Hadoop

2.3.1下载Hadoop源代码 Release2.2.0

通过SVN获取Hadoop2.2.0源代码，在/home/hadoop/Downloads目录下命令：

svn checkout http://svn.apache.org/repos/asf/hadoop/common/tags/release-2.2.0

获取时间较长，大小约75.3M

2.3.2编译Hadoop源代码

:) 由于hadoop2.2.0在svn中pom.xml有点问题，会造成编译中出错，可先参考5.5修复该问题。在Hadoop源代码的根目录执行如下命令：

mvn package -Pdist,native -DskipTests –Dtar

(注意：这行命令需要手工输入，如果复制执行会报异常！)

耗费的时间较长，总共花费了32分钟，在编译过程需要联网，从网络中下载所需要的资料。

2.3.3验证编译是否成功

到 hadoop-dist/target/hadoop-2.2.0/lib/native 目录中查看libhadoop.so.1.0.0属性：

file ./libhadoop.so.1.0.0

该文件为ELF 64-bit LSB则表示文件成功编译为64位

在hadoop-dist/target目录中已经打包好了hadoop-2.2.0.tar.gz，该文件作为Hadoop2.X 64位安装包。

3 Hadoop2.X 64bit安装

3.1 运行环境说明

3.1.1硬软件环境

l 主机操作系统：Windows 64 bit，双核4线程，主频2.2G，6G内存

l 虚拟软件：VMware® Workstation 9.0.0 build-812388

l 虚拟机操作系统：CentOS 64位，单核，1G内存

l JDK：1.7.0_55 64位

l Hadoop：2.2.0

3.1.2集群网络环境

集群包含三个节点：1个namenode、2个datanode，其中节点之间可以相互ping通。节点IP地址和主机名分布如下：

序号	IP地址	机器名	类型	用户名
1	10.88.147.226	hadoop1	名称节点	hadoop
2	10.88.147.227	hadoop2	数据节点	hadoop
3	10.88.147.228	hadoop3	数据节点	hadoop

所有节点均是CentOS6.5 64bit系统，防火墙均禁用，所有节点上均创建了一个hadoop用户，用户主目录是/usr/hadoop。所有节点上均创建了一个目录/usr/local/hadoop，并且拥有者是hadoop用户。因为该目录用于安装hadoop，用户对其必须有rwx权限。（一般做法是root用户在/usr/local下创建hadoop目录，并修改该目录拥有者为hadoop(chown –R hadoop /usr/local/hadoop)，否则通过SSH往其他机器分发Hadoop文件会出现权限不足的提示。

3.1.3安装使用工具

3.1.3.1Linux文件传输工具

向Linux系统传输文件推荐使用SSH Secure File Transfer，该工具顶部为工具的菜单和快捷方式，中间部分左面为本地文件目录，右边为远程文件目录，可以通过拖拽等方式实现文件的下载与上传，底部为操作情况监控区，如下图所示：

3.1.3.2Linux命令行执行工具

l SSH Secure Shell

SSH Secure工具的SSH Secure Shell提供了远程命令执行，如下图所示：

l SecureCRT

SecureCRT是常用远程执行Linux命令行工具，如下图所示：

3.2 环境搭建

本次安装集群分为三个节点，节点设置按照2.1.2章节进行设置。环境搭建分为两部分，具体为配置本地环境和设置操作系统环境。

3.2.1配置本地环境

该部分对服务器的配置需要在服务器本地进行配置，配置完毕后需要重启服务器确认配置是否生效，特别是远程访问服务器需要设置固定IP地址。

3.2.1.1设置IP地址

1. 点击System-->Preferences-->Network Connections，如下图所示：

2. 修改或重建网络连接，设置该连接为手工方式，设置如下网络信息：

IP地址: 10.88.147.*

子网掩码： 255.255.255.0

网关： 10.88.*.*

DNS： 10. **.***.** (上网需要设置DNS服务器)

注意：网关、DNS等根据所在网络实际情况进行设置，并设置连接方式为"Available to all users"，否则通过远程连接时会在服务器重启后无法连接服务器

3. 在命令行中，使用ifconfig命令查看设置IP地址信息，如果修改IP不生效，需要重启机器再进行设置（如果该机器在设置后需要通过远程访问，建议重启机器，确认机器IP是否生效）：

3.2.1.2设置机器名

以root用户登录，使用 vi /etc/sysconfig/network 打开配置文件，根据实际情况设置该服务器的机器名，新机器名在重启后生效

3.2.1.3设置Host映射文件

1. 使用root身份编辑/etc/hosts映射文件，设置IP地址与机器名的映射，设置信息如下：

vi /etc/hosts

l 10.88.147.226 hadoop1

l 10.88.147.227 hadoop2

l 10.88.147.228 hadoop3

2. 使用如下命令对网络设置进行重启

/etc/init.d/network restart

3. 验证设置是否成功

3.2.1.4上网配置

第一步以root用户使用vi /etc/profile命令打开配置文件，如下图所示：

第二步在该文件设置如下配置：

export http_proxy=proxy.*****:8080

export no_proxy="localhost,10.88.*，hadoop*"

export https_proxy=proxy.*****:8080

3.2.2设置操作系统环境

3.2.2.1关闭防火墙

在Hadoop安装过程中需要关闭防火墙和SElinux，否则会出现异常

1. service iptables status 查看防火墙状态，如下所示表示iptables已经开启

2. 以root用户使用如下命令关闭iptables

chkconfig iptables off

3.2.2.2关闭SElinux

1. 使用getenforce命令查看是否关闭

2. 修改/etc/selinux/config 文件

将SELINUX=enforcing改为SELINUX=disabled，执行该命令后重启机器生效

3.2.2.3JDK安装及配置

7. 下载JDK1.7 64bit安装包

打开JDK1.7 64bit安装包下载链接为：

http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html

打开界面之后，先选中 Accept License Agreement ，然后下载 jdk-7u55-linux-x64.tar.gz，如下图所示：

8. 赋予hadoop用户/usr/lib/java目录可读写权限，使用命令如下：

sudo chmod -R 777 /usr/lib/java

该步骤有可能遇到问题5.2，可参考解决办法处理

9. 把下载的安装包，使用2.1.3.1介绍的ssh工具上传到/usr/lib/java 目录下，使用如下命令进行解压

tar -zxvf jdk-7u55-linux-x64.tar.gz

解压后目录如下图所示：

10. 使用root用户配置 /etc/profile，该设置对所有用户均生效

vi /etc/profile

export JAVA_HOME=/usr/lib/java/jdk1.7.0_55

export PATH=$JAVA_HOME/bin:$PATH

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

11. 重新登录并验证

logout

java -version

3.2.2.4更新OpenSSL

C自带的OpenSSL存在bug，如果不更新OpenSSL在Ambari部署过程会出现无法通过SSH连接节点，使用如下命令进行更新：

yum update openssl

该步骤有可能遇到问题5.3，可参考解决办法处理

3.2.2.5SSH无密码验证配置

1. 以root用户使用vi /etc/ssh/sshd_config，打开sshd_config配置文件，开放三个配置，如下图所示：

RSAAuthentication yes

PubkeyAuthentication yes

AuthorizedKeysFile .ssh/authorized_keys

2. 配置后重启服务

service sshd restart

3. 完成以上步骤后，复制该虚拟机两份，分别为hadoop2和hadoop3数据节点，IP设置参见1.2章节

4. 使用hadoop用户登录在三个节点中使用如下命令生成私钥和公钥；

ssh-keygen -t rsa

5. 进入/home/hadoop/.ssh目录在三个节点中分别把公钥命名为authorized_keys_hadoop1、authorized_keys_hadoop2和authorized_keys_hadoop3，使用命令如下：

cp id_rsa.pub authorized_keys_hadoop1

6. 把两个从节点(hadoop2、hadoop3)的公钥使用scp命令传送到hadoop1节点的/home/hadoop/.ssh文件夹中；

scp authorized_keys_hadoop2 hadoop@hadoop1:/home/hadoop/.ssh

7. 把三个节点的公钥信息保存到authorized_key文件中

使用cat authorized_keys_hadoop1 >> authorized_keys 命令

8. 把该文件分发到其他两个从节点上

使用scp authorized_keys hadoop@hadoop2:/home/hadoop/.ssh把密码文件分发出去

9. 在三台机器中使用如下设置authorized_keys读写权限

chmod 400 authorized_keys

10. 测试ssh免密码登录是否生效

3.3 配置Hadooop设置

3.3.1下载并解压hadoop安装包

1. 在Apache网站上提供Hadoop2.X安装包只支持32位操作系统安装，在64位服务器安装会出现5.4的错误异常。我们使用上一步骤编译好的hadoop-1.1.2-bin.tar.gz文件作为安装包（也可以从网上下载native文件夹或者打包好的64位hadoop安装包），使用2.1.3.1介绍的ssh工具上传到/home/hadoop/Downloads 目录下

2. 在主节点上解压缩

cd /home/hadoop/Downloads/

tar -xzvf hadoop-2.2.0.tar.gz

3. 把hadoop-2.2.0目录移到/usr/local目录下

sudo mv hadoop-2.2.0 /usr/local

cd /usr/local

4. 使用chown命令遍历修改hadoop-1.1.2目录所有者为hadoop

sudo chown -R hadoop /usr/local/hadoop-2.2.0

使用hadoop用户在hadoop-2.2.0目录下创建tmp、name和data目录，保证目录所有者为hadoop

mkdir tmp

mkdir name

mkdir data

3.3.3配置hadoop-env.sh

1. 打开配置文件hadoop-env.sh

cd etc/hadoop

sudo vi hadoop-env.sh

2. 加入配置内容，设置了hadoop中jdk和hadoop/bin路径

export JAVA_HOME=/usr/lib/java/jdk1.7.0_55

export PATH=$PATH:/usr/local/hadoop-2.2.0/bin

3. 编译配置文件hadoop-env.sh，并确认生效

source hadoop-env.sh

hadoop version

3.3.4配置yarn-env.sh

1. 在/usr/local/hadoop-2.2.0/etc/hadoop打开配置文件yarn-env.sh

cd /usr/local/hadoop-2.2.0/etc/hadoop

sudo vi yarn-env.sh

2. 加入配置内容，设置了hadoop中jdk和hadoop/bin路径

export JAVA_HOME=/usr/lib/java/jdk1.7.0_55

3. 编译配置文件yarn-env.sh，并确认生效

source yarn-env.sh

3.3.5配置core-site.xml

1. 使用如下命令打开core-site.xml配置文件

sudo vi core-site.xml

2. 在配置文件中，按照如下内容进行配置

<configuration>

<property>

<name>fs.default.name</name>

<value>hdfs://hadoop1:9000</value>

</property>

<property>

<name>fs.defaultFS</name>

<value>hdfs://hadoop1:9000</value>

</property>

<property>

<name>io.file.buffer.size</name>

<value>131072</value>

</property>

<property>

<name>hadoop.tmp.dir</name>

<value>file:/usr/local/hadoop-2.2.0/tmp</value>

<description>Abase for other temporary directories.</description>

</property>

<property>

<name>hadoop.proxyuser.hduser.hosts</name>

<value>*</value>

</property>

<property>

<name>hadoop.proxyuser.hduser.groups</name>

<value>*</value>

</property>

</configuration>

3.3.6配置hdfs-site.xml

1. 使用如下命令打开hdfs-site.xml配置文件

sudo vi hdfs-site.xml

2. 在配置文件中，按照如下内容进行配置

<configuration>

<property>

<name>dfs.namenode.secondary.http-address</name>

<value>hadoop1:9001</value>

</property>

<property>

<name>dfs.namenode.name.dir</name>

<value>file:/usr/local/hadoop-2.2.0/name</value>

</property>

<property>

<name>dfs.datanode.data.dir</name>

<value>file:/usr/local/hadoop-2.2.0/data</value>

</property>

<property>

<name>dfs.replication</name>

<value>2</value>

</property>

<property>

<name>dfs.webhdfs.enabled</name>

<value>true</value>

</property>

</configuration>

3.3.7配置mapred-site.xml

1. 默认情况下不存在mapred-site.xml文件，可以从模板拷贝一份

cp mapred-site.xml.template mapred-site.xml

2. 使用如下命令打开mapred-site.xml配置文件

sudo vi mapred-site.xml

3. 在配置文件中，按照如下内容进行配置

<configuration>

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

<property>

<name>mapreduce.jobhistory.address</name>

<value>hadoop1:10020</value>

</property>

<property>

<name>mapreduce.jobhistory.webapp.address</name>

<value>hadoop1:19888</value>

</property>

</configuration>

3.3.8配置yarn-site.xml

1. 使用如下命令打开yarn-site.xml配置文件

sudo vi yarn-site.xml

2. 在配置文件中，按照如下内容进行配置

<configuration>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<property>

<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

<property>

<name>yarn.resourcemanager.address</name>

<value>hadoop1:8032</value>

</property>

<property>

<name>yarn.resourcemanager.scheduler.address</name>

<value>hadoop1:8030</value>

</property>

<property>

<name>yarn.resourcemanager.resource-tracker.address</name>

<value>hadoop1:8031</value>

</property>

<property>

<name>yarn.resourcemanager.admin.address</name>

<value>hadoop1:8033</value>

</property>

<property>

<name>yarn.resourcemanager.webapp.address</name>

<value>hadoop1:8088</value>

</property>

</configuration>

3.3.9配置slaves文件

1. 设置从节点

sudo vi slaves

hadoop2

hadoop3

3.3.10 向各节点分发hadoop程序

1. 在hadoop2和hadoop3机器中创建/usr/local/hadoop-2.2.0目录，然后修改该目录所有权限

sudo mkdir /usr/local/hadoop-2.2.0

sudo chown –R hadoop /usr/local/hadoop-2.2.0

2. 在hadoop1机器上进入/usr/local/hadoop-2.2.0目录，使用如下命令把hadoop文件夹复制到hadoop2和hadoop3机器

使用命令scp -r * hadoop@hadoop2:/usr/local/hadoop-2.2.0

3. 在从节点查看是否复制成功

3.3.11 格式化namenode

./bin/hdfs namenode -format

3.3.12 启动hdfs

cd hadoop-2.2.0/sbin

./start-dfs.sh

如果服务器操作系统为32位时，出现问题5.4异常，可以参考解决

3.3.13 验证当前进行

此时在hadoop1上面运行的进程有：namenode，secondarynamenode

hadoop2和hadoop3上面运行的进程有：datanode

3.3.14 启动yarn

./start-yarn.sh

3.3.15 验证当前进行

此时在hadoop1上运行的进程有：namenode，secondarynamenode，resourcemanager

hadoop2和hadoop3上面运行的进程有：datanode，nodemanager

4 实验性问题解决

4.1 运行环境说明

以下实验性问题解决是在第1~2周搭建的环境下进行解决，即在Hadoop1.1.2版本下模拟问题的发生和解决。

4.1.1硬软件环境

l 主机操作系统：Windows 64 bit，双核4线程，主频2.2G，6G内存

l 虚拟软件：VMware® Workstation 9.0.0 build-812388

l 虚拟机操作系统：三个节点均为CentOS6.5 64位，单核，1G内存

l JDK：1.7.0_55 64位

l Hadoop：1.1.2

4.1.2集群网络环境

集群包含三个节点：1个namenode、2个datanode，其中节点之间可以相互ping通。节点IP地址和主机名分布如下：

序号	IP地址	机器名	类型	用户名	运行进程
1	10.88.147.221	hadoop1	名称节点	hadoop	NN、SNN、JobTracer
2	10.88.147.222	hadoop2	数据节点	hadoop	DN、TaskTracer
3	10.88.147.223	hadoop3	数据节点	hadoop	DN、TaskTracer

所有节点均是CentOS系统，防火墙均禁用，所有节点上均创建了一个hadoop用户，用户主目录是/usr/hadoop。所有节点上均创建了一个目录/usr/local/hadoop，并且拥有者是hadoop用户。

4.2 问题1--给web监控界面加上安全机制

4.2.1修改Core-Site.xml文件

以下为配置添加部分：

<property>

<name>hadoop.http.filter.initializers</name>

<value>org.apache.hadoop.security.AuthenticationFilterInitializer</value>

<description>HTTP Authentication document in hadoop tar file</description>

</property>

<property>

<name>hadoop.http.authentication.type</name>

<value>simple</value>

<description>authentication type for web UI</description>

</property>

<property>

<name>hadoop.http.authentication.token.validity</name>

<value>36000</value>

<description>how long authentication token is valid before it needs to be renewed</description>

</property>

<property>

<name>hadoop.http.authentication.signature.secret.file</name>

<value>/usr/local/hadoop-1.1.2/signature-secret</value>

<description>signature secret for signing authentication tokens</description>

</property>

<property>

<name>hadoop.http.authentication.cookie.domain</name>

<value></value>

<description>domain to use for the http cookie that stores authentication token</description>

</property>

<property>

<name>hadoop.http.authentication.simple.anonymous.allowed</name>

<value>false</value>

<description>anonymous web UI requests enabled or disabled</description>

</property>

4.2.2手动创建signature-secret文件

在/usr/local/hadoop-1.1.2目录下创建signature-secret文件，使用如下命令：

echo hadoop >signature-secret

4.2.3把该文件分发到两个datanode中

在namenode创建需要把这个文件分发到各个datanode，使用如下命令：

scp signature-secret hadoop@hadoop2:/usr/local/hadoop-1.1.2

4.2.4重新启动hadoop

4.2.5验证访问

使用http://10.88.147.221:50030/jobtracker.jsp访问jobtracker页面出现如下错误：

在http访问地址加入？user.name=hadoop就能够访问了，不过存在问题是user.name是可以随意输入，在http中明码传递，还是不安全！

4.3 问题2--模拟namenode崩溃并恢复

4.3.1删除NameNode中Name目录下所有文件，模拟崩溃

在NameNode节点中name目录为 /usr/local/hadoop-1.1.2/hdfs/name，使用如下命令删除该文件夹下所有文件：

cd /usr/local/hadoop-1.1.2/hdfs/name

rm -R *

4.3.2重启Hadoop

使用./stop-all.sh停止Hadoop，然后使用./start-all.sh启动Hadoop，通过jps命令可以看到namenode进程无法启动

cd /usr/local/hadoop-1.1.2/bin

./stop-all.sh

./start-all.sh

通过hadoop命令查看hdfs文件时无法连接，如下图所示：

hadoop fs -ls

查看logs文件夹下NameNode对应日志文件hadoop-hadoop-jobtracker-hadoop1.log，出现如下错误：

INFO org.apache.hadoop.mapred.JobTracker: Problem connecting to HDFS Namenode... re-trying

java.net.ConnectException: Call to hadoop1/10.88.147.221:9000 failed on connection exception: java.net.ConnectException: Connection refused

4.3.3格式化NameNode

停止Hadoop后，通过如下命令格式化Hadoop：

./stop-all.sh

./hadoop namenode -format

4.3.4获取DataNode的namespaceID

通过ssh连接到hadoop2节点，进入DataNode存放数据的文件夹 /usr/local/hadoop-1.1.2/hdfs/data/current，通过如下命令查看VERSION文件内容：

ssh hadoop2

cd /usr/local/hadoop-1.1.2/hdfs/data/current

cat VERSION

获取namespaceID值

4.3.5修改NameNode的namespaceID

修改hadoop1机器NameNode目录/usr/local/hadoop-1.1.2/hdfs/name/current中VERSION文件中namespaceID值为上一步骤DataNode所对应的值，结果如下图所示：

cd /usr/local/hadoop-1.1.2/hdfs/name/current

vi VERSION

4.3.6删除NameNode的fsimage

通过如下命令删除NameNode中fsimage：

cd /usr/local/hadoop-1.1.2/hdfs/name/current

rm fsimage

4.3.7从SSN中拷贝fsimage到NN中

在NameNode中SSN路径为/usr/local/hadoop-1.1.2/tmp/dfs/namesecondary，把current文件夹下得fsimage拷贝到NN所在路径中，命令如下：

cd /usr/local/hadoop-1.1.2/tmp/dfs/namesecondary

cp fsimage /usr/local/hadoop-1.1.2/hdfs/name/current/

4.3.8重启Hadoop

启动Hadoop，使用jps命令查看，namenode进程正常启动

cd /usr/local/hadoop-1.1.2/bin

./start-all.sh

4.4 问题3--改变HDFS块大小

4.4.1在Hadoop中建立/input文件夹

使用如下命令在Hadoop中创建/input文件夹，把start开始的sh脚本文件放到该文件中：

cd /usr/local/hadoop-1.1.2/bin

./hadoop fs -mkdir /input

./hadoop fs -put *.sh /input

./hadoop fs -ls /input

4.4.2查看当前blocksize

查看hadoop2节点数据块大小情况，如下图所示：

4.4.3修改hdfs-site.xml配置文件

在NameNode节点hadoop1中修改hdfs-site.xml配置文件，加入如下配置：

<property>

<name>dfs.block.size</name>

<value>134217728</value>

</property>

4.4.4重启Hadoop

重新启动Hadoop程序

./stop-all.sh

./start-all.sh

4.4.5再次查看当前blocksize

使用如下命令在Hadoop中创建/input1文件夹并复制文件到该文件夹覆盖之前操作的文件：

./hadoop fs -mkdir /input1

./hadoop fs -put *.sh /input1

再次在查看block size，如下图所示

4.5 问题4--SNN与NN的分离

4.5.1复制虚拟机

复制NameNode节点所在虚拟机作为SecondaryNameNode运行虚拟机

4.5.2设置SNN虚拟机IP地址

设置该虚拟机IP地址为：10.88.147.224

4.5.3设置SNN虚拟机名称

设置SNN虚拟机名称为：hadoop4

sudo vi /etc/sysconfig/network

4.5.4所有节点hosts 文件加入SNN的 IP对应信息

在所有节点/etc/hosts文件中加入SNN的IP地址10.88.147.224对应hadoop4

sudo vi /etc/hosts

4.5.5所有节点masters文件加入SNN信息

在所有节点masters文件中加入SNN机器名信息，使用如下命令：

sudo vi /usr/local/hadoop-1.1.2/conf/masters

在master文件中加入SNN机器名

4.5.6所有节点中修改hdfs-site.xml

使用如下命令编辑hdfs-site.xml配置文件：

sudo vi /usr/local/hadoop-1.1.2/conf/hdfs-site.xml

在hdfs-site.xml文件中加入如下信息：

<property>

<name>dfs.secondary.http.address</name>

<value>hadoop4:50090</value>

</property>

4.5.7重启所有虚拟机

4.5.8配置ssh免密码登录

1. 在hadoop4（10.88.147.244）节点中使用ssh-keygen -t rsa生成私钥和公钥；

2. 把hadoop4（10.88.147.244）节点中公钥信息加入到authorized_keys文件中；

chmod 400 -R /home/hadoop/.ssh

cat id_rsa.pub >> authorized_keys

cat authorized_keys

3. 把authorized_keys分发到各个节点上；

scp authorized_keys hadoop@hadoop1:/home/hadoop/.ssh

4. 验证是否能够免登录到各个节点；

4.5.9重新格式化NameNode

在/usr/local/hadoop-1.1.2/bin目录下使用如下命令进行格式化：

./hadoop namenode -format

4.5.10 启动Hadoop

使用如下命令启动Hadoop：

cd /usr/local/hadoop-1.1.2/bin

./start-all.sh

4.5.11 验证

1. 在hadoop1（NN）查看进程情况，启动了NameNode、JobTracker两个进程：

2. 在hadoop2、hadoop3查看进程情况，启动了TraskTracker进程：

（注意这个节点上DataNode并没有启动，这个问题是由于NameNode和DataNode之间的namespaceID不一致造成的，该问题的解决方法如4.6所描述）

3. 在hadoop4（SNN）查看进程情况，启动了SecondaryNameNode进程：

4.6 问题5--再次格式化namenode，此时datanode是否能加入

4.6.1停止Hadoop并格式化

使用如下命令停止Hadoop并格式化：

./stop-all.sh

./hadoop namenode -format

4.6.2启动Hadoop，并查看datanode状态

使用./start-all.sh启动Hadoop：

在datanode中使用jps查看启动状态：

4.6.3查看datanode日志

查看datanode节点hadoop2日志文件夹下日志内容：

cd /usr/local/hadoop-1.1.2/logs

cat hadoop-hadoop-datanode-hadoop2.log

报错信息为namenode与datanode之间的namespaceID不一致：

2014-09-30 10:04:41,890 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Incompatible namespaceIDs in /usr/local/hadoop-1.1.2/hdfs/data: namenode namespaceID = 87263132; datanode namespaceID = 1318122769

at org.apache.hadoop.hdfs.server.datanode.DataStorage.doTransition(DataStorage.java:232)

at org.apache.hadoop.hdfs.server.datanode.DataStorage.recoverTransitionRead(DataStorage.java:147)

at org.apache.hadoop.hdfs.server.datanode.DataNode.startDataNode(DataNode.java:399)

at org.apache.hadoop.hdfs.server.datanode.DataNode.<init>(DataNode.java:309)

at org.apache.hadoop.hdfs.server.datanode.DataNode.makeInstance(DataNode.java:1651)

at org.apache.hadoop.hdfs.server.datanode.DataNode.instantiateDataNode(DataNode.java:1590)

at org.apache.hadoop.hdfs.server.datanode.DataNode.createDataNode(DataNode.java:1608)

at org.apache.hadoop.hdfs.server.datanode.DataNode.secureMain(DataNode.java:1734)

at org.apache.hadoop.hdfs.server.datanode.DataNode.main(DataNode.java:1751)

4.6.4解决办法

有两个解决办法：

Ø 修改所有datanode中/usr/local/hadoop-1.1.2/tmp/dfs/data/current/VERSION 文件的namespaceID 为 namenode的namespaceID（采用该方法）

Ø 删除datanode 中 /usr/local/hadoop-1.1.2/tmp/dfs/data 目录

登录到hadoop1节点上，获取该节点NameNode的namespaceID：

cd /usr/local/hadoop-1.1.2/hdfs/name/current

cat VERSION

登录到hadoop2和hadoop3节点上，修改DataNode的namespaceID为NameNode的namespaceID的值：

cd /usr/local/hadoop-1.1.2/hdfs/data/current

vi VERSION

4.6.5重启集群，查看datanode状态

在namenode节点hadoop1使用./start-all.sh启动Hadoop：

./start-all.sh

在datanode节点hadoop2中使用jps查看启动状态：

datanode进程已经启动

4.7 问题6--控制namenode检查点发生的频率

4.7.1在core-site.xml中修改检查点频率

系统默认为1个小时即3600秒，在namenode节点中修改core-site.xml文件，加入如下配置内容：

<property>

<name>fs.checkpoint.period</name>

<value>180</value>

</property>

4.7.2重启集群，查看检查点更新频率

在namenode节点的目录 /usr/local/hadoop-1.1.2/hdfs/name/current中 fsimage、edits等的更新频率。每隔4分钟查看，发现namenode 每隔 180 秒 checkpoint 进行更新一次：

4.7.3观察checkpoint 前后 namenode的变化

1. 检查点发生前：

l namenode的fsimage和edits 最后修改时间为16：39。

l 16:40 向hdfs系统加入 input 文件，namenode 中的edits 记录这次操作，其修改时间为16:40

2. 检查点发生后

l namenode 中的fsimage、fsimage、fstime、VERSION等文件在16:42进行了检查点更新

4.7.4基本原理

当距离上个checkpoint 时间为${fs.checkpoint.period} 时：

1. SSN请求NN滚动edits文件，使新的edits log 放到另一个新生成的edits文件。

2. SSN通过 HTTP GET 获取NN的fsimage和edits文件

3. SSN将fsimage文件载入内存，并应用edits 文件中的每一项操作，这样就创建了一个新的合成的fsimage 文件。

4. SSN采用 HTTP POST 方式将刚合成的fsimage 发送回NN

5. NN用刚从SSN收到的fsimage代替老一版本的fsimage, 并用第一步中产生的edits 代替原先的edits，同时将fctime文件更新到checkpoint发生的时间

最终，名称节点就有了一份最新的fsimage文件和一个更短的edits文件（该edits文件不一定空，当SSN在执行checkpoint操作时，edits 可能已经记录下了一些hdfs系统的操作）

5 问题解决

5.1 安装CentOS64位虚拟机 This host supports Intel VT-x, but Intel VT-x is disabled

在进行Hadoop2.X 64bit编译安装中由于使用到64位虚拟机，安装过程中出现下图错误：

按F1 键进入BIOS 设置实用程序使用箭头键security面板下找virtualization按Enter 键进去Intel VirtualizationTechnology改成Enabled按F10 键保存并退出选择Yes按Enter 键完全关机（关闭电源）等待几秒钟重新启动计算机此Intel虚拟化技术开启成功

5.2 *** is not in the sudoers file解决方法

当使用hadoop用户需要对文件夹进行赋权，使用chmod命令出现“hadoop is not in the sudoers file. This incident will be reported”错误，如下所示：

1. 使用su命令进入root用户

2. 添加文件的写权限，操作命令为：chmod u+w /etc/sudoers

3. 编辑/etc/sudoers文件，使用命令"vi /etc/sudoers"进入编辑模式，找到："root ALL=(ALL) ALL"在起下面添加"hadoop ALL=(ALL) ALL"，然后保存退出。

5.3 yum无法下载

1. 在/etc/yum.conf中加入proxy=htt://XX.XXX.XX:PORT

2. 重启网络

3. 再次运行yum install ambari-server则能够正常下载

5.4 CentOS 64bit安装Hadoop2.2.0中出现文件编译位数异常

在安装hadoop2.2.0过程中出现如下异常：Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

通过分析是由于lib/native目录中有些文件是在32位编译，无法适应CentOS 64位环境造成

有两种办法解决：

l 重新编译hadoop，然后重新部署

l 暂时办法是修改配置，忽略有问题的文件

5.5 编译Hadoop2.2.0出现代码异常

目前的2.2.0 的Source Code 压缩包解压出来的code有个bug 需要patch后才能编译。否则编译hadoop-auth 会提示下面错误：

[ERROR] Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:2.5.1:testCompile (default-testCompile) on project hadoop-auth: Compilation failure: Compilation failure:

[ERROR] /home/hadoop/Downloads/release-2.2.0/hadoop-common-project/hadoop-auth/src/test/java/org/apache/hadoop/security/authentication/client/AuthenticatorTestCase.java:[88,11] error: cannot access AbstractLifeCycle

[ERROR] class file for org.mortbay.component.AbstractLifeCycle not found

[ERROR] class file for org.mortbay.component.LifeCycle not found

直接修改hadoop-common-project/hadoop-auth/pom.xml，其实就是少了一个包，添加一个dependency：

<dependency>

<groupId>org.mortbay.jetty</groupId>

<artifactId>jetty-util</artifactId>

<scope>test</scope>

</dependency>

你可能感兴趣的:(hadoop2)

Yarn介绍 - 大数据框架 why do not 大数据 hadoop
YARN的概述YARN是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序YARN是Hadoop2.x版本中的一个新特性。它的出现其实是为了解决第一代MapReduce编程框架的不足，提高集群环境下的资源利用率，这些资源包括内存，磁盘，网络，IO等。Hadoop2.X版本中重新设计的这个YARN集群
大数据知识总结（三）：Hadoop之Yarn重点架构原理 Lansonli 大数据大数据 hadoop 架构 Yarn
文章目录Hadoop之Yarn重点架构原理一、Yarn介绍二、Yarn架构三、Yarn任务运行流程四、Yarn三种资源调度器特点及使用场景Hadoop之Yarn重点架构原理一、Yarn介绍ApacheHadoopYarn(YetAnotherReasourceNegotiator，另一种资源协调者)是Hadoop2.x版本后使用的资源管理器，可以为上层应用提供统一的资源管理平台。二、Yarn架构Y
《Hadoop系列》Docker安装Hadoop DATA数据猿 Hadoop Docker docker hadoop
文章目录Docker安装Hadoop1安装docker1.1添加docker到yum源1.2安装docker2安装Hadoop2.1使用docker自带的hadoop安装2.2免密操作2.2.1master节点2.2.2slave1节点2.2.3slave2节点2.2.4将三个容器中的authorized_keys拷贝到本地合并2.2.5将本地authorized_keys文件分别拷贝到3个容器中
Spark整合hive（保姆级教程）万家林 spark hive spark hadoop
准备工作：1、需要安装配置好hive，如果不会安装可以跳转到Linux下编写脚本自动安装hive2、需要安装配置好spark，如果不会安装可以跳转到Spark安装与配置（单机版）3、需要安装配置好Hadoop，如果不会安装可以跳转到Linux安装配置Hadoop2.6操作步骤：1、将hive的conf目录下的hive-site.xml拷贝到spark的conf目录下（也可以建立软连接）cp/opt
hadoop-yarn资源分配介绍-以及推荐常用优化参数 Winhole hadoop Linux
根据网上的学习，结合工作进行的一个整理。如果有什么不正确的欢迎大家一起交流学习~Yarn前言作为Hadoop2.x的一部分，YARN采用MapReduce中的资源管理功能并对其进行打包，以便新引擎可以使用它们。这也简化了MapReduce，使其能够做到最好，处理数据。使用YARN，您现在可以在Hadoop中运行多个应用程序，所有应用程序都共享一个公共资源管理。那资源是有限的，YARN如何识别资源并
Hadoop手把手逐级搭建第二阶段: Hadoop完全分布式(full) 郑大能
前置步骤:1).第一阶段：Hadoop单机伪分布(single)0.步骤概述1).克隆4台虚拟机2).为完全分布式配置ssh免密3).将hadoop配置修改为完全分布式4).启动完全分布式集群5).在完全分布式集群上测试wordcount程序1.克隆4台虚拟机1.1使用hadoop0克隆4台虚拟机hadoop1,hadoop2,hadoop3,hadoop41.1.0克隆虚拟机hadoop11.1
【解决方案】pyspark 初次连接mongo 时报错Class not found exception:com.mongodb.spark.sql.DefaultSource 能白话的程序员♫ Spark spark
部分报错如下：Traceback(mostrecentcalllast): File"/home/cisco/spark-mongo-test.py",line7,in df=spark.read.format("com.mongodb.spark.sql.DefaultSource").load() File"/home/cisco/spark-2.4.1-bin-hadoop2.
Hadoop-Yarn-ResourceManagerHA 隔着天花板看星星 hadoop 大数据分布式
在这里先给屏幕面前的你送上祝福，祝你在未来一年：技术步步高升、薪资节节攀升，身体健健康康，家庭和和美美。一、介绍在Hadoop2.4之前，ResourceManager是YARN集群中的单点故障ResourceManagerHA是通过Active/Standby体系结构实现的，在任何时候其中一个RM都是活动的，并且一个或多个RM处于备用模式，等待在活动发生任何事情时接管。二、架构官网的架构图如下：
java大数据hadoop2.9.2 hive操作 crud-boy java大数据大数据 hive hadoop
1、创建常规数据库表（1）创建表createtablet_stu2(idint,namestring,hobbymap)rowformatdelimitedfieldsterminatedby','collectionitemsterminatedby'-'mapkeysterminatedby':';（2）创建文件student.txt1,zhangsan,唱歌:非常喜欢-跳舞:喜欢-游泳:一般
java大数据hadoop2.9.2 Flume安装&操作 crud-boy java大数据大数据 flume
1、flume安装（1）解压缩tar-xzvfapache-flume-1.9.0-bin.tar.gzrm-rfapache-flume-1.9.0-bin.tar.gzmv./apache-flume-1.9.0-bin//usr/local/flume（2）配置cd/usr/local/flume/confcp./flume-env.sh.template./flume-env.shvifl
Hadoop2.7配置不会吐丝的蜘蛛侠。 Hadoop hadoop 大数据 hdfs
core-site.xmlfs.defaultFShdfs://bigdata/ha.zookeeper.quorum192.168.56.70:2181,192.168.56.71:2181,192.168.56.72:2181-->hadoop.tmp.dir/export/data/hadoop/tmpfs.trash.interval1440io.file.buffer.size13107
现成Hadoop安装和配置，图文手把手交你叫我小唐就好了一些好玩的事 hadoop 大数据分布式课程设计运维
为了可以更加快速的可以使用Hadoop，便写了这篇文章，想尝试自己配置一下的可以参考从零开始配置Hadoop，图文手把手教你，定位错误资源1.两台已经配置好的hadoop2.xshell+Vmware链接：https://pan.baidu.com/s/1oX35G8CVCOzVqmtjdwrfzQ?pwd=3biz提取码：3biz--来自百度网盘超级会员V4的分享两台虚拟机用户名和密码均为roo
如何对HDFS进行节点内(磁盘间)数据平衡格格巫 MMQ!! hadoop hdfs hdfs hadoop 大数据
1.文档编写目的当HDFS的DataNode节点挂载多个磁盘时，往往会出现两种数据不均衡的情况：1.不同DataNode节点间数据不均衡；2.挂载数据盘的磁盘间数据不均衡。特别是这种情况：当DataNode原来是挂载了几个数据盘，当磁盘占用率很高之后，再挂载新的数据盘。由于Hadoop2.x版本并不支持HDFS的磁盘间数据均衡，因此，会造成老数据磁盘占用率很高，新挂载的数据盘几乎很空。在这种情况下
spark运维问题记录 lishengping_max Spark spark
环境：spark-2.1.0-bin-hadoop2.71.Spark启动警告：neitherspark.yarn.jarsnotspark.yarn.archiveisset，fallingbacktouploadinglibrariesunderSPARK_HOME原因：如果没设置spark.yarn.jars，每次提交到yarn，都会把$SPARK_HOME/jars打包成zip文件上传到H
大数据组件部署下载链接运维道上奔跑者大数据 zookeeper hbase kafka hadoop hive
Hadoop2.7下载连接:https://archive.apache.org/dist/hadoop/core/hadoop-2.7.6/Hive2.3.2下载连接：http://archive.apache.org/dist/hive/hive-2.3.2/Zookeeper下载连接：https://archive.apache.org/dist/zookeeper/zookeeper-3.
【大数据开发运维解决方案】Hadoop+Hive+HBase+Kylin 伪分布式安装指南运维道上奔跑者大数据 hadoop 分布式
Hadoop2.7.6+Mysql5.7+Hive2.3.2+Hbase1.4.9+Kylin2.4单机伪分布式安装文档注意：####################################################################本文档已经有了最新版本，主要改动地方为：1、zookeeper改为使用安装的外置zookeeper而非hbase自带zookeeper，新
Hadoop2.7.6+Mysql5.7+Hive2.3.2+zookeeper3.4.6+kafka2.11+Hbase1.4.9+Sqoop1.4.7+Kylin2.4单机伪分布式安装及官方案例测运维道上奔跑者分布式 hbase zookeeper hadoop
####################################################################最新消息：关于spark和Hudi的安装部署文档，本人已经写完，连接：Hadoop2.7.6+Spark2.4.4+Scala2.11.12+Hudi0.5.1单机伪分布式安装注意：本篇文章是在本人写的Hadoop+Hive+HBase+Kylin伪分布式安装指南
hadoop2.0之环境搭建详细流程 hhf_Engineer
1、在安装hadoop2.0之前，需要准备好以下软件（如下图1）图1：然后将这两个软件共享到centos上（如下图2红箭头指向和图3红箭头指向所示）在vm这上面有个虚拟机，点击虚拟机后有个硬件和选项，点选项，下面有个共享文件夹。图2：点击虚拟机那个地方图3：添加上去以后按确定按钮即可！2、为了有个集群的概念，我们把一台linux机器复制成有三份！如下图4所示：注：在复制前，必须要把linux的机器
apache hadoop 2.4.0 64bit 在windows8.1下直接安装指南（无需虚拟机和cygwin）夜魔009 技术 windows8 hadoop 64bit 库 hdfs
工作需要，要开始搞hadoop了，又是大数据，自己感觉大数据、云，只是ERP、SOAP风潮之后与智能地球一起诞生的概念炒作。不过Apache是个神奇的组织，Java如果没有它也不会现在如火中天。言归正传：首先需要下载Apachehadoop2.4.0的tar.gz包，到本地解压缩到某个盘下，注意路径里不要带空格。否则你配置文件里需要用windows8.3格式的路径！第二确保操作系统是64bit，已
docker搭建单机hadoop 阿桔是只猫大数据 hadoop docker 大数据
docker搭建单机hadoop前言一、docker是什么？二、hadoop是什么？三、使用步骤1.下载jdkhadoop2.编写Dockerfile3.构建镜像4.运行镜像5.创建客户端前言在华为云上使用docker搭建一个简单的hadoop单机环境。一、docker是什么？Docker是一个开源的应用容器引擎。开发者将需要的东西整理成镜像文件，然后再容器化这些镜像文件，容器之前相互隔离，互不影
Hadoop-生产调优(更新中) OnePandas Hadoop hadoop 大数据分布式
第1章HDFS-核心参数1.1NameNode内存生产配置1）NameNode内存计算每个文件块大概占用150byte，一台服务器128G内存为例，能存储多少文件块呢？128*1024*1024*1024/150byte≈9.1亿GMBKBByte2）Hadoop2.x系列，配置NameNode内存NameNode内存默认2000m，如果内存服务器内存4G，NameNode内存可以配置3g。在ha
大数据-Hadoop概论 Mr.史 Hadoop hadoop 大数据
文章目录大数据概论1、大数据概念2、大数据特点1、Volume(大量)2、Velocity(高速)3、Variety(多样)4、Value(低价值密度)3、大数据应用场景4、大数据部门业务流程分析5、大数据部门组织机构Hadoop1、Hadoop是什么？2、Hadoop发展史3、Hadoop三大发行版本1、ApacheHadoop2、ClouderaHadoop3、HortonworksHadoo
Elk运维-Elastic7.6.1集群安装部署消逝的bug 运维 elk 数据库
集群安装结果说明实例配置安装软件安装账号hadoop12C4G磁盘：50G云服务器elasticsearchkibanardhadoop22C4G磁盘：50G云服务器elasticsearchrdhadoop32C4G磁盘：50G云服务器elasticsearchrd整个安装过程使用的账号：root、rd(自己新建的账号)安装包下载：下载包中包含esfilebeatkibanaik等相关软件链接：
记一次Flink自带jar包与第三方jar包依赖冲突解决一枚小刺猬 flink flink jar hadoop
flink版本1.14.5hadoop2.6.0为了实现flink读取hive数据写入第三方的数据库，写入数据库需要调用数据库的SDK，当前SDK依赖的protobuf-java-3.11.0.jar，guava-29.0-android.jar与flink中lib下的部分jar包冲突，flink与hadoop、hive编译的jar中使用的guava，protobuf都要低于第三方sdk，因此会遇
[SparkSQL] Rdd转化DataFrame 通过StructType为字段添加Schema 林沐之森
1、开发环境spark-2.1.0-bin-hadoop2.62、Rdd转换成DataFrame，为字段添加列信息参数nullable说明：Indicatesifvaluesofthisfieldcanbenullvaluesvalschema=StructType(List(StructField("name",StringType,nullable=false),StructField("ag
YARN 工作原理无羡爱诗诗
1、Hadoop2新增了YARN，YARN的引入主要有两个方面的变更：其一、HDFS的NameNode可以以集群的方式部署，增强了NameNode的水平扩展能力和高可靠性，水平扩展能力对应HDFSFederation，高可靠性对应HA。其二、MapReduce将Hadoop1时代的JobTracker中的资源管理及任务生命周期管理拆分成两个独立的组件，资源管理对应ResourceManager，任
Hadoop2.0架构及其运行机制，HA原理 Toner_唐纳大数据
文章目录一、Hadoop2.0架构1.架构图2.HA1)NameNode主备切换2)watcher监听3)脑裂问题3.组件1.HDFS2.MapReduce3.Yarn1.组件2.调度流程一、Hadoop2.0架构1.架构图以上是hadoop2.0的架构图，根据hadoop1.0的不足，改进而来。1.NameNode节点，由原先的一个变成两个,解决单点故障问题2.JournalNode集群，处理E
idea上搭建pyspark开发环境 jackyan163
1环境版本说明python版本：Anaconda3.6.5spark版本：spark-2.4.8-bin-hadoop2.7idea版本：2019.32环境变量配置2.1python环境变量配置将python.exe所在的目录配置到path环境变量中2.2spark环境变量配置下载spark安装包，我下载的是spark-2.4.8-bin-hadoop2.7.tgz将安装包解压到一个非中文目录配置
指导手册05：MapReduce编程入门 weixin_30655219 大数据
指导手册05：MapReduce编程入门Part1:使用Eclipse创建MapReduce工程操作系统：Centos6.8,hadoop2.6.4情景描述：因为Hadoop本身就是由Java开发的，所以通常也选用Eclipse作为MapReduce的编程工具，本小节将完成Eclipse安装，MapReduce集成环境配置。1．下载与安装Eclipse（1）在官网下载Eclipse安装包“Ecli
Hadoop-HDFS高可用隔着天花板看星星 hadoop hdfs 大数据
一、说明在我的博客中已经包含了HDFS高可用的搭建，这里描述下它的原理。原理参考官网介绍：ApacheHadoop3.3.6–HDFSHighAvailabilityUsingtheQuorumJournalManager二、背景在Hadoop2.0.0之前，NameNode是HDFS集群中的单点故障（SPOF）。每个集群只有一个NameNode，如果NameNode节点发生故障会导致整个集群不可
ztree异步加载 3213213333332132 JavaScript Ajax json Web ztree
相信新手用ztree的时候,对异步加载会有些困惑，我开始的时候也是看了API花了些时间才搞定了异步加载，在这里分享给大家。我后台代码生成的是json格式的数据，数据大家按各自的需求生成，这里只给出前端的代码。设置setting，这里只关注async属性的配置 var setting = { //异步加载配置
thirft rpc 具体调用流程 BlueSkator 中间件 rpc thrift
Thrift调用过程中，Thrift客户端和服务器之间主要用到传输层类、协议层类和处理类三个主要的核心类，这三个类的相互协作共同完成rpc的整个调用过程。在调用过程中将按照以下顺序进行协同工作：（1）将客户端程序调用的函数名和参数传递给协议层（TProtocol），协议
异或运算推导, 交换数据 dcj3sjt126com PHP 异或 ^
/* * 5 0101 * 9 1010 * * 5 ^ 5 * 0101 * 0101 * ----- * 0000 * 得出第一个规律: 相同的数进行异或, 结果是0 * * 9 ^ 5 ^ 6 * 1010 * 0101 * ---- * 1111 * * 1111 * 0110 * ---- * 1001
事件源对象周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
MySql配置及相关命令 g21121 mysql
MySQL安装完毕后我们需要对它进行一些设置及性能优化，主要包括字符集设置，启动设置，连接优化，表优化，分区优化等等。一修改MySQL密码及用户
[简单]poi删除excel 2007超链接 53873039oycg Excel
采用解析sheet.xml方式删除超链接，缺点是要打开文件2次,代码如下: public void removeExcel2007AllHyperLink(String filePath) throws Exception { OPCPackage ocPkg = OPCPac
Struts2添加 open flash chart 云端月影
准备以下开源项目： 1. Struts 2.1.6 2. Open Flash Chart 2 Version 2 Lug Wyrm Charmer (28th, July 2009) 3. jofc2，这东西不知道是没做好还是什么意思，好像和ofc2不怎么匹配，最好下源码，有什么问题直接改。 4. log4j 用eclipse新建动态网站，取名OFC2Demo，将Struts2 l
spring包详解 aijuans spring
下载的spring包中文件及各种包众多，在项目中往往只有部分是我们必须的，如果不清楚什么时候需要什么包的话，看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包，关于发布包下面会详细进行说明。 docs&nb
网站推广之seo概念 antonyup_2006 算法 Web 应用服务器搜索引擎 Google
持续开发一年多的b2c网站终于在08年10月23日上线了。作为开发人员的我在修改bug的同时，准备了解下网站的推广分析策略。所谓网站推广，目的在于让尽可能多的潜在用户了解并访问网站，通过网站获得有关产品和服务等信息，为最终形成购买决策提供支持。网站推广策略有很多，seo，email，adv
单例模式,sql注入,序列百合不是茶单例模式序列 sql注入预编译
序列在前面写过有关的博客,也有过总结,但是今天在做一个JDBC操作数据库的相关内容时需要使用序列创建一个自增长的字段居然不会了,所以将序列写在本篇的前面 1,序列是一个保存数据连续的增长的一种方式; 序列的创建; CREATE SEQUENCE seq_pro 2 INCREMENT BY 1 -- 每次加几个 3
Mockito单元测试实例 bijian1013 单元测试 mockito
Mockito单元测试实例： public class SettingServiceTest { private List<PersonDTO> personList = new ArrayList<PersonDTO>(); @InjectMocks private SettingPojoService settin
精通Oracle10编程SQL(9)使用游标 bijian1013 oracle 数据库 plsql
/* *使用游标 */ --显示游标 --在显式游标中使用FETCH...INTO语句 DECLARE CURSOR emp_cursor is select ename,sal from emp where deptno=1; v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; begin ope
【Java语言】动态代理 bit1129 java语言
JDK接口动态代理 JDK自带的动态代理通过动态的根据接口生成字节码(实现接口的一个具体类)的方式，为接口的实现类提供代理。被代理的对象和代理对象通过InvocationHandler建立关联 package com.tom; import com.tom.model.User; import com.tom.service.IUserService;
Java通信之URL通信基础白糖_ java jdk webservice 网络协议 ITeye
java对网络通信以及提供了比较全面的jdk支持，java.net包能让程序员直接在程序中实现网络通信。在技术日新月异的现在，我们能通过很多方式实现数据通信，比如webservice、url通信、socket通信等等，今天简单介绍下URL通信。学习准备：建议首先学习java的IO基础知识 URL是统一资源定位器的简写，URL可以访问Internet和www，可以通过url
博弈Java讲义 - Java线程同步 (1) boyitech java 多线程同步锁
在并发编程中经常会碰到多个执行线程共享资源的问题。例如多个线程同时读写文件，共用数据库连接，全局的计数器等。如果不处理好多线程之间的同步问题很容易引起状态不一致或者其他的错误。同步不仅可以阻止一个线程看到对象处于不一致的状态，它还可以保证进入同步方法或者块的每个线程，都看到由同一锁保护的之前所有的修改结果。处理同步的关键就是要正确的识别临界条件（cri
java-给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 bylijinnan java
public class DeleteExtraSpace { /** * 题目：给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 * 方法1.用已有的String类的trim和replaceAll方法 * 方法2.全部用正则表达式，这个我不熟 * 方法3.“重新发明轮子”，从头遍历一次 */ public static v
An error has occurred.See the log file错误解决！ Kai_Ge MyEclipse
今天早上打开MyEclipse时，自动关闭！弹出An error has occurred.See the log file错误提示！很郁闷昨天启动和关闭还好着！！！打开几次依然报此错误，确定不是眼花了！打开日志文件！找到当日错误文件内容： --------------------------------------------------------------------------
[矿业与工业]修建一个空间矿床开采站要多少钱? comsci
地球上的钛金属矿藏已经接近枯竭........... 我们在冥王星的一颗卫星上面发现一些具有开采价值的矿床..... 那么,现在要编制一个预算,提交给财政部门..
解析Google Map Routes dai_lm google api
为了获得从A点到B点的路劲，经常会使用Google提供的API，例如 [url] http://maps.googleapis.com/maps/api/directions/json?origin=40.7144,-74.0060&destination=47.6063,-122.3204&sensor=false [/url] 从返回的结果上，大致可以了解应该怎么走，但
SQL还有多少“理所应当”？ datamachine sql
转贴存档，原帖地址：http://blog.chinaunix.net/uid-29242841-id-3968998.html、http://blog.chinaunix.net/uid-29242841-id-3971046.html！ ------------------------------------华丽的分割线--------------------------------
Yii使用Ajax验证时，如何设置某些字段不需要验证 dcj3sjt126com Ajax yii
经常像你注册页面,你可能非常希望只需要Ajax去验证用户名和Email,而不需要使用Ajax再去验证密码,默认如果你使用Yii 内置的ajax验证Form,例如: $form=$this->beginWidget('CActiveForm', array( 'id'=>'usuario-form',&
使用git同步网站代码 dcj3sjt126com crontab git
转自:http://ued.ctrip.com/blog/?p=3646?tn=gongxinjun.com 管理一网站，最开始使用的虚拟空间，采用提供商支持的ftp上传网站文件，后换用vps，vps可以自己搭建ftp的，但是懒得搞，直接使用scp传输文件到服务器，现在需要更新文件到服务器，使用scp真的很烦。发现本人就职的公司，采用的git+rsync的方式来管理、同步代码，遂
sql基本操作蕃薯耀 sql sql基本操作 sql常用操作
sql基本操作 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:30:33 星期一 &
Spring4+Hibernate4+Atomikos3.3多数据源事务管理 hanqunfeng Hibernate4
Spring3+后不再对JTOM提供支持，所以可以改用Atomikos管理多数据源事务。Spring2.5+Hibernate3+JTOM参考：http://hanqunfeng.iteye.com/blog/1554251Atomikos官网网站：http://www.atomikos.com/ 一.pom.xml <dependency> <
jquery中两个值得注意的方法one()和trigger()方法 jackyrong trigger
在jquery中，有两个值得注意但容易忽视的方法，分别是one()方法和trigger()方法,这是从国内作者<<jquery权威指南》一书中看到不错的介绍 1） one方法 one方法的功能是让所选定的元素绑定一个仅触发一次的处理函数，格式为 one(type,${data},fn) &nb
拿工资不仅仅是让你写代码的 lampcy 工作面试咨询
这是我对团队每个新进员工说的第一件事情。这句话的意思是，我并不关心你是如何快速完成任务的，哪怕代码很差，只要它像救生艇通气门一样管用就行。这句话也是我最喜欢的座右铭之一。这个说法其实很合理：我们的工作是思考客户提出的问题，然后制定解决方案。思考第一，代码第二，公司请我们的最终目的不是写代码，而是想出解决方案。话粗理不粗。付你薪水不是让你来思考的，也不是让你来写代码的，你的目的是交付产品
架构师之对象操作----------对象的效率复制和判断是否全为空 nannan408 架构师
1.前言。如题。 2.代码。 (1)对象的复制，比spring的beanCopier在大并发下效率要高，利用net.sf.cglib.beans.BeanCopier Src src=new Src(); BeanCopier beanCopier = BeanCopier.create(Src.class, Des.class, false);
ajax 被缓存的解决方案 Rainbow702 JavaScript jquery Ajax cache 缓存
使用jquery的ajax来发送请求进行局部刷新画面，各位可能都做过。今天碰到一个奇怪的现象，就是，同一个ajax请求，在chrome中，不论发送多少次，都可以发送至服务器端，而不会被缓存。但是，换成在IE下的时候，发现，同一个ajax请求，会发生被缓存的情况，只有第一次才会被发送至服务器端，之后的不会再被发送。郁闷。解决方法如下： ① 直接使用 JQuery提供的 “cache”参数，
修改date.toLocaleString()的警告 tntxia String
我们在写程序的时候，经常要查看时间，所以我们经常会用到date.toLocaleString()，但是date.toLocaleString()是一个过时的API，代替的方法如下： package com.tntxia.htmlmaker.util; import java.text.SimpleDateFormat; import java.util.
项目完成后的小总结 xiaomiya js 总结项目
项目完成了，突然想做个总结但是有点无从下手了。做之前对于客户端给的接口很模式。然而定义好了格式要求就如此的愉快了。先说说项目主要实现的功能吧 1，按键精灵 2，获取行情数据 3，各种input输入条件判断 4，发送数据（有json格式和string格式） 5，获取预警条件列表和预警结果列表， 6，排序， 7，预警结果分页获取 8，导出文件（excel，text等） 9，修

Hadoop第3周练习--Hadoop2.X编译安装和实验

1 作业题目

2 编译Hadoop2.X 64bit

2.1 运行环境说明

2.1.1硬软件环境

2.1.2集群网络环境

2.2 环境搭建

2.2.1JDK安装和Java环境变量配置

2.2.2安装并设置maven

2.2.3以root用户使用yum安装svn

2.2.4以root用户使用yum安装autoconf automake libtool cmake

2.2.5以root用户使用yum安装ncurses-devel

2.2.6以root用户使用yum安装openssl-devel

2.2.7以root用户使用yum安装gcc*

2.2.8安装并设置protobuf

2.3 编译Hadoop

2.3.1下载Hadoop源代码 Release2.2.0

2.3.2编译Hadoop源代码

2.3.3验证编译是否成功

3 Hadoop2.X 64bit安装

3.1 运行环境说明

3.1.1硬软件环境

3.1.2集群网络环境

3.1.3安装使用工具

3.1.3.1Linux文件传输工具

3.1.3.2Linux命令行执行工具

3.2 环境搭建

3.2.1配置本地环境

3.2.1.1设置IP地址

3.2.1.2设置机器名

3.2.1.3设置Host映射文件

3.2.1.4上网配置

3.2.2设置操作系统环境

3.2.2.1关闭防火墙

3.2.2.2关闭SElinux

3.2.2.3JDK安装及配置

3.2.2.4更新OpenSSL

3.2.2.5SSH无密码验证配置

3.3 配置Hadooop设置

3.3.1下载并解压hadoop安装包

3.3.2在Hadoop目录下创建子目录

3.3.3配置hadoop-env.sh

3.3.4配置yarn-env.sh

3.3.5配置core-site.xml

3.3.6配置hdfs-site.xml

3.3.7配置mapred-site.xml

3.3.8配置yarn-site.xml

3.3.9配置slaves文件

3.3.10 向各节点分发hadoop程序

3.3.11 格式化namenode

3.3.12 启动hdfs

3.3.13 验证当前进行

3.3.14 启动yarn

3.3.15 验证当前进行

4 实验性问题解决

4.1 运行环境说明

4.1.1硬软件环境

4.1.2集群网络环境

4.2 问题1--给web监控界面加上安全机制

4.2.1修改Core-Site.xml文件

4.2.2手动创建signature-secret文件

4.2.3把该文件分发到两个datanode中

4.2.4重新启动hadoop

4.2.5验证访问

4.3 问题2--模拟namenode崩溃并恢复

4.3.1删除NameNode中Name目录下所有文件，模拟崩溃

4.3.2重启Hadoop

4.3.3格式化NameNode

4.3.4获取DataNode的namespaceID

4.3.5修改NameNode的namespaceID

4.3.6删除NameNode的fsimage

4.3.7从SSN中拷贝fsimage到NN中

4.3.8重启Hadoop

4.4 问题3--改变HDFS块大小

4.4.1在Hadoop中建立/input文件夹

4.4.2查看当前blocksize

4.4.3修改hdfs-site.xml配置文件

4.4.4重启Hadoop

4.4.5再次查看当前blocksize

4.5 问题4--SNN与NN的分离