第一部分:Hadoop集群搭建
1. 安装虚拟机Vmware
基础的命令操作不细说,比如什么是根目录。。。。。
1.也可以从官网下载最新的VMware
2. 安装Linux系统
2.1 本教程用的是Linux为CentOS-7-x86,在VMware点击新建,安装CentOS-7-x86。
2.2 安装完成后,
进入root用户
开启网络
cd /etc/sysconfig/network-scripts
ls
找到第一个,我的是ifcfg-ens33,
然后vi ifcfg-ens33
将里面的ONBOOT的值由no改为yes。
重启网络service network restart
然后ping baidu.com能ping通就好了,ctrl c停止。
如果输入(ping baidu.com),能ping通,即可安装成功。
然后 cd ~回到根目录,安装tools
yum search ifconfig
yum install net-tools.x86_64
查看ip
ifconfig
2.3用XShell远程登陆
1.新建
2.主机号为查到的ip
3.点击确定,用root用户登录,即可成功。
(这时候就可以在XShell粘贴复制命令了)
3. 下载/安装jdk
3.配置jdk
接下来的操作都在XSshell6上操作,可以直接复制。
以下操作从根目录开始(如果不知道当前在哪里,先cd ~即可。
下载jdk
本文档有所有所需要的资料,可以选择性下载。(也可以官网可以自行下载)。
下载本文档所需要的安装包,xshell里点击xftp(ctrl+Alt+F),可以直接把window里的文件传到Linux里。
拖到根目录下。
解压jdk
tar -zxvf jdk-8u221-linux-x64.tar.gz -C /usr/local/
配置环境变量(还在根目录)
[1 ] 打开proflie文件
vi /etc/profile
[ 2] 将光标移动至文末(shift g可以到末尾),按i进入编辑模式,在文末添加以下内容
export JAVA_HOME=/usr/local/jdk1.8.0_221
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
[ 3] 按Esc键退出编辑,输入 :wq 保存并退出文件,执行以下内容使环境变量生效
source /etc/profile
[ 4] 检查jdk是否安装配置成功
java -version
出现java版本信息,则配置成功,例如
java version “1.8.0_221”
Java™ SE Runtime Environment (build 1.8.0_221-b11)
Java HotSpot™ 64-Bit Server VM (build 25.221-b11, mixed mode)
4. 配置Hadoop
4.配置Hadoop
[下载hadoop
本文档有所有所需要的资料,可以选择性下载。(也可以官网可以自行下载)。
下载本文档所需要的安装包,xshell里点击xftp(ctrl+Alt+F),可以直接把window里的文件传到Linux里。
拖到根目录下。
解压hadoop,解压到哪个目录可以自行选择,但是要知道路径,配置环境变量时需要
tar -zxvf hadoop-3.1.2.tar.gz -C /usr/local/
配置hadoop
[1 ] 配置环境变量
vi /etc/profile
按i进入编辑模式,在文末添加
export HADOOP_HOME=/usr/local/hadoop-3.1.2
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
按Esc退出编辑,输入 :wq 保存并退出,执行以下内容使环境变量生效
source /etc/profile
[2 ] 配置hadoop-env.sh
切到/usr/local/hadoop-3.1.2/etc/hadoop目录下(2-6同在此目录下)
cd /usr/local/hadoop-3.1.2/etc/hadoop
进入hadoop-env.sh
vi hadoop-env.sh
找到 limitations under the License. 在其下一行添加
export JAVA_HOME=/usr/local/jdk1.8.0_181
按Esc,输入 :wq 保存并退出
[ 3] 配置core-site.xml,修改为以下内容,其中第5行 zz 改为自己的主机名
fs.defaultFS
hdfs://zz:9000
hadoop.tmp.dir
/usr/local/hadoop-3.1.2/data
[4 ] 配置yarn-site.xml,修改为以下内容,zz 均改为自己的主机名
yarn.resourcemanager.hostname
zz
yarn.resourcemanager.address
zz:8032
yarn.resourcemanager.scheduler.address
zz:8030
yarn.resourcemanager.resource-tracker.address
zz:8031
yarn.resourcemanager.admin.address
zz:8033
yarn.resourcemanager.webapp.address
zz:8088
yarn.nodemanager.aux-services
mapreduce_shuffle
[ 5] 配置hdfs-site.xml,修改为以下内容
dfs.replication
1
[6] 配置mapred-site.xml,修改为以下内容
mapreduce.framework.name
yarn
[7 ] 配置start-dfs.sh和stop-dfs.sh
切到/usr/local/hadoop-3.1.2/sbin目录(7-8在此目录)
cd /usr/local/hadoop-3.1.2/sbin
在start-dfs.sh,stop-dfs.sh第二行添加以下内容,因为是root登录的,不配置会出现错误
HDFS_DATANODE_USER=root
HDFS_DATANODE_SECURE_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root
[8 ] 配置start-yarn.sh,stop-yarn.sh,在第二行添加以下内容
YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root
5. 设置免密钥登录
5.免密钥登录
[1 ] 创建公钥/私钥,一路回车
ssh-keygen -t rsa
[ 2] 创建authorized_keys文件并修改权限为600
cd ~/.ssh无锡妇科医院排行 http://www.0510bhyy.com/
touch authorized_keys
chmod 600 authorized_keys
[ 3] 将公钥追加到authorized_keys文件中
cat id_rsa.pub >> authorized_keys
尝试能否免密登录,能登陆就成功了,尝试后,输入exit退出
ssh 自己的主机名
6. 防火墙
6.防火墙
[ 1] 查看防火墙状态
firewall-cmd --state
[ 2] 关闭防火墙
systemctl stop firewalld.service
[3 ] 禁止开机时防火墙自启
systemctl disable firewalld.service
7. 启动Hadoop
7.启动Hadoop
[ 1] 格式化hadoop,不要多次格式化,多次格式化会导致DataNode无法正常启动
hadoop namenode -format
[2] 启动&停止hadoop
start-all.sh
stop-all.sh
启动以后可以输入jps,看有没有下面这些进程
[root@zz .ssh]# jps
8467 NodeManager
7860 NameNode
7973 DataNode
8589 Jps
8127 SecondaryNameNode
8351 ResourceManager
有的话就表示配置成功!
第二部分:用MapReduce解决数据排序
8. 搭建Hadoop-3.1.2-eclipse环境
9. 在eclipse上编译MapReduce程序
10. 打包程序,创建测试文本
11. 应用MapReduce进行数据排序