第一部分:分布式了解
相对于集中式
集中式特点:
一台机器,所有东西(软件)都放在此计算机上(安装)
分布式特点:
多台机器:将东西进行划分,每台机器存储一部分
主从架构
主节点:管理,项目经理,
管理者,调度者
从节点:
被管理者,干活的
分布式文件系统HDFS
主节点:
NameNode:就是在系统中启动一个进程JVM process
功能:
将存储的文件划分block块进行存储(128M),每个block的副本是3个。
从节点:
DataNode真正存储数据块的地方(实际存储在机器的硬盘上)
分布式集群资源管理YARN
集群的资源(内存和cpu core)
任务(job)调度
主节点:
ResouceManager:管理集群的所有资源,
接收客户端提交的应用
从节点:
NodeManager:管理当前节点资源
伪分布式安装
从创建一个虚拟机,并对虚拟机进行网络配置开始。
1、创建一个虚拟机
2、修改VMware Vmnt8的适配器网段地址192.168.59.0
3、修改主机名:vi /etc/syconfig/network
4、配置ip和主机名映射
vi /etc/hosts
192.168.59.160 bigdata-hpsk01.huadian.com bigdata-hpsk01
测试:ping bigdata-hpsk01.huadian.com
注意:window也改一下,
C:\Windows\System32\drivers\etc\hosts
192.168.59.160 bigdata-hpsk01.huadian.com bigdata-hpsk01
5、使用远程连接
6、配置自己的普通用户拥有sudo权限 visudo
7、关闭防火墙
当前关闭:
sudo service iptables stop
开机不启动:
sudo chkconfig iptables off
检查设置是否成功:
chkconfig iptables --list
关闭selinux
vi /etc/selinux/config
vi /etc/sysconfig/selinux
设置SELINUX=disabled 该设置必须重启才能生效
8、在opt下创建四个目录 /datas /softwares /modules /tools
修改四个目录所属者跟所属组:chown huadian:huadian /datas /softwares /modules /tools
9、下载Linux自带的上传与下载的软件:sudo yum install -y lrzsz
10、安装jdk
注意:Linux安装jdk类似于Windows安装一个绿色版本软件直接解压,然后配置环境变量即可
(1)使用rz将jdk上传到/opt/softwares
(2)解压:
tar -zxf jdk-8u91-linux-x64.tar.gz -C /opt/modules/
(3)配置环境变量
sudo vi /etc/profile
#JAVA_HOME
export JAVA_HOME=/opt/modules/jdk1.8.0_91
export PATH=${PATH}:${JAVA_HOME}/bin
使其生效:
source /etc/profile
验证:
java -version
11、关机,快照
12、开机,开始伪分布式安装,上传解压
13、查看目录结构,并删除里面的文件:
bin/*.cmd
sbin/*.cmd share/doc
14、修改三个模块的环境变量(*.evn):hadoop-env.sh、 yarn-env.sh、mapred-env.sh
15、给三个模块添加可执行权:chmod u+x hadoop-env.sh yarn-env.sh mapred-env.sh
16、common配置:core-site.xml
17、HDFS配置:hdfs-site.xml slaves
18、启动HDFS
格式系统:
bin/hdfs namenode -format
启动
主节点
sbin/hadoop-daemon.sh start namenode
sbin/hadoop-daemon.sh stop namenode
从节点
sbin/hadoop-daemon.sh start datanode
sbin/hadoop-daemon.sh stop datanode
验证是否启动成功
方式一:jsp
方式二:
通过webUI 界面查看bigdata-hpsk03.huadian.com:50070
测试HDFS
帮助文档:
bin/hdfs dfs
HDFS文件系统目录和Linux目录结构类似,
命令也类似
创建目录:
bin/hdfs dfs -mkdir /datas
查看目录:
bin/hdfs dfs -ls /datas
上传文件:
bin/hdfs dfs -put /opt/datas/input.data /datas/
查看文件内容:
bin/hdfs dfs -text /datas/input.data
下载文件:
bin/hdfs dfs -get /datas/input.data ./
删除文件:
bin/hdfs dfs -rm -r /datas/input.data
19、配置YARN,yarn-site.xml,slavex(前面以及配置过)
20、启动节点
启动:
主节点:resourceManager
sbin/yarn-daemon.sh start resourcemanager
从节点:nodeManager
sbin/yarn-daemon.sh start nodemanager
验证:
方式一:jps === ps -ef |grep java
方式二:bigdata-hpsk01.huadian.com:8088
21、MapReduce配置 首先在/etc/hadoop 运行cp mapred-site.xml.template mapred-site.xml
22、配置历史服务器 mapred-site.xml 启动历史服务器sbin/mr-jobhistory-daemon.sh start historyserver
23、日志聚集功能 yarn-site.xml
24、到此为止,全部配完,关机,快照