Python大数据应用——部署Hadoop

Python大数据应用简介

简介:目前业界主流存储与分析平台以Hadoop为主的开源生态圈,MapReduce作为Hadoop的数据集的并行运算模型,除了提供Java编写MapReduce任务外,还兼容了Streaming方式,可以使用任意脚本语言来编写MapReduce任务,优点是开发简单且灵活。

Hadoop环境部署

1、部署Hadoop需要Master访问所有Slave主机实现无密码登陆,即配置账号公钥认证。

2、Master主机安装JDK环境

Python大数据应用——部署Hadoop_第1张图片

3、Master主机安装Hadoop

3.1、下载Hadoop,解压到/usr/local目录下

3.2、修改hadoop-env.sh中java环境变量

3.3、修改core-site.xml(Hadoop core的配置文件)

Python大数据应用——部署Hadoop_第2张图片

3.4、修改hdfs-site.xml(Hadoop的HDFS组件的配置项)

Python大数据应用——部署Hadoop_第3张图片

3.5、修改mapred-site.xml(配置map-reduce组件的属性,包括jobtracker和tasktracker)

Python大数据应用——部署Hadoop_第4张图片

3.6、修改masters,slaves配置文件

masters文件

slaves文件

4、Slave主机配置

4.1、配置和Master主机一样的JDK环境,目标路径保持一致

4.2、将Master主机配置好的hadoop环境复制到Slave主机上

5、配置防火墙

master主机

Python大数据应用——部署Hadoop_第5张图片

Slave主机

6、检验结果

6.1、在Master主机上执行启动命令(在安装目录底下)

所示结果如下,表示启动成功

Python大数据应用——部署Hadoop_第6张图片

6.2、在Master主机上测试MapReduce示例

所示结果如下,表示配置成功

Python大数据应用——部署Hadoop_第7张图片

7、补充:访问Hadoop提供的管理页面

Map/Reduce管理地址:192.168.1.1:50030

Python大数据应用——部署Hadoop_第8张图片

HDFS管理地址:192.168.1.1:50070

Python大数据应用——部署Hadoop_第9张图片

来源:51CTO博客

作者:系统运维工程成长之路

学校:誉天教育

QQ:3200569443

微信:13487088610

你可能感兴趣的:(Python大数据应用——部署Hadoop)