hadoop运行环境安装与配置+hadoop开发环境配置(一)

这两篇主要小结在hadoop学习过程中,Linux(ubuntu)下hadoop安装与环境配置+window下开发环境的配置。

这是第一篇,主要小结hadoop在ubuntu环境下的安装与配置

不对之处,请指正。


一、hadoop介绍

hadoop时一个分布式开源计算框架。

是当前大数据领域最炙手可热的分布式计算框架。

有志于大数据方向的同学,不可能不知道hadoop。

hadoop主要为Linux而设计,运行在Linux系统上。

hadoop包括一系列的开源包,Hive,HBase,MapReduce。

包括机器学习包Mahout(现已成为Apache的顶级项目,与hadoop平级)。

hadoop是基于java的,所以必须依赖java的JDK。

hadoop支持java、python、scala,主要的开发语言还是scala,推荐的语言也是scala。

scala是基于java的语言,类似于scala.开发基于scala的程序必须有java JDK支持。所以,安装scala之前必须安装JDK。

二、hadoop安装配置

1、创建hadoop用户,并设置密码。用于hadoop程序运行。

2、添加hadoop用户管理员权限,并用hadoop登录Linux系统。方便后续管理操作。

3、安装ssh,配置无密码登录。

4、安装JDK,配置环境变量。

5、到官网下载、安装hadoop包。注意2.7以上版本才支持JDK8. 通过命令tar命令解压.tar.gz。mv移动到制定目录,并重命名。

6、hadoop程序的三种运行方式,也可以理解为配置方式。

单机模式配置。不需要任何设置,直接可以运行java程序。

伪分布式配置。需要配置:core-site.xml、hdfs-site.xml等。具体参考网上其他文章。

全分布式配置。没有配置过。

7、运行程序,测试效果。


注意事项:hadoop运行程序有mapreduce和yarn两种方式。区别在于两者采用了不同的资源调度和管理方式。后者称为mapreduce2.0.


三、示例jar运行

通过命令运行./share文件夹下的example jar包,可以看到运行结果。并可以通过命令cat将运行结果拷贝至本地查看。

你可能感兴趣的:(linux,hadoop)