早在2015年就买到Hadoop的书了,可是由于各种原因没有细细看过!(ps:就是因为懒)。虽然从事的不是编码工作,但是心中依旧有个写代码的梦想!!最近将这本书拿出来,学习了一下,做个笔记!以方便自己以后复习查看,笔记中有不对地方,也请大家指出,一起讨论,一起进步!!雄起!
(1)hadoop基本信息
hadoop的基本概念属于老生常谈了,网上百度,各种答案,就不多说了,百度的结果如下:
What Is Apache Hadoop?
TheApache™ Hadoop® project develops open-source software for reliable, scalable,distributed computing.
解决问题:(1)海量数据存储问题(HDFS),(2)解决海量数据分析问题(Mapreduce),(3)资源调度问题(YARN)。
Hadoop的作者:Doug Cutting
参考文献:Google三篇论文的启发(GFS、MapReduce、BigTable)
以上信息,纯属百度,如有雷同,纯属我百度的好!~~
(2)伪分布式环境搭建
hadoop部署方式有;伪分布式,本地模式,集群模式。下面就伪分布式环境搭建,便于练手!
1.修改主机名
打开vim /etc/sysconfig/network修改
NETWORKING=yes
HOSTNAME=hadoop
2修改IP两种方式:修改配置vim /etc/sysconfig/network-scripts/ifcfgeth0
DEVICE="eth0"
BOOTPROTO="static"
HWADDR="00:0C:29:3C:BF:E7
IPV6INIT="yes"
NM_CONTROLLED="yes"
ONBOOT="yes"
TYPE="Ethernet"
UUID="ce22eeca-ecde-4536-8cc2-ef0dc36d4a8c"
IPADDR="192.168.8.118"
NETMASK="255.255.255.0"
GATEWAY="192.168.8.1"
3修改主机名和IP的映射关系vim /etc/hosts
192.168.8.118 hadoop
4关闭防火墙
#查看防火墙状态 service iptables status
#关闭防火墙service iptables stop
#查看防火墙开机启动状态chkconfig iptables --list
#关闭防火墙开机启动chkconfig iptables off
5重启Linuxreboot
6.安装JDK
上传、解压jdk
#创建文件夹mkdir /usr/java
#解压tar -zxvf jdk-7u55-linux-i586.tar.gz -C /usr/java/
将java添加到环境变量中vim /etc/profile
export JAVA_HOME=/usr/java/jdk1.7.0_55
export PATH=$PATH:$JAVA_HOME/bin
刷新配置source /etc/profile
7.安装hadoop2.4.1
#hadoop伪分布式需要修改5个配置文件
(1)配置hadoop文件:hadoop-env.sh
打开vim hadoop-env.sh 在第27行export JAVA_HOME=/usr/java/jdk1.7.0_55
由于配置文件过多,截图展示。
8 配置hadoop环境变量vim /etc/proflie
export JAVA_HOME=/usr/java/jdk1.7.0_65
export HADOOP_HOME=/itcast/hadoop-2.4.1export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source /etc/profile #使文件生效
9.格式化namenode(是对namenode进行初始化),
hdfs namenode -format (hadoop namenode -format)
10.启动hadoop,在Hadoop的安装目录下
先启动HDFS sbin/start-dfs.sh
再启动YARN sbin/start-yarn.sh
验证是否启动成功使用jps命令 ,出现以下进程,登录界面都能进去。就安装配置正确。
jps结果如下:
登录界面:
http://192.168.8.118:50070 (HDFS管理界面)
http://192.168.8.118:8088 (MR管理界面)
11.配置ssh免登陆
#生成ssh免登陆密钥#
在home目录cd ~/.sshssh-keygen -t rsa (四个回车)执行完这个命令后,会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥)将公钥拷贝到要免登陆的机器上ssh-copy-id localhost
完成!!!