作为从业接近3年的程序猿,终于决定自己写点东西。就从自己最近学的大数据开始吧。
跟着教程学习hadoop:
1.先是bababa一堆大数据的前景,就是数据已经到了DB时代,大数据很有前途。
2.接着便是hadoop的核心:数据的分布式存储,数据的计算。
3.hadoop的安装:
一.首先是 jdk的安装与配置。(这里就不多介绍了,楼主学习用的linux-centOS系统学习的)
二.hadoop安装:
a.下载hadoop,(hadoop-2.7.1.tar.gz)
apache.org 官网--project--hadoop--download--releases--binary--选择镜像并下载。
b.解压 tar -zxvf hadoop.2.7.1.tar.gz
c.移至/usr/soft目录下 mv hadoop-2.7.1 /usr/soft/
d.配置环境变量
vim /etc/profile
HADOOP_INSTALL=/usr/soft/hadoop-2.7.1
PATH="/usr/soft/hadoop-2.7.1/bin:/usr/soft/hadoop-2.7.1/sbin"
export PATH
让配置及时生效 source /etc/profile
d.进入etc目录下 cd /usr/soft/hadoop-2.7.1/etc
hadoop_alone就是独立模式的配置,需要伪分布或者完全分布式的话就需要配置这个文件夹下面的
core-site.xml、hdfs-site.xml、yarn-site.xml、maprd-site.xml文件,
这些文件。一般情况下我们复制,两个文件夹:hadoop_pseude、hadoop_full ,分别代表伪分布式和完全分布式,需要布置哪个模式,就创建一个软链接hadoop指 向这个连接 link -s hadoop_full hadoop
直接启动,就是独立模式下的hadoop(就是一台主机的模式)
执行start-all.sh 启动hadoop(hadoop的etc目录下需要有hadoop文件夹)
独立模式:没有守护进程,在单机上运行
伪分布式:模拟分布式(也是运行在一台主机上)
完全分布式:运行在多台主机上