第一次搭建Hadoop环境,可谓是千难万难。
难点1:自己完全是linux的菜鸟
难点2:个人有毛病,讨厌虚拟机,又没空间装双系统,又没钱买完全linux系统的电脑
难点3:windows用多了,看其他系统都很膈应,想想帅克那句话,强迫自己学习linux,强迫用
在学习之前,一定要弄明白为什么要这么做,这是要懂得求知,好吧我承认我是因为什么都不懂所以问出了这么个idiot的问题:为啥非要在linux下跑hadoop,我用windows不行吗,我感觉windows挺方便的
答:“废话,windows在那里鼠标点啊点,想点哪里点哪里当然方便啦,小白都会用,然而linux用起来一看那个控制台terminal就很高大上啊,就专业啊,好吧,我知道这不是根本原因我们来查下,hadoop是什么,然后我们为什么要学,和为什么要装在linux下,ok没就这几点,没搞懂真没动力学
复制粘贴一点:
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
===============================================================================
【自己总结】:大概记住两个,HDFS and MapReduce 其实真的在并行计算课学过,但是当时忘了在干嘛了,囧~~~~
然后又记住一个:大数据:big data 大数据处理需要用到HDFS.分布式文件系统
优点:高可靠性、高可拓展性、高容错性和高效性。反正4高大家记住,后面用的时候我们再来理解它为什么这么高
其他的没看懂。然后在用的企业有:yahoo,百度,中国研究院,淘宝
如果硬要我从这几个数据中挖掘出有效信息,那就是学会了hadoop去这几家公司你不会没饭吃
============================================================================
【为什么要装在linux系统上】:
个人看了一遍,大概原因是hadoop脚本语言是由linux下写的,如果想要win用的爽,那就要改成win的脚本语言,windows没有Linux稳定,若要做服务器,Linux/Unix系统当然是首选了。然后hadoop依赖的是ssh,如果在win上使用ssh需要安装软件。
这里有两个问题
1:服务器稳定,这个咱不懂,自行百度
2.ssh是什么鬼,鉴于ssh在之后都要用到,这个必须查一下
安全外壳协议(SSH)是一种在不安全网络上提供安全远程登录及其它安全网络服务的协议。Secure Shell,又可记为S S H。
其实具体跟hadoop什么关系,哥看了好多文章也没看懂,待我补了以后再来告诉大家,说了那么多正式进入搭建环节
====================================================================================
【hadoop环境搭建】:
这里有一位前人写的攻略:我搭的时候很顺利,大家参照一步步来
http://www.powerxing.com/install-hadoop/
提前安好Ubuntu and Linux内核
想要下载的,http://pan.baidu.com/s/1o8ks7ou 提取码:frej
里面有你需要的所有,可能虚拟机版本有点低,要求高的可以找高点的
因为是linux操作菜鸟,好多操作都是问别人的,基本全部操作按上面教程没有问题
有关键几点告诉大家
1.linux一个一个输很麻烦,想省事的复制粘贴 是ctrl+shift+c ctrl+shift+v
2.教程有一个没说明白,进入bashrc后 想要保存文件,先按esc 再在末尾输入:wq
意思是保存且退出到shell
我因为这一个操作墨迹了两个小时,大家吸取我的教训吧,坑爹的是网上所有教程都没有说清楚
===========================================================================
弄好java配置环境变量后,就可以尝试写一个java文件了。
【建一个文档】Test 记得文件名一定要和类名相同,不要问为什么,这是规定!!!
最好建在外面,因为如果不是绝对目录下,你还得写一大串地址,而且新建一个文件夹有权限问题,当你这个菜鸟不懂得时候对文档不能写不能改不能保存不能删除重命名你是崩溃的,刚开始学习,暴力一点
public class Test {
public static void main(String args[]) {
System.out.println("A new jdk test !");
}
}
然后在shell里面输入一下:(不要问shell是什么ctrl+alt+t 终端控制台,相当于windows的cmd)
这里就已经成功了,输出
接下来的hadoop配置,最后变成这样即可:
跟着小白学习的好处是,能够领悟到:“原来还有比我更傻的人”
能够体会到你们身为菜鸟遇到的各种匪夷所思的白痴问题
hahahaha
show me your bug and be stupid