浅谈MapReduce

         从今天开始,本人将会开始对另一项技术的学习,就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要,都纷纷用了此平台。国内的比如BAT啦,国外的在这方面走的更加的前面,就不一一列举了。但是Hadoop作为Apache的一个开源项目,在下面有非常多的子项目,比如HDFS,HBase,Hive,Pig,等等,要先彻底学习整个Hadoop,仅仅凭借一个的力量,是远远不够的。所以,我选择了逐个击破的办法,我们都知道,Hadoop中最核心的2个架构体系就是MapReduce+HDFS,一个分布式计算框架+加上分布式文件系统,就构成了一个基本的分布式计算平台,在上面搭配上面Hive,Pig等查询工具,就可以很好的进行数据挖掘,机器学习方面的操作了。今天本人所学习的是大名鼎鼎的MapReduce计算框架,这个思想是Google公司在04年左右的时候,提出来的,在一篇论文中提出来,当时Google公司并没有对此代码进行开源,后来是别人依据此思想进行了实现,并经历过代码的不断的发展,演变,才有了后来的Hadoop平台的诞生。

         也许在很多人看来,MapReduce不就是一个简简单单的Map+Reduce函数嘛,那我只能告诉你,你只明白了它上面中的沧海一粟,背后的许许多多的复杂的原理设计,是一般所无法想象的。这一段,通过一系类的书籍,学习,稍稍形成了我对MapReduce思想的新的看法,我就简单的说说的我的理解。在MapRedu

你可能感兴趣的:(Hadoop,分布式计算,mapreduce,分布式,框架,hadoop)