Hadoop学习笔记-Hadoop初识

序言:

         其实Hadoop本人早就想进行一下系统的了解,一直被自己的懒惰给无限的推迟。最终还是鼓起勇气将自己放入到其中。本人了解的Hadoop的所有内容均来自于《Hadoop权威指南》,只是想通过这种方式来记录自己的学习历程,以方便以后的温习。文中的一些观点纯属我个人的看法,并不一定具有参考意见。

数据时代

       信息化发展到当今,互联网的数据量是不断地增加,那么如何很好的处理以及利用这些数据可能是未来的一个发展方向,这也之所以产生了各种平台的云计算。对于互联网而言,大数据量可分为两种:第一、大访问量请求;第二、大数据量处理。大访问量请求这个事应用端应该思考的问题,如何很好的处理大的访问量,如何实现应用端的负载均衡这个不是我这里讨论的话题。大访问量将会带来大数据量的处理,因为用户的请求一般都会带来后端的处理,于是给以用户的响应,那么后端的处理比较牵扯到数据的处理。对于一个大访问量的系统,那么它的数据量必定会是庞大的,那么如何很好的处理这些庞大的数据,Hadoop是其中一种处理方式,也是当前比较流行的处理方式。故而趁工作之余学习一下Hadoop,从而丰富一下解决问题的方法。

Hadoop基本概念

       Hadoop的核心模块是MapReduce以及HDFS(Hadoop Filesystem)。随着Hadoop的发展也出现了其他的一些模块例如:Pig、Hive以及HBase等等,通过这些模块达到丰富了Hadoop的生态圈。

       MapReduce就是对数据分析处理的一个过程,它基于键值对的方式来分析处理数据,从而达到数据的分块处理,而HDFS是一个分布式文件系统。通过这两个模块就可以完成对数据的分析以及存储。MapReduce对数据的处理分为两个部分,一个是Map方法所处理的过程,这里主要是对数据进行键/值处理,需要确定数据的哪些属性为键,哪些属性为值,所以这里的键/值对数据并没有要求,而是开发人员自己挑选,顾从这里可以看出Hadoop对待处理数据的结构没有限制。那么另一个是Reduce方法,这里就是收集Map分类好的数据,进行分析然后进行处理。那么这两个方法的调用全部都丢给Hadoop的一个Job任务来执行。这就是Hadoop处理数据的一个基本过程。

Hadoop和传统的关系型数据库区别

        Hadoop从存储的数据类型是非结构化或者是半结构化的存储,而关系型数据库是存储结构化的数据。下面一张表描述了它们两者间的区别:

Hadoop学习笔记-Hadoop初识_第1张图片

         从该表中可以看出Hadoop适合做一次写入多次读取的数据处理,并不适合实时更新的数据,通过这张表就可以很好地定位hadoop在开发中所处理的问题。

         本文只是对Hadoop的一个基本认识,并没有太多关于Hadoop的内部信息或者如果实现以及搭建Hadoop的环境。下一节将讲述如何在Windows下利用Cygwin搭建Hadoop。




你可能感兴趣的:(Hadoop学习笔记-Hadoop初识)