大数据处理架构Hadoop生态系统,在各个模块的作用是什么?

学习之前没搞清楚的知识

  1. 传统的web应用(LAMP、JavaEE、NODE系等)与大数据什么关系?
  2. 之前一直以为大数据的东西就是来取代传统的Web应用的,其实并不是这样;即使是大数据的架构,应用层依然会是传统的web应用,但是会根据数据特点对数据存储(结构化数据依然会保存在传统的关系型数据库——如MySql,日志等非结构数据会保存在分布式文件系统——如Hadoop的HDFS)。
  3. 大数据的东西不是取代传统的web应用,而是对web应用的增强。基于分布式存储和分布式计算,以前单机或者小规模集群无法解决的问题,使用了大数据技术之后就可以解决了,比如日志等数据当数据量非常大的时候(TB甚至PB),对这些数据的分析在传统架构上是不可能或者是非常慢的,使用了大数据技术之后就是可能的了——主要是将数据处理通过MapReduce等拆分到不同的节点(电脑)上执行,然后将节点上的结果合并,最后生成分析结果。
  4. 云计算和大数据
  5. 这个话题在林子雨老师的教程——“第一讲 大数据概述”里介绍的非常好,感兴趣的朋友可以自己去看看,这里概括总结为:“云计算为大数据提供了技术基础,大数据为云计算提供了用物之地”。
  6. 现在几乎所有的公司都把自己的产品吹成“云”...但是真的都是“云”么?其实很多都是传统的web应用部署到阿里云这些第三方云平台吧;还有一部分有自己服务器(一般配置),然后搞个公网ip,部署上去也说自己是“云”。

Hadoop结构(更新)

大数据处理架构Hadoop

大数据处理架构Hadoop生态系统,在各个模块的作用是什么?_第1张图片

 

大数据处理架构Hadoop生态系统,在各个模块的作用是什么?_第2张图片

 

学习历程

  1. 了解Hadoop生态系统,了解一下生态系统中各模块的作用,文章后面对各模块有一些简单的总结
  • HDFS
  • YARN
  • HBase
  • MapReduce
  • Hive
  • Pig
  • Mahout
  • Zookeeper
  • Sqoop
  • Flume
  • Kafka等
<

你可能感兴趣的:(大数据,大数据,大数据开发,大数据分析,大数据入门,Hadoop)