个人对大数据概念的理解(知识结构)

大数据的产生:
为了解决数据量过大的问题
1)垂直扩展 :增加自己的硬件设施 但设备终归有极限;
2)横向扩展 :由多个服务器所一台一台连接起来的扩展方式,没有瓶颈,可以无限扩展,简单廉价的服务器或者PC端就可以

大数据的起源(鼻祖):google 的三大论文

GFS -------产生 HDFS分布式文件系统(分布式的存储)
MapReduce ---------分布式的处理
BigData --------- HBase (简单理解为仓库)

官网:https://hadoop.apache.org

Common ------- 里面类似于一些命令
YARN ------数据调度和集群资源管理的框架
HDFS --------综上
MapReduce -------综上 ------批处理

其他的一些项目:
Spark -----用于Hadoop数据的 快速通用计算引擎

1)spark core
2) sparkSQL —可以使用sql处理
3)sparkStreaming — 流式处理
4)mllib ----机器学习库
5) graphx -----spark停止维护

用于支撑HADOOP运行起来的技术
1)kafka
2) zookeeper—协调服务
3) flume 类似kafka ,但速度比kafka快,往往和KAFKA结合起来用
4) hive ------大型数据库 ----sql语句(专门用sql语句对大数据进行整合)
5)flink
6) storm
7) hbase

注:以上为市面上用的比较多的主流技术

补:HDFS的个人理解 (主从架构)
拿班级来举例子
班长----主节点(Namenode)
成员----从节点(Datanode)
学委---- client(可有可无)

存文件 -------hdfs的读写机制
读文件 -------hdfs的读写机制
备份-------为了解决安全问题

你可能感兴趣的:(个人对大数据概念的理解(知识结构))