大数据入门的基础知识

大数据
定义:短时间快速大量产生多种多样的有价值的信息 (个人理解)

大数据5V特性
大量(volume) 高速(velocity) 多样(variety) 低价值密度(value) 真实性(veracity)


为了解决数量过大的问题
①垂直扩展 (加大内存量)
大数据入门的基础知识_第1张图片
②横向扩展 (一台连一台)
简单廉价的服务器或者pc端 就可以


谷歌三大论文

1、GFS --------------(HDFS分布式文件系统)分布式的存储
2、MapReduce----------分布式的处理
3、BigData-----------HBase


HDFS
Hadoop Common:支持其他Hadoop模块的常用实用程序。(工具类形式使用就可以)
Hadoop分布式文件系统(HDFS™):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。
Hadoop YARN:作业调度和集群资源管理的框架。
Hadoop MapReduce:基于YARN的系统,用于并行处理大型数据集。


yarn—资源和任务调度
mapreduce —批处理
Spark™:用于Hadoop数据的快速通用计算引擎
spark core
sparkSQL–可以使用sql处理
sparkStreaming—流式处理
mllib —机器学习库
graphx —spark停止维护

需要运用kafka flume hive(大型数据库 sql语句) zookeeper—协调服务 进行支撑

主从架构
主节点----Namenode
从节点----Datanode
client
hdfs读写机制:
存文件 读文件
备份----解决安全问题
block
以块的形式将大文件进行相应的存储
默认 1G
1.x 64M
2.x 128M


文件线性切割成块(block):偏移量offset(byte)
Block分散存储在集群节点中
单一文件Block大小一致,文件和文件可以不一致
Block可以设置副本数,副本分散在不同的节点中
副本数不要超过节点数量
文件上传可以设置Block大小和副本数
已上传的文件Block副本数可以调整,大小不变
只支持一次写入多次读取,同一时刻只有一个写入者
如图所示:
大数据入门的基础知识_第2张图片


元数据 : 描述数据的数据
源数据 : 就是数据
Namenode(NN)作用:
1、掌控全局 管理Datanode(DN)信息 管理元数据
2、接受client的情求 然后开始读写
3、和DN之间相互通信
Datanode(DN)作用:
1、存储数据
2、向NN发送信息
3、接受client的情求


写操作
1、要有一个大文件
2、client会将大文件切成block块 block块=文件的大小/128(默认)
3、向Namenode情求:
3.1***********块数 文件大小 文件权限 文件属主 文件上传时间
下面为循环过程:
4、client分切下块 128M
5、client会向NN申请–DN的信息
6、NN返回一批负载不高的DN传送给client
7、client会向DN里面发送block平且做备份
8、DN存放block块之后会向NN回报
大数据入门的基础知识_第3张图片

读请求
1、NN会向client发送一个请求,client接收到请求之后,会向NN去申请节点信息(blockid)
2、NN会向client发送一些节点信息
3、client获取到节点信息之后去DN上去拿数据-------里面默认就近原则
--------------------------------------------------------------------------------------------------------------------------
****
****
备份机制
1、集群内提交
在提交的节点上放置block
集群外提交
选择一个负载不高的节点进行存放
2、放置在与第一个备份不同的机架的任意节点上
3、放置在第二个机架上的不同节点上


pipeline管道
1、NN再返回给client一些DN的信息之后
2、client会和这些DN形成一个管道,并且将block切割成一个个ackPackage(64k)
3、DN会从管道中拿取相应的数据进行存储
4、当存储完成之后,DN会向NN进行汇报

你可能感兴趣的:(大数据基础)