大数据概念简介

一.大数据

    1.4V-->数据量大/数据种类多/处理速度快/价值密度低

    2.大数据技术-->数据采集/数据存储和管理/数据处理与分析/数据隐私和安全

    3.大数据处理模式-->批处理模式/流模式/图模式/查询分析模式

二.云计算

    1.云计算-->通过网络把分布式存储和分布式处理转成服务提供出去

    2.3S-->IAAS(基础设施即服务)/PAAS(平台即服务)/SAAS(软件即服务)

    3.云计算技术-->虚拟化/分布式存储/分布式处理/多租户

三.物联网

    1.物联网-->物与物相连的网络

    2.物联网体系结构-->应用层/处理层/网络层/感知层

    3.物联网技术-->识别和感知技术/网络和通信技术/数据挖掘和融合技术

四.Hadoop

    1.Hadoop-->Apache开源的分布式计算平台

    2.Hadoop特性-->高可靠/高效/高可扩展/高容错/低成本/Java开发/运行在linux系统/支持多个语言api

    3.Hadoop企业架构--    

                                    大数据概念简介_第1张图片

    4.Hadoop发行版本-->

                                        大数据概念简介_第2张图片

    5.Hadoop1.0和2.0区别-->

                                大数据概念简介_第3张图片

    6.Hadoop项目架构-->

                                        大数据概念简介_第4张图片

    7.Hadoop安装-->

        1.单机模式(默认本地模式,单节点单java进程)

        2.伪分布式模式(单节点多java进程)

        3.分布式模式(多节点集群方式)

五.分布式文件系统HDFS

    主要节点类型-->

    1.NameNode(名称节点)-->FsImage+EditLog

    2.DataNode(数据节点)-->JobTracker+taskTracker

    3.SecondaryNameNode(第二名称节点)-->作为NameNode的冷备

六.分布式数据库HBase

    1.HBase-->HBase是一个高可靠,高性能,面向列,可伸缩的分布式数据库(分布式存储系统),是BigTable的开源实现,存储非结构化和半结构化的松散数据

    2.HBase与传统关系型数据库的区别-->

        数据类型:关系数据库用丰富数据类型和存储方式,HBase存储数据为未经解释的字符串

        数据操作:关系数据库有复杂的多表连接,HBase不存在,只有简单的插入,查询,删除,清空

        存储模式:关系数据库为行模式存储,HBase为列模式存储

        数据索引:关系数据库可构建复杂的多个索引,HBase只有一个行键索引

        数据维护:关系数据库更新后旧值会被覆盖,HBase更新会保留旧的版本

        可伸缩性:关系数据库很难实现横向和纵向的扩展,HBase很容易现实水平扩展

    3.HBase接口访问-->

                            大数据概念简介_第5张图片

    4.HBase数据模型(表/行键/列族/列限定符/时间戳)四维坐标:[行键,列族,列限定符,时间戳]-->

                                  大数据概念简介_第6张图片      

    5.HBase功能组件(库函数/一个master主服务器/多个Region服务器)-->

        库函数用于客户端的连接

        主服务器用于管理和维护分区信息,维护Region服务器列表,分配Region,负载均衡

        Region服务器用于存储维护分配给自己的Region,处理来自客户端的请求

        客户端(会缓存位置信息)访问zookeeper来获取ROOT表位置,ROOT表中记录META表的位置信息

        ROOT表只有一个,META表会被分为多个Region,META表记录Region和Region服务器的映射关系

                                      大数据概念简介_第7张图片

    6.HBase系统架构-->

                      大数据概念简介_第8张图片          

    7.Region服务器-->

                                              大数据概念简介_第9张图片  

    8.HBase性能监视-->Master_status(自带)/Ganglia/OpenTSDB/Ambari

    9.HBase之SQL有引擎-->Hive整合HBase/Phoenix

    10.HBase利用Coprocessor特性构建二级索引-->Hindex二级索引/HBase+Redis/HBase+Solr

七.NoSQL数据库

    1.数据处理分为OLTP(在线事物处理)/OLAP(在线分析处理)

    2.数据库分为关系型数据库(RDBMS)和非关系型数据库(NoSQL)

    3.RDBMS分为OLDSQL(oracle,mysql,postgreSql等)/NEWSQL(sequoiaDB,mysql cluster等)

    4.NOSQL分为键值数据库(redis),文档数据库(mongodb),列族数据库(Hbase),图像数据库(Neo4j)

    5.NEWSQL包含OLDSQL和NOSQL两者的特性,是一种新型关系数据库


你可能感兴趣的:(大数据)