(1)大数据和应用场景介绍

 专栏目录

(1)大数据和应用场景介绍

(2)大数据技术综述总结

(3)HDFS原理与高可用技术原理介绍

(4)Yarn架构、资源管理原理和运维技术介绍

(5)Kafka原理和高可用介绍

1.大数据基本特征


(1)传统数据与大数据的区别:
  1. Volume :从数据量上来说,传统数据规模相对较小,最大维持在GB-TB,而大数据领域中我们需要处理的数据集规模基本都是在TB、乃至PB级别以上;
  2. Variety  :速度方面,从两个方面来说,第一、从数据的增长速度来说,随着互联网以及物理网的带动,数据量增长非常迅猛;第二、从数据的处理速度上来说,现实场景中我们需要更低延时的高效分析,例如一些秒级别、毫秒级别的实时分析。
  3. Velocity :多样化,在数据类型上,除了传统的结构化数据,大数据场景下非结构化数据占比会大很多。其实非结构化数据在传统的架构当中也会有存在,但是因为受限于传统模式下技术较差、他的价值密度较低,数据存储下来无法带来更多的价值,所以传统方式仅仅只是把它存储下来、或者考虑到存储的成本都有可能不去存储。而如今在大数据架构当中,首先数据存储的成本非常之低,其次目前有很多专门针对于非结构化数据的处理技术支持,对于非结构化数据我们可以对其进行做更加深度的分析挖掘,得出更加有价值的内容。
  4. Value :价值,大数据可以做的不仅仅只是一些统计报表,更可以去做数据挖掘,因为要做数据挖掘,首先得有足够多的数据,另一方面大数据领域有很多相关的技术的支持,性能相比于传统的架构会非常的好。
    简而言之,大数据基本特征4V: Volume 数据规模巨大、 Variety 数据类型多样、 Velocity 生成和处理速度极快、 Value 价格巨大但密度较低。
    在真实生产环境中, 大数据不仅仅指数据本身,还包括其衍生的数据处理技术( 存储+处理)。
(1)大数据和应用场景介绍_第1张图片

2.大数据应用场景


(1) 数据仓库
    传统的架构中也会有数据仓库,但是传统架构中 数据流转大概是从业务系统产生数据存储到数据库中、然后跑批处理做一些加工处理、生成数据到仓库中,然后再做一些分析,结果最终展示
    而大数据场景下,首先数据源这部分来源更加丰富,例如:网路爬虫、传感器等等种类更多,并且数据量也更大,数据产生接入过来,存储在分布式的集群当中,然后再通过 MapReduce(或者替换其他的计算框架)计算,存储以及计算都是一些分布式架构。
    分布式的优势:①当现有集群规模满足不了的情况下,可以动态添加增点从而提高数据存储容量、提高计算的性能。②对比于传统场景往往都是单机方式,存储容量以及性能上都不能提供好的支持、并且也没有灵活低成本的动态机制支持
(1)大数据和应用场景介绍_第2张图片
(2)实时流处理
    传统场景也有实时流处理, 它是通过实时库来解决,价格非常昂贵,而且比较单一
    大数据场景下, 往往通过kafka来收集数据。①kafka构建起来成本会低很多,并且对于各种不同来源数据接入都没有太多问题,包括数据的高可用性、读写性能支持都非常好。②数据收集之后,通过像开源Storm、SparkStreaming以及我们的SlipStream进行实施分析,最终结果以图形化方式展示。
     (1)大数据和应用场景介绍_第3张图片

你可能感兴趣的:(Hadoop,数据库,hadoop,大数据,sql,流计算)