企业大数据平台技术体系架构

2015年国务院向社会公布的《促进大数据发展行动纲要》明确提出了大数据的基本概念:大数据是以容量大、类型多、存取速度快、应用价值高位为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。近几年来,随着企业积累的数据越来越多。如何利用大数据技术构建企业大数据平台,以充分体现大数据的价值,是各行各业一直在不断探索和追求的目标。那么,企业大数据平台技术体系架构究竟如何规划呢?笔者结合多年企业大数据平台建设经验,将企业大数据平台概括为6个主要环节。从数据源开始,依次为数据采集、数据处理、数据存储、数据服务、数据展示以及数据质量管理。企业大数据平台技术体系架构,如下图所示:

技术体系架构

数据采集层的主要目标是从数据源收集数量巨大、来源分散、格式多样的数据到企业大数据平台。一般采取实时数据增量采集和历史数据批量采集两种解决方案。实时数据增量采集在监控领域应用比较广泛,快速、高效收集数据源产生的实时数据,以便即时响应和处理;历史数据批量采集则是将数据源历史一段时间的数据全部抽取到企业大数据平台,数据采集存在一定的延迟,适合数据补采、周期性计算等实时性要求不高的业务应用场景。

数据采集层

数据处理层是从大量的原始数据中发现新知识、创造新价值、提升新能力的过程,是企业大数据平台建设的关键环节。数据处理层既要满足常规的统计分析和有价值的数据挖掘等离线历史大数据处理要求,还要兼顾时效性要求高的在线实时流数据处理要求。在线实时流数据处理要求数据实时采集、实时处理、实时反馈和实时输出,响应时间在秒级甚至于毫秒级。离线历史大数据处理通常是针对批量采集数据,数据处理量大,达到TB、PB级以上,数据处理周期以分钟、小时、天为单位。当然,对于实时增量数据,我们可以以增量方式处理分钟、小时、天为单位的统计数据,以提高系统处理效率。

数据处理层

数据存储层是大数据集合、主题数据、业务数据、基础数据等持久化的存储中心。一般包括关系型数据库和分布式文件系统两种。关系型数据库用于存储主题数据、业务数据、基础数据等;分布式文件系统用于存储大数据集合。

数据服务层是大数据对外共享发布通道。目前应用最多的是以服务接口的形式对外提供,或者以消息订阅推送的方式对外提供。

数据展示层是企业大数据平台的图形用户接口。展现形式可以多样化,最典型的三种方式是:移动客户端、个人工作站和可视化大屏幕。

数据质量管理是贯穿数据采集、数据处理、数据存储、数据服务和数据展现的全过程质量管理体系。

结束语:企业大数据平台技术架构实现的关键是如何选择开源技术实现数据采集、数据处理、数据存储、数据服务和数据展现5个层次的应用,以及建设一套标准化的全过程的数据质量管理体系。

你可能感兴趣的:(企业大数据平台技术体系架构)