浅谈大数据(一)

数据之于网络时代,犹如石油之于工业时代。大数据即是在互联网时代,信息储存和处理能力飞跃发展之后的一个成果,蕴含着巨大的应用空间和商业价值。如今,随着大数据相关技术不断演进迭代,大数据技术已进入“后红海”时代,成了“水电煤”一样可以普惠人人的技术,并且成为各大企业公司攫取利益的重要工具。11月1日,已正式实施的《个人信息保护法》对“大数据杀熟”出重拳,大数据和算法再次成为行业内外讨论的热点。那么,我们今天就一起来盘一盘大数据。

什么是大数据?

21 世纪初 Web 2.0带来的互联网爆发性增长,当时 Google、雅虎等公司的数据量级已经远超单机可处理,并且其中大部分数据用传统的数据库基本无法处理,由此开始探索新型的数据存储和计算技术。在 2003-2006 年里,Google 发布了 GFS、MapReduce 和 Bigtable 内部研发成果论文,雅虎基于 GFS/MapReduce 论文建立了开源的 Hadoop 项目,为后续十多年大数据发展的奠定了基础。行业里通常以这个时期作为大数据的诞生。那么,究竟什么是大数据呢?

大数据(Big Data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 

 ——百度百科

大数据(Big Data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。 

——数据观

以上是两个较权威平台对于大数据的定义。此外,吴军在其《智能时代》中也表达了对于大数据的理解:所谓的大数据,一定要同时满足大量、多维和完备(相对来说)的特点,并在此基础上,最好具有“时效性”。

大数据的解决方案

近年来,云(Cloud)的兴起又使得大数据技术对于中小企业唾手可得,大数据技术得到迅猛发展,经过多年的发展,每个领域都有一定的进展和沉淀,各种大数据解决方案也应运而生。

浅谈大数据(一)_第1张图片

大数据的技术体系介绍

· 分布式存储

分布式存储的典型代表是谷歌的GFS和Apache Hadoop的HDFS,均为支持多备份的Append-only文件系统。HDFS作为开源存储的奠基,其接口成为事实标准,同时HDFS又具备支持其他系统作为背后存储系统的插件化能力,本文以HDFS为例简要展开。

浅谈大数据(一)_第2张图片

HDFS分布式储存架构

HDFS(Hadoop Distributed FileSystem)是一种专门为MapReduce这类框架下的大规模分布式数据处理而设计的文件系统。可以把一个大数据集(100TB)在HDFS中存储为单个文件,提供高吞吐量的数据存取。

NameNode:HDFS 元数据管理者,管理NameSpace(文件系统命名空间),记录文件是如何分割成数据块以及他们分别存储在集群中的哪些数据节点上。

DataNode :文件系统的工作节点。根据客户端或者NameNode 发送的管理指令,负责HDFS 的数据块的读写和检索操作。

Secondary Namenode:主要功能就是周期性将元数据节点的命名空间镜像文件和修改日志合并,以防日志文件过大。

Client: 用户与NameNode 或者DataNode 交互来访问整个文件系统的对象。

因HDFS早期NameNode在扩展性和容灾方面存在短板,各个公司也在这个基础上自研存储系统, 按照高吞吐、低成本、容灾、高可用是核心方向持续优化,推进了分布式存储的演进。当下,分布式存储向多层智能化演进。如何智能/透明的将数据存储分层,找到成本与性能的Trade-off,是多层存储系统的关键挑战。这领域起步不久,开源领域没有显著好的产品,最好的水平由几个大厂的自研数仓存储系统引领。欢迎感兴趣的朋友一起探讨。

· 数据资产管理

大数据技术的不断更迭带来更多的数据生产,数据量级的提升又催化了数据资产管理工具的不断升级。数据资产管理主要包含以下几个方面:

浅谈大数据(一)_第3张图片

随着数据量的急剧攀升,也诞生一系列数据管理体系,数据仓库、数据湖、数据中台不绝于耳,它们之间到底有啥区别与关系呢?

数据仓库(Data Warehouse):是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化的(Time Variant)数据集合,用于支持管理决策和服务运营。数据仓库针对实时数据处理,非结构化数据处理能力较弱。

数据中台:通过对企业内外部多源异构的数据采集、治理、建模、分析和应用,使数据对内优化管理 提高业务价值 ,对外进行数据合作让业务价值得到释放,使之成为企业数据资产管理中枢。数据中台建立后,会形成数据API服务,为企业和客户提供高效各种数据服务。

数据湖(Data Lake):Pentaho的 CTO James Dixon提出来的,是一种数据存储理念——即在系统或存储库中以自然格式存储数据的方法。数据预先不进行定义,使用的时候按需定义。

关于数据仓库、数据中台以及数据湖的异同,可以通过如下表格简要对比:

对比

数据仓库

数据中台

数据湖

存储结构

面向主题

平面

平面

存储方式

结构化

结构化

非结构化

实施支持

一般不支持

支持

支持

预定义

需要

需要

不需要

安全性

一般

技术成熟度

成熟

成熟

不成熟

除了这三种近年来较火的数据管理规范,其特点及侧重点不尽相同,为了更好地发挥数据价值,未来数据管理趋于融合,同时也在不断创新。企业需根据自己的实际业务需求去选择哪种方案或融合方案。

数据的存储管理是大数据技术运用的核心和基础,本文暂且对数据存储及管理做简要阐述。下一期内容,我们将对数据应用分布式计算数据赋能推荐进一步分享。内容浅显,仅作抛砖引玉,希望和广大开发者共同探讨!

鼎道智联正在全力打造顾问式主动交互的操作系统,我们也真诚欢迎推荐算法工程师算法理论研究员大数据平台开发推荐策略产品经理等方面人才加入我们,一起建设Ding OS及鼎道生态。

简历投递邮箱:[email protected]

(投递请注明岗位名称)

还有更多热招职位,如

系统研发工程师

桌面研发工程师

高级视觉设计师

ISV合作拓展商务经理

快快加入我们,一起共建新生态!

浅谈大数据(一)_第4张图片


更多精彩内容推荐:

PWA能否成为未来?——探索构建面向未来的网络应用程序

浅谈大数据(一)

大数据,不只“懂数”,更要“懂行”

你可能感兴趣的:(big,data,hadoop,mapreduce)