数据湖

数据湖

“数据湖”一词最近成为大数据行业的一个重要术语。数据科学家可以利用它来获得有意义的见解,企业可以使用它来重新定义或改变其运作方式。Lambda架构也正在成为大数据领域中非常杰出的模式之一,因为它不仅有助于从历史数据中获取有用信息,还可以关联实时数据,使业务部门能够做出关键决策。

数据湖是一套非常灵活、松散耦合的架构方法,它将大数据处理划分为数据获取层、消息层、数据捏取层、数据存储层、Lambda层(批处理层,服务层,和加速层),这些模块之间既相互独立,又相互关联。在每个模块中可根据业务需求选择最合适的技术框架。数据湖能有效处理复杂的多源异构数据。Lambda架构则是数据湖的灵魂,它为响应客户端的批处理、快速处理请求提供了一致的接口。总而言之,数据湖及Lambda架构能完美满足大数据4V(Variety,Velocity,Volume,Veracity)的弹性要求,越来越受企业的青睐。

数据湖是一个存储企业的各种各样的原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。数据湖从企业的多个数据源获取原始数据,并且针对不同的目的,同一份原始数据还可能有多重满足特定内部模型格式的数据副本。因此,数据湖中被处理的数据可能是任意类型的信息,从结构化数据到完全非结构化数据。企业对数据湖寄予厚望,希望它能帮助用户快速获取有用信息,并能将这些信息用于数据分析和机器学习算法,以获得与企业运行相关的洞察力。

数据湖与企业的关系

能给企业带来多种能力。列如,能实现数据的集中式管理,在此之上,企业能挖掘出很多之前所不具备的能力。另外,数据湖结合先进的数据科学与机器学习技术,能帮助企业构建更多优化后的运营模型,也能为企业提供其他能力,如预测分析、推荐模型等。

数据湖的优点

企业会在其多个业务系统中产生海量数据,随着企业体量增大,企业也需要更智能地处理这些横跨多个系统的数据。一种最基本的策略是采用一个单独的领域模型,他能精准的描述数据并能代表对总体业务最有价值的那部分数据。这些数据指的是前面提到的企业数据。对企业数据进行了良好定义的企业当然也有一些管理数据的方法,因此企业数据定义的更改能保持一致性,企业内部也很清楚系统是如何共享这些信息的。在这种案例中系统被分为数据拥有者以及数据消费者。对于企业数据来说,需要有对应的拥有者,拥有者定义了数据如何被其他消费系统获取,消费系统扮演者消费者的角色。一旦企业有了对数据和系统的明晰定义,就可以通过该机制利用大量的企业信息,该机制的一种常见实现策略是通过构建企业级数据湖来提供统一的企业数据模型,在该机制中,数据湖负责捕获数据、处理数据、分析数据,以及为消费者系统提供数据服务。

数据湖能从以下几点帮助到企业:

  • 实现数据治理与数据世系。
  • 通过应用机器学习与人工智能技术实现商业智能。
  • 预测分析,如领域特定的推荐系统引擎。
  • 信息追踪与一致性保障。
  • 根据对历史的分析生成心的数据维度。
  • 有一个集中式的能存储所有企业数据的数据中心,有利于实现一个针对数据传输优化的数据服务。
  • 帮助组织或企业做出更多灵活的关于企业增长的决策。

数据湖跟数据仓库的区别:

1、数据湖:能处理所有类型的数据,如结构化数据,非结构化数据、半结构化数据等,数据的类型依赖于数据源系统的原始数据格式。数据仓库:只能对结构化数据进行处理,而且这些数据必须与数据仓库事先定义的模型吻合。
2、数据湖:拥有足够强的计算能力用于处理和分析所有类型的数据,分析后的数据会被存储起来供用户使用。数据仓库:处理结构化数据,将他们或者转换为多维数据,或者转换为报表,以满足后续的高级报表以及数据分析需求。
3、数据湖:数据湖通常包含更多的相关信息,这些信息被访问的概率很高,并且能够为企业挖掘新的运营需求。数据仓库:数据仓库通常用于存储和维护长期数据,因此数据可以按需访问。

数据导论

探索数据

数据是指一组定性或定量变量的值。
数据可以被测量、收集、报告和分析,然后可以使用图形、图像和其他分析工具进行可视化。一般意义上,数据指的是现有的信息活知识,并以一种适合使用或处理的方式进行表示和编码。

数据大致分为3种类型:

  • 结构化数据(structured data)指的是我们通常在业务应用程序中获取的,在关系型数据库管理系统中或者以非关系型数据库的形式存储的数据。大致分为两类,原始数据(raw data以原样获取的,没有经过清洗和过滤的数据)跟清洁数据(cleansed data经过大量清洗和过滤来适配业务用户的分析需求的数据)。
  • 非结构化数据(unstructured data),所有不属于结构化数据类型的数据都称为非架构化数据,视频、图片、等形式的数据。
  • 半结构化数据(semi-structured data),被称为自描述结构,例如Json跟Xml。

企业数据

企业数据指的是企业内部员工及其合作伙伴跨越不同部门、不同地点而共享,跨越不同大洲而传播的数据。这些数据对企业具有很高的价值,包括财务数据、业务数据、员工个人数据等,企业花费了大量时间和金钱来保证数据在各方面的安全和质量。然而,所谓的企业数据从当前状态变得日渐陈旧,虽然以某种形式进行存储,但是难以进行分析和检索。这些数据有着重大的意义,企业需要有一个专门的地方来分析它,以挖掘各种潜在的商机。

企业数据主要分为3大类:

  • 主数据(master data)指的是详细描述企业内部主要实体的数据。通过观察主数据可以连接企业涉及的业务。这些数据通常由不同部门管理和掌握。
  • 事务数据(transaction data)指的是各种应用程序(内部/外部)在处理企业内的各种业务流程时产生的数据,事务数据也包括人员相关的数据,虽然某些时候并不属于业务数据,但这部分数据也非常重要,分析这部分数据,可以帮助企业优化业务,这些数据也依赖于主数据,并经常引用主数据。
  • 分析数据(analytic data)指的是源于前两类数据的数据,这部分数据是对企业中的各种实体(主数据)的深入分析,同时结合事务数据,为企业提供积极的建议,经过必要的调研之后,这些建议可以被企业采纳。

大数据的相关概念

大数据通常指的是应用预测分析,用户行为分析或者从某些其他从数据中提取有价值信息的高级数据分析方法,并不是专指某种特定规模的数据集。

大数据4V:

  • 多样性(数据类型)结构化、飞结构化、半结构化、二进制、文本等
  • 处理速度(处理速度)流式数据、批量数据、定期、响应时间等
  • 数据量(数据量)TB、PB、EB等
  • 精确性(数据的准确性)不一致、不完整、歧义、不确定、有偏差、异常值等

数据质量

高质量的数据(清洁数据)是一个企业不可或缺的重要资产,反过来,如果基于低质量的数据来进行决策,反而会损害企业的利益和品牌价值,而品牌价值一旦流失就难以恢复。一般来说,如果数据有不一致、重复、歧义喝不完整的情形,数据的可用性就下降了,如果对这些数据进行分析时体验不佳,业务用户就不会再考虑使用该数据了,这个时候才意识到4V(精准性)的重要性。数据质量是基于对数据的评估,来确定他是否与预想的应用场景相匹配,数据质量的评测基于多个维度的属性(准确性、完整性、一致性、时效性、元数据、数据世系)。

企业中的数据如何存放

企业数据以原始数据格式、二进制文件(图片、视频)等形式存储,存放的位置可以是各种内部应用程序的持久化存储,也可以存放到外部的私有云或公有云平台中。首先,需要对数据类型进行划分。

数据存放位置如下:

内联网(企业内部)
外联网(企业外部)

数据存储格式划分如下:

持久化存储引擎(RDBMS、NOSQL)
传统的数据仓库(基于RDBMS、NOSQL等)
文件存储

企业数据当前的现状

传统DW(Date Warehouse)/BI(Business Intelligence):
使用ETL从生产业务应用程序传输的精炼/清理数据。
早于某一时期的数据将已经转移到难以检索的存储器,例如磁带存储器。

缺陷如下:

DW中存在清洁格式的生产数据子集; 对于DW中的任何新元素,必须付出努力
数据的子集再次位于DW中,其余数据将转移到永久存储
通常,分析非常缓慢,并且它再次进行优化以执行查询,这些查询在某种程度上已定义

孤岛大数据:

有些部门会采取正确的步骤来构建大数据。但是,部门通常不会相互协作,这些大数据会变得孤立,并且不会为企业提供真正大数据的价值。

不足之处下:

由于其孤立的性质,分析师再次受到约束,无法在部门之间混合和匹配数据。
将花费大量资金来建立和维护/管理这一点,并且通常在一段时间内是不可持续的。
无数的非连接应用程序:
在场所和云上有大量的应用程序。
除了搅拌结构化数据之外的应用程序也会产生非结构化数据。

企业数字化转型

数字转型( DX)是一个行业流行语,是一个非常强大的倡议,每个企业都在不经过深思熟虑。顾名思义,它指的是将信息技术转型为企业核心支柱之一。投资技术肯定会成为这一举措的一部分,但数据是实现所谓转型的关键方面之一。
近年来,企业越来越多地了解数据及其分析的重要性,这无疑使每个企业都开箱即用; 这项举措是在中心建立数据的一种方式。
作为业务转型的一部分,企业绝对应该将数据湖作为核心投资之一,每个部门都同意分享他们的数据流入这个数据湖,没有太多的偏见或自豪。

转型目标距离:

能够细分客户并为他们提供个性化产品。在适当的时间将活动定位到合适的人。
引入更多技术并减少手工工作,基本上将企业中的许多方面数字化。
使用社交信息与企业数据联合起来做出一些重要决策。
以更加量化的方式预测未来并采取必要的步骤,并相应地提前做好准备。
以全球商业技术为重要载体。

你可能感兴趣的:(Big,Data)