大数据平台架构与原型实现-读书笔记1

第一章 企业与数据

       “用数据说话”是很多企业管理者的信条,从数据中发掘价值并不是一件简单的事情,单一而离散的数据不能作为需要论断的依据,只有在大体量、多维度的数据上进行数据分析才能得到准确可靠的结论。

  • 首先,企业需要拥有全面和多样的信息系统来支撑自己的业务运营,只有建立了这些业务系统才能产生并沉淀出丰富的数据。
  • 接下来,企业需要集成这些离散的业务系统,将各类数据采集到一个中心化的平台上,统一存储和管理企业的所有数据。
  • 基于这个平台,技术和业务人员可进行深入而广泛的洞察分析,发掘数据背后的价值,甚至可对未来做出预测,并给到管理者,管理者可将其作为决策的重要依据。

一、数据的价值

       数据是企业的重要资产,但数据的价值是通过赋能业务体现的。

1.1 提升企业决策力

       数据和决策在企业中是一个良性的互动过程。

  • 一方面,随着企业数据体量的不断增长和数据种类的多元化,数据反映企业真实情况的深度和广度都在提升,这使得数据分析的准确性和可靠性也在不断提升。
  • 在某些领域,大数据的技术变革还将颠覆过去传统的决策方式,将人的主观因素提出,完全通过技术和数据进行理性客观的决策。

1.2 个性化推荐与精准营销

       企业要想有好的概念和创意,首先需要搜集消费者的信息,了解他们的喜好和诉求,然后用创新的方式解构消费者额生活方式,剖析消费者的生活状态,这样才能挖掘出隐藏于背后的真正需求。在大数据时代,个性化推荐与精准营销将得到质的提升,客群划分将会粒度更细、维度更多、精度更准,而消费者的触达也从过去粗放的“大水漫灌”转向“千人前面”为代表的精准营销。

1.3 创新管理模式

       创新新的数据和数字化部门,通过职责与资源的重新分配,使得这些部门从过去的成本中心逐渐向利润中心转变。

1.4 提升运营效率

       大数据在优化业务流程、降低运营成本和控制运营风险等诸多方面都发挥着巨大的作用,对于数据的分析和利用可以极大地帮助企业在各个方面保持竞争优势,使得它们更容易达到行业顶端。数据驱动已成为现代化企业的一项重要能力和标志性特征,数据正在也必将成为未来企业的核心竞争力之一。

二、企业的数据应用能力

       企业的数据应用能力是通过技术、业务和人才的相互作用发挥出来的。企业数据应用成熟度模型如下:

大数据平台架构与原型实现-读书笔记1_第1张图片

2.1 第一层级:数据流程自动化

       数据从产生的源头到使用的末端是自动化的,中间没有人工操作,全部通过系统集成实现。没有建立起有效的自动化流程的数据有以下特点:

  • 格式不规范;
  • 经常变动;
  • 缺乏基本的校验,容易出现错误数据;
  • 数据供给周期不固定

       企业实现高度的数据流程自动化需要做好如下两点:

  • 持续推进企业信息化改造和升级,将IT系统覆盖到企业的全部业务流程中;
  • 从企业管理层开始建立“数据资产”意识,成立专门的数据治理组织,有计划地规范和治理企业的数据生态,对于重要的数据要制定标准格式,针对格式变更要制定审批流程和协调机制。

2.2 第二层级:报表与数据可视化

       数据的展示形式多以表格为主,同时会借助BI工具展示一些图形表格,这一层级的企业对于数据处理和分析表现出如下特征:

  • 基本完成了与各个业务系统对接,数据能被自动化采集;
  • 已经建立了数仓体系,企业数据可被有效地统一管理;
  • 已经开发了业务上迫切需要的一些核心报表,业务对数据 系统的依赖度高;
  • 依托于成熟的后台数仓,新的报表和数据展示需求都可较快地完成开发并投入使用。

       第二层级是很多企业目前停留的阶段,因为很多企业在这一层级上遇到了“瓶颈”,主要原因如下:

  • 传统的单体数仓系统缺乏水平伸缩能力,已无力应对企业数据爆炸式增长,不得不放弃和暂缓集成某些新业务数据的计划;
  • 传统数仓智能处理关系型数据,对于图片、视频和其他非关系型数据无能为力,而这些数据往往由新业务形态产生,对这类数据处理能力的缺失会让企业错失新的市场机遇;
  • 传统数仓只能进行批处理,缺乏实时数据处理能力。

       如企业向突破这些瓶颈,需要将数据平台升级为以大数据和AI为核心技术的新一代数据平台,然后重建数据版图。

2.3 第三层级:数据与业务融合

       数据及数据处理能力会全面参与到业务流程的各个环节中,从而产生更大价值,这一层级企业具备如下能力:

  • 数据直接赋能业务,数据分析结果将直接反馈回业务系统,作为业务系统某些关键操作的输入;
  • 已将多维度数据进行融合,可更加准确地刻画数据背后的“事实”;
  • 已具备实时的数据处理能力,可让业务用户实时掌握数据;
  • 大数据平台已经成熟且稳定;
  • 已经出现基于传统的机器学习和数据挖掘的应用,在某些局部领域已经出现小范围的深度学习案例。

2.4 第四层级:深度洞察与预测

       深度洞察与预测是数据金字塔最顶端的价值输出,也是目前我们认为企业可以达到的最高级的数据应用能力,即运用AI和深度学习算法对数据进行深度洞察,揭示传统分析方法无法发现的数据特征,并基于下游数据对未来趋势进行预测。

       相关概念区分

  • 机器学习:可简单解释为使用一些算法从数据中分析出某种规律,然后利用这一规律对未知数据进行预测,所以机器学习不是手动编写某种程序去完成一个任务,而是使用大量数据和算法来“训练”机器,让机器通过“学习”具备执行某项任务的能力。
  • 数据挖掘:用到的算法基本都是机器学习算法,但数据挖掘更加侧重于对算法的应用而不是算法本身。
  • 深度学习:通过计算机来模拟或实现人类的学习行为,以获取新的知识和技能,重组已有知识结构,不断改善自身性能;深度学习是无监督的特征学习。
  • 人工智能:是一个较为宽泛的概念,一般认为人工智能包含机器学习,机器学习包含了深度学习。

2.5 决策支持与业务创新

       决策支持与业务创新既是企业构建数据平台进行数据分析的价值导向,也是企业数据应用能力持续输出的效果。

三、企业的数据技术成熟度

大数据平台架构与原型实现-读书笔记1_第2张图片

3.1 IT基础设施

       IT基础设施是前置条件,构建基础设施包括硬件机器的安装、组网和调试、操作系统和必要软件工具的安装,在硬件资源之上安装和维护一个大数据集群,该集群负责承载企业全部数据存储和处理任务。

3.2 数据采集/存储/标准化(数仓建设)

       该阶段需要将分布在各个业务系统里的数据收集起来,在进行一些必要的规范化处理之后,存储在一个统一的大数据平台上,这是一个长期迭代过程。

3.3 实时处理、AI/机器学习

  • 实时处理:通过流失计算、NoSql数据库等技术实现大体量数据的实时处理,由于实时处理对技术和研发人员的要求更高,所以大多数企业会先完善平台的批处理能力,再逐步拓展实时处理领域。
  • AI/机器学习方面建设,需要引入数据科学家、算法工程师等AI领域人才。

3.4 数据产品

       以业务领域为划分依据,将现有各个层级上的技术能力进行提炼并培育成“数据产品”,从功能、性能、灵活性和可扩展性等多维度提升数据平台的技术成熟度。

3.5 数据服务

       数据服务是指将数据平台上的各种数据以服务的方式(Restful API、JDBC、ODBC、FTP)提供给其他系统,这是将数据应用能力辐射到企业的各个系统与业务领域上的关键一步。

3.6 数据治理

       数据治理是一项长期的持续性工作,数据治理就是对企业的数据资产进行清洗的苏丽,明确管理职责,建立配套的标准规范。同时要确保所有策略和规范都能落地执行,数据治理的最终目标是保证数据质量。

你可能感兴趣的:(数据平台架构,大数据平台)