《数据科学与大数据分析——数据的发现 分析 可视化与表示》一第2章 数据分析生命周期2.1 数据分析生命周期概述...

本节书摘来自异步社区《数据科学与大数据分析——数据的发现 分析 可视化与表示》一书中的第2章,第2.1节,作者【美】EMC Education Services(EMC教育服务团队),更多章节内容可以访问云栖社区“异步社区”公众号查看

第2章 数据分析生命周期

数据科学与大数据分析——数据的发现 分析 可视化与表示
关键概念

  • 发现
  • 数据准备
  • 模型规划
  • 模型构建
  • 沟通结果
  • 实施
     

不同于许多传统的商业智能项目和数据分析项目,数据科学项目本身带有很强的探索性。正是由于这种原因,我们有必要对数据科学项目进行标准但是不僵化的流程管理,以确保项目参与者能以严谨和周全的方式运行项目,同时不阻碍项目的探索性。

许多问题乍看起来很庞大复杂和令人气馁,但事实上可以被分解成一系列更易解决的小问题或者分阶段解决。拥有良好的流程可以确保分析方法的全面性和可重复使用性。此外,在流程的早期阶段应集中精力和时间去明确需要被解决的业务问题。

在数据科学项目初期急于收集和分析数据是一种常见的错误,这容易导致没有足够的时间来计划和仔细检查所需要的工作量,不能很好地理解业务需求,甚至无法正确地制定需要解决的业务问题。因此,项目参与者在项目进展到中期阶段可能会惊讶地发现自己采集的数据无法用于实现项目发起人实际要达成的目标,或者发现自己正在解决的问题并不是项目发起人真正感兴趣的。如果发生这种情况,该项目可能面临需要返回项目流程初期阶段重新开始的尴尬局面,甚至可能被取消。

通过创建和记录流程可以让项目变得更加严谨,并使得数据科学团队的项目产出的可信度变得更高。此外,一套明确的流程可以便于他人借鉴和采用,而其中的方法和分析可以在将来或者新成员加入团队时被重复利用。

2.1 数据分析生命周期概述

本章描述的数据分析生命周期是专门为大数据问题和数据科学项目而设计的。该数据分析生命周期可以分成6个阶段,而项目工作可能同时分处于其中的若干阶段。对于生命周期的大多数阶段,项目在它们之间的移动可以是正向的,也可以是反向的。也就是说,项目既可以从一个阶段进行到下一个阶段,也可能从一个阶段返回到上一个阶段。项目的正向或者反向移动伴随着新信息的出现和项目团队对项目的更多了解而发生,并且在实际中并不罕见。这种生命周期设计使得项目实践者可以进行反复迭代式的流程管理,并最终推动项目工作向前进行。

2.1.1 一个成功分析项目的关键角色

近年来,人们开始广泛关注数据科学家这种新的角色。2012年10月,哈佛商业评论报道了一篇标题为“Data Scientist: The Sexiest Job of the 21st Century”的文章,文中专家DJ·Patil和Tom Davenport介绍了数据科学家这种新的角色,以及如何找到和雇用数据科学家。此外,越来越多的每年举行的会议开始专注于数据科学领域的创新和大数据的相关主题。尽管数据科学家这一新角色备受关注,但是实际上一个高效的数据科学团队需要拥有7种关键的角色才能成功地运行分析项目。

图2.1描述了一个分析项目中的各种角色和关键利益相关者,他们在成功的分析项目中各自扮演着重要的角色。虽然这里列举了7种角色,但是项目最终需要多少人员,完全取决于项目的范围、组织结构以及参与者的具体技能。例如,在一个小型的多功能团队中,可能只需要3个人就能够履行7种角色。但是在一个大型的项目中,就可能需要20个以上人员参与到项目中。下面是7种角色的具体定义。


《数据科学与大数据分析——数据的发现 分析 可视化与表示》一第2章 数据分析生命周期2.1 数据分析生命周期概述..._第1张图片
  • 业务用户:该角色对业务领域非常了解,并且通常会从分析结果中受益。他可以就项目的背景、成果的价值,以及项目成果如何实施向项目团队提供咨询和建议。通常情况下,由业务分析师、直线经理(line manager)或者-
    项目领域的资深领域专家担任这种角色。
  • 项目发起人:该角色负责项目的发起工作。他会为项目提供动力和要求,并定义核心业务问题。通常情况下,该角色会为项目提供资金,设置项目事项的优先级,然后明确项目预期结果,最后评估项目团队最终成果的价值。
  • 项目经理:该角色负责项目进度和质量,确保项目达到预期目标。
  • 商业智能分析师:该角色以报表的视角,基于对数据、关键绩效指标(KPI)、关键业务指标以及商业智能的深入理解来提供业务领域的专业知识和技能。他通常负责创建仪表板和报告,并了解数据更新源(data feed)和来源(source)。
    数据库管理员(DBA):该角色负责提供和配置数据库环境,以支持工作团队的分析需求。他的工作职责包括提供对关键数据库或者表格的访问,并确保数据资源库已被关联相应的安全级别。
  • 数据工程师:该角色需要拥有深厚的技术功底,以便进行数据管理和数据提取时的SQL查询优化,并负责将数据导入到第1章中提及的分析沙箱中去。分析使用的数据库由数据库管理员(DBA)负责安装和配置,而数据工程师则负责执行具体的数据提取工作以及大量的数据操作来协助分析工作。他会和数据科学家紧密合作,确保以正确的方式生成用作分析的数据。
  • 数据科学家:该角色在分析技术、数据建模以及针对给定的业务问题选取有效的分析技术方面提供专业知识和技能。他使用项目的可用数据来设计和执行分析方案,确保整体分析目标能够实现。

虽然上述大多数的角色并不是新出现的,但是随着大数据的发展,最后两种角色(数据工程师和数据科学家)正在变得越来越流行和供不应求[2]。

2.1.2 数据分析生命周期的背景和概述

数据分析生命周期定义了从项目开始到项目结束整个分析流程的最佳实践,它脱胎于数据分析和决策科学领域中的成熟方法,并建立在广泛收集了数据科学家的反馈并且参考了其他成熟流程的基础上。以下是几种被参考的流程。

  • Scientific method[3],一种已经使用了几百年的关于思考和解构问题的可靠方法框架。其中最有价值的理念之一是先形成假设,然后找到方法进行测试。
  • CRISP-DM[4]是一种流行的数据挖掘方法,为如何设定分析问题提供了有用参考。
  • Tom Davenport的DELTA框架[5]:该框架提供了一种用于数据分析项目的方法,其中涉及组织技能、数据集以及领导者的参与。
  • Doug Hubbard的应用信息经济学(Applied Information Economics,AIE)方法[6]:AIE提供了一种衡量无形资产的方法,还在开发决策模型、校正专家预测,以及获得信息预期价值等方面提供了指导。
  • “MAD技能”[7]为数据分析生命周期中专注模型建立、执行和关键发现的第2到第4阶段所涉及的若干技术提供了参考。
    图2.2概述了数据分析生命周期的6个阶段。项目团队在某一阶段学到的新东西常常促使他们重返生命周期中更早的阶段,并基于新发现的见解和知识进一步改进工作。因此,在图2.2中这6个阶段形成一个循环,箭头代表了项目在相邻阶段之间可能的反复迭代,而最大的环形箭头则代表了项目最终的前进方向。图中还包括了一些问题示例,以帮助确认每位团队成员是否获得足够信息,以及是否取得足够进展支持进入下一个阶段。需要注意的是,这些阶段的定义并非是对项目流程的硬性规定,而是旨在为项目能否适时向前进提供衡量标准。

下面是数据分析生命周期几个主要阶段的简单概述。

  • 第1阶段——发现:在这个阶段,团队成员需要学习业务领域的相关知识,其中包括项目的相关历史。比如,可以了解该组织或者业务单位以前是否进行过类似项目,能否借鉴相关经验。团队还需要评估可以用于项目实施的人员、技术、时间和数据。在这个阶段,重点要把业务问题转化为分析挑战以待在后续阶段解决,并且制定初始假设用于测试和开始学习数据。
  • 第2阶段——数据准备:第2阶段需要准备好分析沙盘,以便团队在项目过程中进行使用数据和进行数据分析。团队需要执行提取、加载和转换(ELT)或者提取、转换和加载(ETL)来将数据导入沙盘。ELT和ETL有时被缩写为ETLT。数据应在ETLT过程中被转换成可以被团队使用和分析的格式。在这个阶段,分析团队需要彻底熟悉数据,并且逐步治理数据(第2.3.4节)。


《数据科学与大数据分析——数据的发现 分析 可视化与表示》一第2章 数据分析生命周期2.1 数据分析生命周期概述..._第2张图片
  • 第3阶段——规划模型:在该阶段,团队需要确定在后续模型构建阶段所采用的方法、技术和工作流程。团队会探索数据以了解变量之间的关系,然后挑选关键变量和最合适的模型。
  • 第4阶段——建立模型:在第4阶段,团队创建用于测试、培训和生产的数据集。此外,团队在这个阶段构建并运行由上阶段确定的模型。团队还需要考虑现有的工具是否能够满足模型的运行需求,还是需要一个更强大的模型和工作流的运行环境(例如,更快的硬件和并行处理)。
  • 第5阶段——沟通结果:在第5阶段,团队需要与主要利益相关人进行合作,以第1阶段制定的标准来判断项目结果是成功还是失败。团队应该鉴别关键的发现,量化其商业价值,并以适当的方式总结发现并传达给利益相关人。
  • 第6阶段——实施:在第6阶段,团队应该提交最终报告、简报、代码和技术文档。此外,团队可以在生产环境中实施一个试点项目来应用模型。
    在团队成员运行模型并产生结果后,根据受众采取相应的方式阐述成果非常关键。此外,阐述成果时展示其清晰价值也非常关键。如果团队进行了精确的技术分析,但是没有将成果转换成可以与受众产生共鸣的表达,那么人们将看不到成果的真实价值,也将浪费许多项目中投入的时间和精力。

这一章接下来的篇幅做如下安排。2.2节到2.7节将一一详述数据分析生命周期的6个阶段,2.8节将讨论一个将数据分析生命周期应用于实际数据科学项目的案例。

你可能感兴趣的:(《数据科学与大数据分析——数据的发现 分析 可视化与表示》一第2章 数据分析生命周期2.1 数据分析生命周期概述...)