本节书摘来异步社区《数据分析变革:大数据时代精准决策之道》一书中的第1章,第1.2节,作者: 【美】Bill Franks(比尔•弗兰克斯)译者: 张建辉 , 车皓阳 , 刘静如 , 范欢动 责编: 杨海玲,更多章节内容可以访问云栖社区“异步社区”公众号查看。
分析的演化可见诸于国际分析研究所(International Institute for Analytics,IIA)及其研究总监Tom Davenport创建的分析3.0框架[2]。我本人在IIA的一个分部并有幸在分析3.0框架开发时参与了早期讨论。我们接下来详细了解一下分析3.0这一概念,这有助于从更广阔的视角去看待运营型分析的演化。只有了解了过去数年来世界发生了哪些变化,我们才能更容易理解为何运营型分析即将成为主流。
分析1.0的时代包含了企业多年来所做的一切有关分析的事情。我之所以用过去时表达分析1.0时代,是因为如果企业还没有做过这些事情,那需要将其置于后视镜上随时参考。如图1-1所示,分析1.0时代非常侧重于描述性统计以及报表,并附带少量预测性分析。而规范性分析根本与之不在一个层次。谈到分析1.0世界的数据,基本毫无例外地来自企业内部,并有良好的结构。这些数据包括企业获得的事务性数据、来自企业资源计划(ERP)系统中的信息等。现在的数据不可思议地变大,并且难于及时处理,按照现在的标准那时的数据相对较小并易于处理。数据在可以使用之前,须经IT(信息技术)部门收集和存储。不幸的是,在分析1.0时代,IT企业并没有在使数据可以用来分析上花多少时间。这限制了分析可能的广度和深度,以及影响力。
还有更糟糕的。当数据摆在专业分析人员的面前时,在开展分析之前还有很多准备工作要做。这是因为在合作系统中存储的数据很少具备可用于分析的格式。构建一个分析过程需要对数据源进行各种转换、聚合、拼接等,这延长了从IT部门产生数据到得到结论所需的时间。所以说,在分析1.0时代,大部分时间花在了使数据可用而不是分析上面。
从文化的角度看,创建分析过程的专业分析人员退居了幕后。在大多数情况下,他们从业务和IT部门分离出来,被看作随时能带来有趣观点的科学家。专业分析人员自成体系而非任何团队的核心部分。第 8 章将对此进行进一步的讨论。几乎创建的所有过程都辅助了内部决策。产品的客户或用户对幕后分析即使偶尔知晓,也是微不足道的。
企业必须快速跨越分析1.0时代
分析1.0时代已经发挥了很多年的作用。然而,在今天的商业环境中,有必要超越分析1.0,增加更多的能力和不同的方法,让分析1.0成为过去。
传统技术,比如商业智能和报表工具,被用来创建各种报表、仪表盘以及警示。但是,即使简单的报表创建起来也并非易事。创建报表需要人们在集中的商业智能团队收集用户需求,配置报表并且显示。这一过程漫长而僵化,只有极少用户能够创建自己的报表。虽然分析1.0时代也有少量预测性分析,但是绝大部分还是描述性分析和报表。
一个不同的观点认为,没有必要加快报表制作与分析的过程,因为业务终究不能做出更快的反应。在我的早期工作中,有一次,需要构建一个支持直达邮件策略的模型,我们需要用到三四周之前的数据来确定哪个房主该取哪个邮件。我们要把列出的清单发送到邮局,两周后邮件得以打印并邮寄,邮件被打印并投递到信箱后,投递到客户的信箱还需要一周。这就意味着,在我们分析之后到对客户以及业务产生影响前,有大概6周,有时甚至8~10周的延迟。快速执行分析并没有什么帮助,这是因为邮递按照固定月度计划进行,而清单按照周期计划进行。由此不难看出为何在此种环境下许多分析过程并未充分发挥其潜力。
21世纪初期,分析2.0时代开始,并带领我们走进大数据的世界。[3]大数据的创新性体现在多个方面。其面对的数据比分析1.0时代更复杂,体量更庞大,且并不具备像分析1.0时代使用的数据那样有足够的结构化程度。大数据的来源包括文档、照片、视频以及传感器数据等一切数据。很多用于分析的数据,如社交媒体数据,对企业来说来自外部。尽管来自外部,但其数据价值并不受影响。
在现今的分析2.0时代,如图1-2所示,我们仍然需要新的分析技术和计算能力来处理所需的各种分析过程。Hadoop(后续讨论)等技术从陌生到为大家熟知,且当下的分析过程已经考虑采用该技术。分析2.0时代的主要关注点是获得廉价的以原始格式收集和存储数据的手段,然后再考虑如何利用。
最近出现的一个明显的趋势是,用来描述专业分析人员如何分析大数据的术语“数据科学”以及描述进行分析的专家的术语“数据科学家”的出现。数据科学家与传统的专业分析人员的一个主要差异是用于分析的工具和平台不同。大公司的传统的专业分析人员倾向于使用SAS和SQL等工具分析来自关系数据库环境下的数据,而数据科学家则倾向于在Hadoop环境下采用R和Python分析数据。然而,这些差异是局部性的,更多体现的是语义上的差异。任何人只要擅长上述环境之一便可轻易转型到另一环境。尽管贴了不同的标签,但这些专业分析人员所需的基本技能和知识储备其实是不同的。第8章将进一步讨论。
在分析2.0时代,专业分析人员在企业中要么演变为决策层的一员,要么对决策层有着直接的影响力。专业分析人员不再是完全独立于业务群体的幕后资源。
本章后面我们可以看到,许多企业,尤其是在线公司和电子商务公司,已经着手仅基于数据和分析来开发赚钱的产品。线上公司是率先做起来的,也是首先进入分析2.0时代的。一个最熟悉的案例是LinkedIn,其开发的产品类似于“你可能认识的人”和“你可能喜欢的群”。上述基于分析的产品把收集到的信息作为管理与维护用户账号的一个环节,并产生用户可能在多种情形下会为之付费的新信息。
分析2.0有一个有悖直觉的方面就是不够先进。这是由于数据规模和复杂度造成将数据转换为适合分析的格式具有挑战性。而且它还要处理处于成熟度曲线早期的数据源,分析工具集也缺乏分析数据所需的成熟度。抛开一切炒作,分析 2.0时代仍然有大量的报表和描述性分析,而预测性分析和规范性分析还相对较少。
只有分析2.0还不够
分析2.0时代把大数据和全新的分析机会推到前沿。然而,对于不同的人、数据和工具,只关注大数据的分析是没有意义的。分析过程必须涵盖所有数据和所有分析需求。这正是分析2.0并不是终点的原因。
分析2.0时代出现的一个误解来自于分析2.0时代的许多专家并未经历过分析1.0时代。许多分析2.0专家具有计算机科学背景,并且以技术手段而非分析手段进入分析殿堂。在分析2.0时代,某些新的分析人员有时并不了完全解分析1.0时代发生的大规模业务变革。这些专家会认为他们所用的所有有关分析的概念与方法都是全新的。有时这是对的,但大多数情况下则不然。我们来看一个例子来证明这一点。
我在一个会议上看过一个年轻人的精彩发言。我不披露他的姓名和所在公司,因为我们的目的不是让人难堪,而只是想探讨他发言中的逻辑缺陷。在发言中,他论述了他和他的团队为他们公司的电子商务网站创建各种分析过程的理由,其逻辑和方法听起来几乎无懈可击。看上去,创作团队正在有条不紊地按照正确的计划进行。比如,亲密度分析和协同过滤,基于客户先前的购买和浏览经历来判断其可能对什么样的额外产品感兴趣。这种类型的分析正是传统零售商多年来已经在采用的手段。
其发言的错误之处在于,他说在大数据和某些新技术到来之前,亲密度分析没有可能。他确信这些通用算法的实际应用是具有开创性的,究其原因是其未曾感受到传统零售行业在过去数年中发生的变化。亲密度分析也并非创新,事实上只是对他来说是新的(其他人也莫不如此)。他只是未曾经历过去的变化而已。尽管围绕大数据存在各种炒作,其实不难做出假设,如果不能从经验中获取更多知识,过去也就从未发生过有趣的变化。但是,这种知识的缺乏导致把很多时间花在重建已经存在的解决方案上,这对于高效利用时间来说可不是好事。
在分析2.0时代,必将从学习并借用分析1.0时代的成果中受益匪浅。为了成果最大化,一个企业需要综合分析1.0时代和分析2.0时代的精髓,并在此基础上向前推进。由此,我们进入分析3.0时代。
分析3.0时代聚焦于演进,而非替代。就像分析2.0并未取代分析1.0那样,分析3.0也并未取代其他两者。分析3.0时代把前两个时代所掌握的一切成果组合到一个整体框架中,如图1-3所示。它对传统数据采用传统分析,而对大数据采用大数据分析。当一个企业开始使用大数据时会发现,把大数据分析作为一个完全独立的功能是行不通的。大数据仅仅是数据量更大,需要对数据做的分析更多,它不得不与其他技术结合。分析3.0时代标志着新的、集成的、演进的分析范型的到来。在2014年年初我们进入了分析3.0时代。运营型分析正是这种趋势的自然成长。
分析3.0时代重新聚焦的一个概念是探索过程的重要性。探索过程的目标在于从数据中获得新的观点,以及可能由此观点推导出的行为、产品和服务。对很多企业来说,完全认识到探索过程的潜力需要实质性的文化演进。分析必须作为企业战略的核心组成部分。分析地位的日益提高需要从高层来推动与操作。同时,改变分析平台与过程建立的方式也是必需的。我们会在本书的后续章节中讨论探索过程,并理解其实施所需要的变化。
数据类型以及数据源的变化和创新是分析3.0时代的又一巨大挑战,同时也带来了大量的新的创新性的分析。新型分析方法将是分析3.0时代决定性的特征。数据的强大和处理的可扩展性将最终推动企业广泛应用预测性分析和规范性分析。尽管在分析3.0时代,仍然有对描述性分析和报表的需求,而企业最终会把嵌入和运营型分析之梦付诸实现。分析的嵌入不仅限于集中化、大规模的企业系统,还包括向终端用户部署的运营型应用,如移动设备、ATM和kiosks。
向分析3.0演进
分析3.0时代是分析的最新演进。它不仅综合了分析1.0时代和分析2.0时代的优势,而且演进到了新的高度。
分析3.0所需的新架构会给企业带来额外的复杂性。分析3.0不仅需要关系数据库环境下的并行处理,还需要Hadoop环境下的并行文件处理。同时,还需要在内存环境下混合一些图形处理单元等。这些将在第5章讨论。
对于我,一个具有专业分析人员背景的人来说,分析3.0时代最激动人心的一个方面是,专业分析人员最终成为正规企业中对于业务如何开展富有价值的一类人。这一团队将由一位首席分析官领导,至少是负责统筹所有企业分析的副总裁级别的分析专家。首席数据官的职位也会变得很普遍。我们将在第8章深入探讨这些角色。分析3.0时代对专业分析人员来说是一个尤为令人兴奋的新世界。
我们来考虑一项许多大银行和电信公司正在采用的分析。本项分析对有销户倾向的客户行为进行判断,是一种展示在分析3.0时代运营型分析过程如何发挥作用的案例。需要指出的是异动预测或者客户流失分析并不是新课题,其创新性体现在扩展分析以及当今使用的客户流失分析的应用。
作为客户流失分析过程的一部分,收集与销户行为紧密相关的数据是必要的。这将包含传统数据源和大数据源,比如收支明细、投诉、从各种渠道获得的降低手续费的要求、一个时间段内资产负债表的变化、社交媒体报道等。
长期以来,客户流失分析已经演进为查找行为组合的特定模式,这是因为行为组合比单一行为更具危险性。这一般称作路径分析。换句话说,如果一个客户在线看到对账单,首次了解手续费后请求取消手续费,这可能不是件麻烦事。但是,如果客户通过致电客户服务渠道再次要求取消手续费,并且接下来又要致电分支机构,那么对客户的忽视就会加大其销户的风险。
构造一个分析流程来标记行为的重要路径,其中涉及很多复杂的工作。客户有可能在任意时间通过各种渠道接触银行,可能通过呼叫中心、分支机构、Web在线交流或者电子邮件。银行需要了解已经发生了哪些事,以便采取正确的响应措施。创建这样一个运营型分析过程要求针对每位客户,在每次交互行为之后更新对其行为的推荐。一旦已经有过一次有关降低手续费的咨询,而且给与了接受或拒绝的明确答复,这一新信息必须立即反馈到计算环节,才能在下次与客户交互时确定采取何种恰当的响应方式。本案例中,如果不创建运营型分析流程则会带来麻烦。我们来看看为什么。
很容易造成决策太迟
运营型分析使组织能够在任意时刻做出最好的决策。基于过期的数据进行分析,哪怕只是晚几分钟,即使做出的决策不是绝对错误的,那也不是最优的。
当我要求取消手续费后,银行连夜以批处理方式执行分析,结果会怎么样呢?银行了解到,那一天我通过邮件要求过取消手续费并遭到拒绝。分析系统判断此项拒绝并不会增加我销户的风险。所以,给银行的推荐结果是应该拒绝我接下来的手续费取消请求。推荐结论载入系统准备次日使用。
第二天,我在车里打电话再次要求取消手续费。按照计划,这一请求再次被拒绝,这是正确的。然而,因为我已经相当愤怒,所以我决定去一个我驾车经过的分支机构跟经理当面沟通。这就是问题的开始。批量分析在昨夜之后不会再次运行,分支机构经理和系统并不知道我刚打过电话并再次回转。针对我取消手续费的请求的推荐措施仍然有效。分析系统必须在那个晚上判断出,我去分支机构的请求需要被获准以保留我的业务,否则就迟了。我销户的风险因最后一次交互而大大增加了,但因为系统未运行造成分支机构并不掌握这一情况。这是一个有关传统分析的运营型应用的经典案例,不难看到这种方法出了差错。
如果是运营型分析,系统就会更新数据对我的电话呼叫做出响应。然后分析过程针对我的账户并基于新数据立刻执行。在我进入分支机构之前,推荐措施更新为接受我的要求,经理取消我的手续费,我将保持账户有效。先前的拒绝请求推荐措施仅在我进入分支机构的几分钟前有意义。然而,我给呼叫中心的电话呼叫彻底改变了正确的应对措施是什么。要达到目的,银行就必须能收集到与我的交互行为相关的一切数据(在行为发生时),并在行为发生之后启动分析来正确判断接下来会发生什么。这就是分析3.0时代运营型分析的工作方式。我的朋友James Taylor是一家名叫Decision Managanant Solutions的公司的首席执行官以及《Decision Management Systems: A Practical Guide to Using Business Rules and Predictive Analytics》(IBM,2011)一书的作者,他写过很多有关运营型分析的文章。他说过:“一家想要发展而不是只想生存的公司,必须从上到下转变。运营卓越不再是可选项,而通向卓越之路是一条分析之路。用分析方法做每一项决策,并把良好的决策放入运营过程中,应该列入每个执行层的计划中。”