数据分析/挖掘的目的是为业务发展答疑解惑。他描述了“过去发生了什么”、“现在正在发生什么”和“未来可能发生什么”。根据分析的级别,分为常规报表、即席查询、多维分析(又称为钻取或者OLAP)、报警、统计分析、预报(或者时间序列预测)、预测性(predictive)模型和优化
常规报表:常规报表广为人知,它们通常按照一定的周期产生,对过去一段时间、一定范围内所发生的事实进行记录。它们对了解业务现状非常有用,但是却无法据此进行长期决策。标准报表主要用于回答“发生了什么”和“什么时候发生”这样的问题。典型的标准报表包括月度或季度的财务报告。
即席查询:即席查询往往通过对一系列数据(组合)的要求来“回答”一些常见的业务问题。即席报表主要用于解决类似“多少”、“频次如何”和“在哪里”这样的问题。记录每种产品每天销量的定制报表就属于即席报表。
多维分析(又称为钻取或者OLAP技术):OLAP技术可以帮助了解更多细节信息,它可以帮助客户自己操纵数据,找出诸如“多少”、“什么”和“哪里”之类问题的答案。OLAP技术主要解决的是“问题出在哪里”和“我如何找到问题的答案”这样的问题。例如,对不同类型的电话客户的通话行为进行排序,找出他们的通话特征就需要运用到OLAP技术。
报警:当问题发生时你可以通过告警及时获知,并且可以在将来发生类似情况时引起注意。告警可以通过电子邮件、网络频道、记分卡或者仪表盘的形式给出。报警的过程需要确认的是引起注意的触发点,以及一旦报警需要采取什么行动。比如,销售总监在销售情况与销售目标差距大时会收到告警信息。
统计分析:我们可以运行一些更加复杂的分析。例如,方差分析和回归分析模型等。我们可以基于数据提出一些假设,然后再利用数据构建统计分析模型来“回答”这些假设是否成立。统计分析解决的问题主要是“行为/事件为什么发生”和“我失去了怎样的机会”。例如,银行希望了解什么样的人,更可能对他们的房子进行转按揭操作,那么他们就会用到统计分析的方法。
预报(或者时间序列预测):它能够帮助建立恰当的库存,从而使得既不会脱销,也不会积压库存。时间序列预测主要解决的问题是“未来的趋势会怎样”和“如果这样的趋势继续会怎样”。例如,零售商可以根据销售历史,预测未来特定店铺的特定产品的销售量,而这样的预测过程就是时间序列预测。
预测性(predictive)模型:如果你有1000万个客户需要做一次直邮,谁最有可能响应?怎样对现有客户进行有效分群?哪些客户最可能流失?预测性模型可以回答这类问题。预测性模型主要关心的是将来可能发生的情况,以及不同的预测情况对业务的影响。例如,商户可以预测客户可能会对哪种产品更有兴趣,以及哪些客户会对特定产品更有兴趣。
优化:优化往往带来创新,它使企业可以在有限资源下实现收入(利润)最大化。优化强调的是更好地利用各种资源的途径。例如,在特定资源条件下,如何安排并使收入利润最大化,就是优化需要解决的问题。
前4类分析提供了关于以往和当前情况的描述,让业务人员对历史情况有一个深入的认识。但是这往往是不够的,这就像在驾驶的时候只看两边和后视镜,而挡住前面的玻璃,对前面发生的情况一无所知。第5类到第7类分析提供了向前看的途径,可以预测未来发展的情况,及早发现问题,做到提前准备。而最后一类分析是在掌握了未来发展状况之后,对业务进行优化,制定最优的决策方案。
从上面介绍中可以看到,数据分析是和业务紧密联系在一起的,其目的就是满足商业决策的需求。这种决策是以事实和数据分析的结果为基础,结合经验和行业的洞察作出决策。在解读和判断数据模型时,需要融入对业务的理解、融入基于经验的灵感,很多时候是无法用单纯的公式或规则来替代人的智慧和艺术灵感的。因此,数据分析是技术与艺术的结合。如果可以量化分析某些问题,那么就去分析,但别忘记加入你的经验、知识和理性的推断。
2、数据分析/挖掘的商业驱动
可以认为数据分析/挖掘涉及到公司运营的方方面面,这包括对企业部门经营情况的评估、内部员工的管理、生产流程的监管、产品结构优化与新产品开发、财务成本优化、市场结构的分析和客户关系的管理。其中,关于客户与市场的数据分析/挖掘的是“重头戏”。下面以客户全生命周期管理与为例介绍数据分析/挖掘运用场景和挖掘主题
(1)发掘潜在客户(市场细分):关于这个主题的分析,更多的是基于地区、性别和年龄段等粗粒度的指标,结合产品设计定位和目标客户群体进行匹配。比如,高档母婴产品的潜在客户应该是居住在新建的高档小区中的住户。这类分析是运用最早的,在广告投放、新店寻址等场景下打大量使用。
(2)客户获取:当客户初次了解我们的产品和服务后,有可能会犹豫不决,拖延很久才可能真正成为我们的客户,而大部分客户在这个期间会由于兴趣逐渐减退而最终流失。比如,信用卡新客户在填好个人信息,并收到信用卡后却迟迟没有开卡。这时就可以运用数据挖掘技术,对营销人员得到的客户基本信息进行一个初步筛选,找出购买倾向性较高的客户进行深度跟踪营销。这么做既减少了人工成本,又降低了打扰客户的次数,从而减少了投诉。同时客户在与潜在客户的交流中,也会为其制定更有用个性化的产品或服务组合。
(3)初始信用评分:当客户最终购买我们的产品时,如果在涉及赊销情况的时候,就会用到初始信用评分技术。这是根据客户的性别、年龄以及居住场所等基本信息对客户的信用进行预判。这类情况不只在银行信贷中会遇到,在很多企业中都会遇到。企业的应收帐款就是一种自然的商业信用,建立好优秀的初始信用评分体系,可以使企业在不提高增大财务风险的情况下快速开拓市场。比如,IBM全球融资部(IGF)是一个为赊购买入IBM产品的小公司提供金融服务的部门,其在上世纪80年代开发的客户信用评分模型对开拓全球市场功不可没。现在这个技术也成为了提高客户满意度的一种方式。比如,中国移动的先付费客户的欠费额度和京东的“打白条”服务。
(4)客户价值预测:为了更好地为客户提供服务的同时增加企业利润,需要根据客户的基本信息进行其价值预测。其中价值既包括以消费水平为代表的直接价值,也包括客户口碑宣传的间接价值。
(5)客户细分(市场细分):根据客户的基本信息,从人口学、工业统计信息、社会状态、产品使用行为等方面对客户进行细致的描述。这对分析客户类型结构、修正产品定位、满足细分群体需求开发新产品、提高客户满意度和分析客户需求变化趋势都是有意义的。
(6)交叉销售:分析产品之间的关联关系,发现产品销售中预期不到的模式。比如,“啤酒与尿布”的故事就是从客户在超市中的购物记录中获取的。这种技术目前被广泛运用在零售业、银行、保险等领域,大家对京东商场的推荐产品和淘宝的“猜你喜欢”两个模块应该有深刻的印象吧,这两个模块都是这个主题的运用。
(7)产品精准营销:这是客户价值提升的重要方面,目的在于扩大客户消费的范围。比如,公司开发了一款新产品,希望快速找到目标客户。这就可以通过分析现有客户的属性和产品消费行为,确定响应可能性最大的群体进行营销。
(8)行为信用评分:和初始信用评分的目的是一样的,这里分析的变量加入了客户产品消费行为的信息,这使得对客户信用的评估更为准确。比如,美国AT&T电信公司,其客户信用风险评级精确度明显高于一般的信用卡公司,这就是因为掌握了客户更多的通话、差旅等行为信息。
(9)欺诈侦测:也称为异常侦测。是对客户(包括内部员工)涉及洗钱、套现、盗用等异常行为进行的侦测,满足风险监管的需求。
(10)客户保留:有可能随着时间的变化,客户需求产生变化,如果不及时发现这种变化趋势,就会造成客户流失。客户保留的目的在于,及时发现客户在购买产品方面的行为变化和满意度情况,从而及时更换产品组合。比如,电信运营商发现客户的通话特征,从短途居多变为长途居多,而且从客户流失的模型中发现,有这种情况的客户流失的可能性很高。这主要是由于客户不了解电信运营商的套餐类型,只是听说其他运营商的长途套餐更便宜造成的。那么客服人员就需要了解这类客户的需求,从而提供更合理的套餐类型。
(11)客户关系网:客户的亲友圈、工作圈和兴趣圈的信息对客户管理、营销和产品开发有重要的意义。比如,可以很好地定位客户所处的自然生命周期。如果是婚恋中的人,可以推荐与其品位相似的产品信息。而且通过对客户关系网络结构的分析,可以明确网络中的重要节点,这对关键人营销有重大意义。
(12)流失客户时间判断:通过对已经流失客户的存续时间进行分析。一方面可以预判现有客户流失的高危期,另一方面为提高不同类型客户的存续时间提供技术支持。
(13)流失客户类型判断:对流失客户的细分可以对改进产品和服务起到重要的指导作用。
数据挖掘是一种发现知识的手段,数据挖掘要求数据分析师通过合理的方法,从数据中获取与数据挖掘项目相关的知识。数据挖掘是一个多学科交叉的产物,其涉及统计学、数据库、机器学习、人工智能以及模式识别等多种学科。
按照数据分析与挖掘的方法来源,数据分析可以分类为简单数据分析、多元统计分析以及人工智能、数据库分析等,如表1-1所示。
表1-1 按照数据分析与挖掘方法来源分类
方法来源
|
主要方法
|
方法适用性与优势
|
简单的数据分析
|
集中趋势分析:众数、中位数、均数 离散趋势分析:极差、方差、标准差 分布形态:频数分布 交叉表
|
较容易掌握和使用,应用较广。对数据和使用者的要求较低,是培养业务知识的手段之一
|
多元统计分析
|
相关分析 回归分析 因子分析 聚类分析 ……
|
用于分析变量间的关系、相似度等。多用于预测、 细分等场景,但是开发周期较慢。对使用者的要求较高,需要掌握基本的统计学知识和业务知识
|
人工智能、数据库等
|
神经网络 决策树 遗传算法 文本挖掘 ……
|
可以定制算法满足个性化需求,具备自适应和自学习性 要求使用者具有较高的算法和对业务的理解
|
(表1-1摘自:SAS公司《SAS数据挖掘技术概览》)
按照数据分析与挖掘的方法来源进行分类显得过于庞杂,而且不便于理解和记忆。本书将按照其目的,将数据分析和挖掘技术分为描述性及预测性两大类,如表1-2所示。
表1-2 按照数据分析与挖掘技术目的分类
目的
|
定义
|
举例
|
主要算法
|
描述性
|
无监督学习,分析具有多个属性的数据集,找出潜在的模式,没有因变量
|
观察个体之间的相似程度,例如根据年龄、性别、收入等因素进行客户细分。根据客户对多个产品的购买发现产品之间的相关性
|
聚类、关联分析、因子分析、主成分分析、社交网络分析……
|
预测性
|
有监督学习,分类模型,用一个或多个自变量预测因变量的值
|
客户是否会违约是一个因变量,可以用客户的性别、年龄、收入、职位、经济状况、历史信用状况等因素进行预测
|
决策树、线性回归、Logistic回归、支持向量机、神经网络、判别分析…… |