互联网的本质是分享!
转载自知乎“渔好学”文章:数据分析的6大步骤 - 知乎 (zhihu.com)
为预防跳转链接失效,或者作者将其删掉。我把作者的文章贴在下面,也会穿插一些我个人的理解与感悟。
原作者任职于腾讯,大公司团队分工明确且做的是互联网产品,与大家在具体工作内容上会存在差异,比如说在数据获取等阶段相比于中小型公司来说会更加容易。虽然会有差异,不过数据分析流程应是差不多,对大家还是很有帮助的。
作为数据分析师, 清晰了解数据分析的步骤是非常重要的,有助于清楚把控整个数据分析的流程。
作为想要学习数据分析的人员,了解整个数据分析的流程, 这样在面对一个数据分析问题的时候,知道如何去开展。
那么数据分析流程包含哪些环节呢?
我将一次完整的数据分析流程主要分为六个环节,包括明确分析目的、数据获取、数据处理、数据分析、数据可视化、总结与建议。
(1) 分析目的
做任何事情都有其对应的目的,数据分析也是如此。每一次分析前,都必须要先明确做这次分析的目的是什么,只有先明确了目的,后面的分析才能围绕其展开, 常见的数据分析目标包括以下三种类型:
指标波动型: 主要是针对某个指标下降了,上涨或者异常所做的分析, 比如DAU(日活跃用户数)降低了, 留存率降低了, 电商平台的订单数量减少了, 收入降低了,质量指标如卡顿率上涨的,分析的主要目的是挖掘指标波动的原因, 及时发现业务的问题。
评估决策型:主要是针对某个活动上线, 某个功能上线, 某个策略上线的效果评估以及下一步迭代方向的建议,这些建议是指导产品经理或者其他业务方决策的依据。
专题探索型: 主要是针对业务发起的一些专题的分析, 比如增长类的专题分析, 怎么提高用户新增,活跃,留存,付费, 比如体验类的专题分析, 如何提高用户查找表情的效率, 比如方向性的探索, 微信引入视频号的功能的用户需求分析以及潜在机会分析。
(2) 数据获取
明确了数据分析目的之后, 第二步就是根据我们的分析目的,提取相对应的数据,通常这一个环节是利用 hive sql 从数据仓库中提取数据。
提取的数据通常要注意提取的维度和对应的指标个数,以电商app 的付费流失严重分析案例,我们需要提取的维度和指标可以根据具体的业务流程来(如图):
首先从维度上,我们需要确定好,比如时间维度我们提取的时间跨度是多长,比如今天的数据和昨天的对比,那就是取2天的数据,如果是这周和上周那就是十四天的数据。
设备维度的值是否需要提取ios和安卓的用户进行不同的平台的对比,分析付费流失严重是否主要发生在某个平台。
年龄、性别、地域维度,就是提取用户这些维度的信息, 主要是为了在哪一个年龄层, 哪一个性别,哪一个地域流失最严重。
新老用户的维度, 主要是从新旧维度上分析流失严重是否是集中在新用户还是老用户(如图所示)
确定好了维度以后, 接下来就是指标信息, 维度+ 指标才是一个完整的数据。
因为需要分析每一个环节的流失情况,所以需要提取下单的每一个环节对应的指标的人数和次数。
基于这些人数和次数,我们可以计算每一个环节之间的转化率。
活跃浏览比 = 浏览的人数/活跃的人数
浏览添加比 = 添加的人数/浏览的人数
添加下单比 = 点击下单人数/添加购物车人数
成功下单率 = 成功下单的人数/点击下单的人数
(3) 数据处理:
当我们知道我们应该从哪里获取数据, 以及获取哪些指标数据后,为了保证我们提取的数据的质量,我们通常要对数据进行处理。
常见的数据处理有异常值处理,空值处理。举个例子, 比如我们在提取用户的年龄数据之前,我们需要去除掉年龄中的空的数据以及异常的数据, 异常的数据指得是比如年龄超过120岁这种。
这里我做一些补充:数据处理也往往被称为数据清洗,通常为7大步骤:
a. 选择子集:即选择需要进行分析的数据集中的数据列,为避免干扰可对其他不参与分析的数列进行隐藏处理。
b. 列名重名命:若数据集中出现同样列名称,或含义相同的两个列名,为避免干扰分析结果则需要针对某一个数据列的列名进行重命名。
c. 删除重复值:删除数据中的重复数据值,注意只会保留重复数据的第一条数据。
d. 缺失值处理:原始数据中可能会出现数据值缺失,即数据集中存在无数据的数据单元格。在数据分析时会影响结果,需要将缺失的数据值进行补全。 一般来说缺失值过多,通常超过10%就严重影响到数据质量,可以作废了。e. 一致化处理:数据集中会存在某一个数据列的数据至标准不一致或命名规则不一致的情况,可以使用分列功能将不一致的数据列中的数据值进行拆分。
(4) 数据分析
数据处理好了之后,就可以开始分析,根据我们的分析目标,我们要选择合适的分析方法和分析思路去做拆解和挖掘。
常见的分析方法包括:漏斗分析, 相关性分析, 5w2h 分析, aha 时刻分析, 麦肯锡逻辑树分析法,用户画像分析,RFM用户分群,对比分析等方法,这些方法详细的介绍会在第三章展开, 在这里不做赘述
针对我们的订单流失的问题,典型的分析思路和方法是利用漏斗分析和用户画像分析。
漏斗分析主要是可以挖掘付费流失严重的主要流失环节是在哪里。我们发现付费流失严重主要是因为用户活跃到浏览商品的转化率从50%跌倒30%, 减少了20%,那就可以把问题定位到为什么用户浏览变少的问题上。
用户画像分析,可以帮助我们分析流失严重的用户是什么特征,比如什么样的年龄, 性别, 地域等, 那就可以知道这种流失是集中在哪一个年龄群体,哪一个地域群体以及其他的行为特征。
在我们定位到问题之后,可以定位到该时间段的我们的运营策略是否发生改变,或者该时间段是否受疫情、洪水等天灾影响等等,多方面分析问题产生的原因。
有时候问题不是出在我们内部,也有可能出现在外部,比如说外卖就很容易受天气、是否工作日的影响。
(5) 数据可视化
通过数据分析得出结论后,还需要用图表展示出来,俗话说得好,“文不如表,表不如图",用图表可以更清晰展现你的结论,通常的可视化我们可以利用excel 自带的可视化的功能, 也可以通过python或者R脚本进行可视化。
常见的图表有: 柱形图,折线图,饼图,条形图,面积图, 散点图,组合图,箱线图
(6) 总结和建议
当我们利用图表把我们的数据分析结论展示出来以后,最后就是数据分析的总结的部分,主要分成我们得出了什么具体的结论以及给业务具体的建议,告诉他们改进的方向。
这就是一次完整的数据分析的流程,从分析目的到提取数据,到分析数据给出结论的完整的过程。