数据分析的主要方法(1)——业务分析类

目录

异常值查找方法

描述分析

对比分析

公式拆解

路径分析

漏斗分析

归因分析

热力图分析

留存分析

分群分析

分布分析


异常值查找方法

1.3\sigma原则局限于对正态或近似正态分布的样本数据。Y 的取值几乎全部集中在(μ-3σ,μ+3σ)区间内,超出这个范围的可能性仅占不到0.3%。如果你有任何数据点超过标准差的 3 倍,那么这些点很有可能是异常值或离群点。

2.箱线图与方差和极差相比,更加不易受极端值的影响,且处理大规模数据效果很好。离群点被定义为低于箱形图下触须(或 Q1 − 1.5x IQR)或高于箱形图上触须(或 Q3 + 1.5x IQR)的观测值。

3.算法类

监督学习的算法适用于正常数据和异常数据都存在且有标签;

无监督学习的算法适用于正常数据和异常数据都存在且没有标签,比如孤立森林(Isolation Forest)——高效的异常检测算法,和随机森林类似,但每次选择划分属性和划分点(值)时都是随机的。在建树过程中,如果一些样本很快就到达了叶子节点(即叶子到根的距离d很短),那么就被认为很有可能是异常点;DBSCAN ——用于把数据聚成组的聚类算法,它同样也被用于单维或多维数据的基于密度的异常检测。基于密度的聚类算法,重点是发现邻居的密度(MinPts)在n维球体的半径ɛ。

半监督学习的算法适用于只有正常数据,没有异常数据。

4.时间序列: 恒定阈值——中心值小范围内波动;动态阈值,移动平均法——由过去n段时间的时序数据计算决定的;STL数据拆解法——加法方式:原始数据 = 平均季节数据 + 趋势数据 + 余项/乘法方式:原始数据 = 平均季节数据 * 趋势数据 * 余项。一般情况下,余项部分的时序数据是平稳分布状态,我们可对余项设置恒定阈值或者动态阈值,如果某个时间节点的分解余项超过设定阈值,则是异常数据。


描述分析

数据分析的主要方法(1)——业务分析类_第1张图片

  • 第一步,现状是什么,提取指标数据的具体数值。
  • 第二步,标准是什么,列出参考标准是什么。
  • 第三步,结论是什么,综合现状和标准,得出结论。

对比分析

一方面是纵向比较,即自身和自身进行对比,另一方面是横向比较,即自身和别人进行对比。

纵向对比通常包括环比、同比:

  • 环比就是本期统计数据与上期比较,比如拿2018年9月份的数据和2018年8月份的数据进行对比。
  • 同比指的是本期统计数据和上一周期的同期数据进行比较,比如拿2018年9月份的数据和2017年9月份的数据进行对比。

横向对比通常包括行业竞品、全站数据、测试AB组等。 


公式拆解

举例,GMV = 点击UV * 访购率 * 平均客单价。

数据分析的主要方法(1)——业务分析类_第2张图片


路径分析

路径分析也是网站分析的基本方法,借助于网站数据的可追踪性和可监测特征,所有用户行为都处于可分析的状态。路径分析不仅可以基于页面产生,还可以基于目标路径、时间路径等数据主体产生。
页面路径常用于分析不同页面引流和前后路径关系,如用户从活动页落地后如何分流、典型客户的路径特征、客户网站访问动线、页面广告资源挖掘、站内多页面流程设计优化等。

常见路径分析包括漏斗型、管道分叉型、章鱼型

漏斗型适合目标明确、路径单一的直线型操作产品,这类app的功能点一般是具有一个最关键的主要功能,业务的需要也是直线型的,我们希望的用户路径是在短时间产生主流路径的转化,而且app可以单一维度去衡量用户价值,如贷款类就以下单量为指标,如探探,以用户的滑动量为指标。数据分析的主要方法(1)——业务分析类_第3张图片

 某些app的用户路径呈现管道交叉网状。如社区类app,社交类app,这类app不以单一的用户路径作为衡量用户价值的标准,比如知乎的用户小红每天早上起床刷刷热榜,小黑订阅了知乎盐选会员定期去看大咖直播,小紫在平台提问的频率很高,众多转化路径的重要程度对比是难易通过漏斗分析法测算衡量的。管道交叉型平台,每个爪的延长可能都代表一种用户路径应格外关注页面的跳转引流量。为什么某两个页面的相互跳转格外多,是互为串联关系还是并联关系?哪些功能可以简化在同一个页面,哪些同一页面的功能可以相关性不大,可以拆分到两个页面?两页面的相互跳转,是为用户闭环链路的功能性设计,还是增加趣味感和内容丰富感而做的样式化设计?长路径的存在是为什么?长化或短化带来的用户价值有什么不同?重视主流路径的同时,也要关注另辟蹊径的路径下的发生场景及背后的用户心理,趋势监控的同时要注重对用户结构的分析,结合用户分层后的需求框架去进行产品的合理化布局。

数据分析的主要方法(1)——业务分析类_第4张图片 

某些功能大而全又复杂的app,识别出用户路径的可能呈分散状,背后的用户心理是不清晰的,用户意图识别无法深入。加之用户可能是在碎片化时间下的间断性操作,这种碎片化的粘性背后的用户意图识别起来是困难的。

这种情况下,识别用户意图要靠价值归因法。我们常听到的价值归因大多是指于公司角度思考的价值归因,大家对“平台于用户的价值归因“是分析不足的。


漏斗分析

漏斗分析可以直观地呈现用户行为步骤以及各步骤之间的转化率,分析各个步骤之间的转化率,可以为运营提供辅助决策的意见;减少“漏掉”的用户数量,可以提升业务规模,提高业务成交量。根据漏斗的封闭性可分为封闭型漏斗和开放型漏斗。例如,电商下单转化漏斗。
封闭型漏斗指的是漏斗从第一环节开始到最后的环节,数据从上一环节开始依次“漏下”来,不存在其他进入途径。开放型漏斗指的是漏斗的各个环节都有可能存在其他入口,整个漏斗不封闭。
漏斗分析的典型应用场景是分析站内流程,如注册流程、购物车流程等;除了可以做针对多页面的流程分析外,还可以做单页面的多个步骤分析,如表单分析、注册分析等。

漏斗分析的四大关键要素分别是研究对象、时间、节点以及指标。

1.确定研究对象,选定分析维度,即选定数据统计的角度,电商常用人、货、场、订单等。

2.确定事件的开始和结束时间,即想要把漏斗模型应用于业务的哪个时间段。

3.拆解用户路径,明确关键节点,即明确用户在该业务中的每一个步骤节点。

4.指定关键指标,全面刻画业务,指导业务优化,即通过数据指标诠释业务现状和监控业务发展。

漏斗模型是路径分析的特殊形式,是专门针对关键环节进行的路径分析 。
漏斗模型与路径分析的主要区别: 

  • 分析目标不同。漏斗分析主要用于有特定完成的目标场景,例如购物车转化、注册转化等;而路径分析侧重于分析开放的流程,通常没有特定完成的目标。
  • 不同环节的关系不同。漏斗分析只能看到从上一级节点到下一级节点的转化关系以及到外部的流失节点;但是路径分析可以形象的展示某个节点跟其他节点之间的关系而不限定于是否转化或流失。
  • 衡量主体的逻辑不同。
  • 表示结果不同。漏斗分析通常用完成率、流失率等指标评估,而路径则使用时间的比例来评估,例如页面浏览量占比、访问量占比等。
  • 应用主体不同。漏斗分析可以用来分析不同类型的数据之间的转化关系,例如事件、页面、行为。但是路径分析通常只用来分析相同维度下的主体,例如页面路径、广告渠道路径、关键字路径等,很少会做交叉类的分析。

归因分析

归因分析(Attribution Analysis)要解决的问题就是广告效果的产生,其功劳应该如何合理的分配给哪些渠道。主要用于评估多个参与转化的主体如何分配贡献大小。出现归因的基本条件是某些转化没有特定的归属,因此无法直接判断到底是由哪些因素产生。

常见归因分析模型:

1.次归因模型(最容易测量;末次渠道的功劳评估会被大幅高估)|适用场景:短期的投放,转化路径少、周期短的业务快速提升效果,按照末次归因模型,能比较好了解到底是哪个渠道对于最终的转化有比较好的促进作用。

2.末次非直接点击归因模型|适用场景:如果你的公司认为,你们业务的直接流量大部分都被来自于被其他渠道吸引的客户,需要排除掉直接流量,那么这种模型会很适合你们。

3.末次渠道互动模型(各渠道的标准一致;多渠道同时投放会高估了自己影响力)|适用场景:单一渠道,或者已知某个渠道的价值特别大。

4.首次归因模型(容易实施的单触点模型,初次点击的归因;受限于数据跟踪周期)|适用场景:一般是需要进行拉新的时候,公司处于市场开拓的时候,这个时候我们关心把更多的用户先圈过来,那么用首次互动模型可以看出来哪些渠道对于业务拉新最有效。所以首次归因模型对于没什么品牌知名度、且重点在市场拓展,渠道优化的公司,比较适用。

5.线性归因模型(多触点归因模型,可以将功劳划分给业务路径中每个不同阶段的营销渠道,不用考虑不同渠道的价值权重;线性平均划分的方法不适用于某些渠道价值特别突出的业务,对于价值比价高的渠道,可能会“被平均”,因为这种渠道是靠质量而不是数量赢得结果的)|适用场景:根据线性归因模型的特点,它更适用于企业期望在整个销售周期内保持与客户的联系,并维持品牌认知度的公司。在这种情况下,各个渠道在客户的考虑过程中,都起到相同的促进作用。

6.时间衰减归因模型(这个模型考虑了时间的作用,因为一般情况下也是时间越久对于用户的转化作用是越弱;如果有的渠道天然处于转化链路的起点,那么对于这些渠道是不公正的)|适用场景:和末次归因比较类似,适用于客户决策周期短、销售周期短、引导用户完成转化的场景的情况。比如,做短期的促销,就打了两天的广告,那么这两天的广告理应获得较高的权重。

7.位置归因模型(重视最初带来线索和最终促成成交渠道的模型,一般它会给首次和末次互动渠道各分配40%的权重,给中间的渠道分配20%的权;不会考虑线索转化之后的触点的营销效果)|U型归因模型非常适合那些十分重视线索来源和促成销售渠道的公司

8.马尔科夫链今天的事情只取决于昨天,而明天的事情只取决于今天)|访客下一次访问某个渠道的概率,取决于这次访问的渠道。马尔科夫链归因模型适用于渠道多、数量大、有建模分析能力的公司。


热力图分析

热力图分析是网站分析的重要方法,该方法的主要作用是分析单个页面内的点击分布热力图,这是单页面用户体验分析的重要途径,通过热力图可以直观反映用户对于页面内容喜好程度。热力图可分为基于链接的热力图和基于像素的热力图。
基于链接的热力图反映了页面内每个链接的点击情况,这种热力图更容易用数据的形式分析页面不同功能间的点击分布。
基于像素的热力图反映了页面每个点击位置的点击情况,像素热力图相较于链接热力图更容易发现在非链接位置上的用户点击习惯,如用户习惯性的点击位置、特殊页面位置喜好等。


留存分析

留存分析是一种用来分析用户参与情况/活跃程度的分析模型,考察进行初始行为的用户中,有多少人会进行后续行为。这是用来衡量产品对用户价值高低的重要方法。按初始行为时间分组的留存分析可以消除用户增长对用户参与数据带来的影响。

短期来看:了解某一渠道的质量,一般看的是日留存;长期来看:观察整个大盘,通常看的是周留存/月留存以周/月为单位,衡量产品的健康情况,观察用户在平台上的黏性是怎样的。

精准留存有两种计算方法:第一,过滤进行过指定行为的用户ID,单独进行计算。第二,根据用户不同的属性,划分为不同的群体,观察它们之间留存的区别


分群分析

用户分群数据分析方法是进行用户画像的关键数据分析模型,这是企业进行数据分析、精细化运营的第一步。用户分群即用户信息标签化,通过用户的历史行为路径、行为特征、偏好等属性,将具有相同属性的用户划分为一个群体,并进行后续分析。

由于群体特征不同,行为会有很大差别,因此运营人员或者产品人员希望可以根据历史数据将用户进行划分,将具有一定规律特性的用户群体进行归类,进而再次观察该群体的具体行为。这就是用户分群的原理。

  1. 用户基本信息分群,如根据用户注册的信息分群。相比不分群,这种方法已具备一定的针对性, 但是由于对用户不是真正了解,产生不了很好的结果预期。

  2. 用户画像分群,如年龄、性别、地域、用户偏好等,画像建设的焦点是为用户群打“标签”,一个标签通常是人为规定的高度精炼的特征标识,最后将用户分群的标签综合,即可勾勒出该用户群的立体“画像”。画像分群让我们真正了解用户的某些特征,对业务推广帮助很大。

  3. 根据用户行为进行分群,此阶段会在画像分群的基础上关注用户的行为特征, 如根据用户的注册渠道和活跃习惯,制定不同的营销推广策略。

  4. 聚类和预测建模分群,聚类建模可以根据用户的综合特征指标,将用户分为不同的群体,如将用户划分为娱乐型、挂机型、社交型、办公型等;预测建模即尝试去猜测用户下一步的态度与行为(例如想知道什么,想做什么)。 


分布分析

常见的群体划分有(1)按事件的频率、(2)按一天内的时间分布、(3)按消费金额的区间

适用场景:已经知道一群用户完成了指定事件,但需要对用户群体进行细分,按不同的维度(比如依赖程度)和价值(付款金额)将他们划为不同群体,分别进行后续的维护或分析;已经知道单个事件的完成次数,希望知道这些次数拆分到不同维度上后的分布情况,以便更清晰地了解该事件的完成情况。


如有补充会不断地进行更新调整,欢迎大家互相学习指正~

你可能感兴趣的:(数据分析,聚类,机器学习)