因果推断

1. 因果推断的简单介绍

本文大概从以下两个方面展开学习:

  1. 因果性和相关性的定义以及区别。结合日常和业务上的例子有更直观的感

  2. 因果推断的常用方法介绍,以及在不同场景下如何应用
    因果推断_第1张图片
    为什么需要研究因果性?在花小猪的很多场景中,我们是希望能够做决策,来得到我们想要的结果。比如通过对哪些乘客发券,对哪些司机发任务来提高平台的呼叫和tsh。如果只知道相关关系而不知道因果关系,很多场景下达不到我们想要的效果。下面举几个比较典型的混淆因果和相关关系的case来说明这几个问题

因果推断_第2张图片
这就是误用相关性的第一种CASE——因果颠倒。医院的例子中:院长认为:穿病号服会导致用户患重病,脱病号服会让用户治愈业务中的例子:小明同学认为,投入B补会降低城市成交率,降低B补会提高城市成交率。

  1. 实际中的逻辑,其实大家很容易想到:是因果颠倒的。
  2. 因为用户患重病,所以需要穿病号服住院治疗,因为用户治愈恢复健康,所以脱去病号服办理出院手续。
  3. 城市供不应求,成交率不好,所以需要追加B补 拉动大盘的tsh。城市供大于求,成交率很好,无需要投入更多的B补。

因果推断_第3张图片
生活中大家会遇到一些很神奇的事情。

比如有关注体育比赛的,是不是有这种感觉:每当我熬夜观看主队比赛的时候,主队就经常拉胯输球。经常看完后会骂:再看XX比赛我就是狗。有时候晚上睡过了错过比赛,醒来之后就是一场大胜。这时候作为一个合格的球迷:就会想到,能否拒绝观看主队比赛,提高主队胜率。
因果推断_第4张图片
这其实是第二类错误,误用小样本巧合,当做因果性去做决策。事实上是:我今年没看NBA季后赛,还是湖人总冠军。之所以造成这样的感觉是因为:以比赛来说,我们喜欢的明星或者球队,会有代入感。我们的爱豆 那就是最好看的,我们的支持的球队那就是最强的。当带有这种心理,且熬夜起来看球,输球的时候,会放大这种输球的体验,让我们印象深刻,会记住这种时刻。

因果推断_第5张图片因果推断_第6张图片
这是误用相关性的第三类错误。老板认为:冰淇淋销量是啤酒销量的因,通过促销冰淇淋来带动高利润的酒水。实际上的因果关系:因为夏天来了,天气变热了,冰淇淋的销量会大幅提升。同样,天气变热,喝酒撸串的人也变多了,所以啤酒也会销量提升。冬天来临时,老板低价冰淇淋卖破产了,啤酒销量也不见得能提升多少。这就是第三类错误:共同场外因素作用。

因果推断_第7张图片
因果推断_第8张图片
前面的三种类型一般会比较简单点,接下来的case是业务中比较常见的,也容易犯的错误。

  1. 在北京地区发现,海淀区的孩子们普遍成绩较好,成绩比石景山区能高出100分呢?小明的家长想:古有孟母三迁,现在为了小明的未来,是否也可以从石景山搬去海淀,这样小明的高考成家就能够100+呢?
  2. 运营同学在推广省钱卡,从数据中我们发现,购买省钱卡的人,前后两周对比,发现频次提升了30%以上。降低省钱卡的购卡门槛,让所有人都买省钱卡,这样大盘不就能做到40%的增长了吗?
    因果推断_第9张图片

▍以搬家为例

影响教育资源的有:教育资源更好(海淀区名校多,学区也多),搬家确实能够得到这个教育资源上优势。请好的家教,海淀区的家长们可能收入更高,能够请到质量更好、价格更贵的家教老师。这个并不是搬家就能够拿到的基因好,海淀区老师多,高知家庭也多,孩子们基因也好,这个也不是搬家就能够得到的。

▍以省钱卡为例

一种是沉默成本提频:花了9元,不赚回来不舒服 10%。一种是跨平台锁需求,竞对需求转化到我们平台。10%这种也是买卡导致的提频。还有一种是:乘客主动提频,也就是乘客因为工作等原因提前预知本周需要频繁打车出行,所以主动去买卡薅羊毛,这提频就不是买卡带来的20%。

2. 如何定量的评估因果效应

上面两个例子的原因可能还有更多,且对应的数值也是拍的。在业务中,我们经常需要去回答这些问题:买卡对提频的准确数字有多少,才能帮助我们更好的设计sku 和策 略。

  1. 那如何能够定量的回答上述问题,且更好的指导业务同学科学决策呢?
  2. 做实验

▍怎么科学的做决策?—— 随机实验

为什么要做实验?

相关性和因果性在实际例子中往往互相耦合,很多因素可能会影响我们的观察指标对于因果性,我们希望知道,如果只改变A因素,其他环境均没有变化的话,结果B会怎么变化。

什么是随机试验?

  1. 随机实验是指对相似的样本,随机施加不同干预,观察结果。
  2. 对搬家的例子,找到父母学历相同、家庭收入类似的多个家庭,随机选择一半家庭搬家去海淀,观察小孩的高考分数的差距
  3. 对新冠疫苗,找到大量用户,随机一半接种疫苗(称为实验组),一半不接种疫苗(称为对照组),观察治愈率

▍最优选择要怎么做?—— 基于随机实验的因果推断
因果推断_第10张图片
因果推断_第11张图片
因果推断_第12张图片
因果推断_第13张图片
因果推断_第14张图片
因果推断_第15张图片
▍随机试验总结
因果推断_第16张图片

▍观测数据的因果推断

  1. 举例:如何评估成交率/未成交量和用户留存的关系?
  2. 直接计算未成交量和用户留存的相关性,会发现未成交量越高,留存越高。这是因为未成交量高的用户,发单量也一般比较高,对应高频用户本身留存率就较高。
  3. 最直接的方法是在有同样未成交量的用户中,找到两组关键特征完全一致的样本。但随着特征增加这个方法显然不可行。
  4. 方法:PSM IPTW等 (整体更加复杂且不一定置信,还是要更科学的做实验)
    因果推断_第17张图片

3. 总结

本质上是相关和因果的判断

这里其实是ABtest的基础理论,对于ABtest来讲,选择样本的时候需要避免第一类检验错误(偶然选到差的样本),同时避免第二类检验错误(偶然选到优秀的样本),在这基础上可以选择出来的样本才有一定的检验效果。其次还有ABtest的流程、指标选择:
有兴趣的可以看:https://blog.csdn.net/The_dream1/article/details/116853109

参考:
https://mp.weixin.qq.com/s/CEtkFnCsF4Hx6kDMQrtC5Q

你可能感兴趣的:(#,数据思维)