题目一:使用ABTest对新算法进行评估
经过一番研究后,我们开发出了商品页面上“相关商品”模块的一个新的推荐算法,并且打算通过AB Test(50%
用户保留原先的算法逻辑为控制组,50%用户使用新的算法逻辑为实验组)来对新的算法效果进行评估。假设你是此次实验的数据分析师,请问你会如何评估控制组和实验组的表现?(假设需要数据都可取到)请按重要性列出最重要的三个指标并给出你的分析过程/思考。
思路:
先看下ABtest的实验步骤:
第一步,要先设定我们的评估目标(也就是题目说的最重要的三个指标,在实际工作中可以根据实际情况定);
第二步,分配流量给几个对照组并统计好数据,明确要评估哪个点,对照组与实验组和之间只能有一个变量是不同的。
第三步,得到参考组数据后,再去分析实验组的数据。
注意使用ABtest的前提一定要是数据比较多的情况下才能使用,不然数量比较少的话,会容易受到那些异常数据的影响,比如有些用户可能每买一单的钱都特别多,这样你可能就对比了50个用户,有一个用户的购买价格比后面49个加起来还多,那他的购买行为会很影响我们的实验结果。
分析实验数据是使用假设检验的统计学方法,在统计显著性水平达到95%或者以上的时候,并且维持一段时间,那实验就可以结束了。如果一直在95%以上,我们可能就要适当延长实验时间,如果很长时间都是95%或者90%以下,就可以直接终止实验了。
接下来具体来看本题目的流程:
1、指标梳理:
1)要去设计评估目标就是我们的指标,我们可以用什么去做衡量呢?因为这个是相关商品模块的推荐算法,是要销售产品,是一个购买行为,所以我们可以定销售额的指标,这个指标可以很直观地反映你的算法推荐是否有效有效,越有效,你通过推荐进来的销售额就越高。
2)考虑商品展示渠道,渠道就要考虑点击率、转化率、复购率的指标。这个可以看你是否给用户推荐对了,你推荐的越合适越贴现,点击的可能性就越高越,也就越容易去点击。
指标:销售额、点击量、转化率
这是考虑的指标,那么我们分析过程是什么呢?
分析过程就是考虑统计学的假设检验,基本的流程是下面的几步:
2、分析过程:
1)设原假设为使用新的推荐算法后,上述指标降低或不变,备择假设为使用新的推荐算法后上述指标增加(也就是设定原假设和备择假设,备择假设就是使用新的推荐算法之后上述指标增加,这样的结果就是拒绝或默认拒绝原假设,只要拒绝了原假设,那就说明算法有用,因为拒绝了的话,那说明备择假设是成立的);
2)选择显著性水平临界值为5%,采集数据(在统计学里面,概率小于5%就默认是小概率事件);
选择周期时间为2周,在数据采集前检查两组数据是否有明显差异,若无,继续采集数据;
3)使用T检验,计算P值(计算P值也可以用pandas里面集成的模块);
4)最后分析结论,如果P值小于5%,那么原假设不成立,备择假设成立,即使用新算法后指标提升,反之无法推翻原假设,不能证明使用新算法后指标提升。
只有拒绝和不能拒绝,而不是拒绝或者接受,这也是假设检验比较有意思的地方,这是我们是假设设计反的原因。
这也是ABtest的一个常规流程。
题目二:销量下降了怎么办
如果我们发现,某店铺的X品类在今年3月的销量,比去年3月的销量下降了50%,如果你是负责此次分析的数据分析师,你会如何分析?请写出你的分析思路/过程/想法。
这种怎么办的问题,面试的时候经常都会问到。这这类题目其实考察的就是数据分析思维方法,是否有数据分析思维经验,这类问题经常使用的是多维度拆解的方法。
通常的解题步骤是这样的:
第一步,先定位问题,先确定是不是真的有问题或者说问题的严重性,然后外部市场环境和内部问题进行分析。
1)是否数据统计有问题、或者个例问题(如某个客服说投诉特别高,可能是她负责的那部分客户投诉率很高,但是整体的投诉率是在正常水平,或者是某个客服负责的商品退货率特别低,但是整体水平没有改变多少,这时数据是没错的,但是却是个例问题)
2)外部市场环境问题,销售额是比去年同期下降,那这是一个什么样的性质?我们的今年三月份的销售目标是直接对照去年三月份加10%吗?有没有去调研过今年市场行情的情况、竞品情况是怎样的?
有没有可能这个品类在今年市场上普遍不受欢迎呢?如果是整体市场不受欢迎,那么问题就不是很严重,可能就需要考虑产品的更新或者考虑改进运营营销方式逆势而上引领整个市场。还是去年平台方有做了一个大型活动,产品有参与活动效果很不错,但是今年平台方没有做这样的活动,而自己店铺做的活动力度没有那么大导致的?这样就需要对比去年活动效果的去销售额的提升情况与今年的情况进行对比对照。
第二步,指标拆解,内部问题,主要对渠道、新老用户、地区、时间段、某个商品方面进行拆解
①②③④⑤通过渠道、新老用户、地区、时间段、某个商品等维度进行拆分,是不是某个渠道的问题、还是新老客户的问题、或者是某个地区的销售额下降导致影响到整体的销售额?是不是某一段时间销售额下降得特别厉害(那个时间是否有发生什么事情?是不是公司内部问题导致的?)?是不是某个销量比较大的商品,受到了一些因素的影响导致销量大幅下降?
②指标拆解,指标通常是按照组成分析和时间流程进行拆解的。指标体系一般是金字塔型的,越往下拆分的指标是越多的(参考用户行为流程、指标构成、转化漏斗模型等)
销售额=访客数 * 下单率 * 客单价-退货金额
看是哪个指标除了问题,还是都出了问题?然后继续往下分析
访客数=新客户+老客户,新客户=渠道的流量 * 转化率
看是新客户减少还是老客户减少?老客户可能是直接购买比较多,新客户可能是从渠道进入购买的比较多,如果是新客户减少导致的,那么需要看渠道和转化率,看是不是广告少了或者是渠道客群出问题了?需不需要扩展新的渠道或者更换渠道?
下单率=页面访问量 * 转化率
页面是否吸引人?需不需要使用ABtest做页面优化测试?
订单取消率=订单取消数 / 订单总数
检查退货金额,订单取消率是不是比同期更高?可以从产品的好坏评情况进行进一步分析;
客单价:通过同期群分析、单变量分析、ABC分析
同期群分析师比较常用的分析方法,把用户进行群组划分之后,对不同群组相同指标,进行一个时期的比较,看是不是有明显不利的指标下降,导致了销售额下降,最终去定位这个问题,然后去针对性的做些活动。
第三步,针对指标的变化进行提建议
针对这些指标的变化可以提些建议,这些建议要是实打实的、有针对性的,而不是只笼统的说要提高。
可以做一些有针对性的促销活动、商品优化、渠道优化。
例如是老客户流失严重,而且老客户在客户群里面的占比也是比较多,但是突然就下降了10%,这时候是不是要针对老客户做一个特别的活动呢?可以给客户的淘宝、微信、手机等等进行活动推送,比如赠送促销消费券等等。而且这种活动也是有些原则的,不是所有的都送钱、送优惠券都是好的,你要结合你的商品情况,以及你想提高的目标,因为针对客户流失,需要要根据你的商品购买周期是一年买一次、还是一个月两次还是那种几天就给买一次的,每个店铺做这样的活动都是不一样的。
题目三:请你估算营业额(费米思想)
小红书上海办公室楼下有一便利店,面积约为20平方米,主要提供零食及饮料。请预估该便利店每周的营业额是多少?
解题思路:
费米思想的两个步骤:
1、把问题进行拆解,直到拆解到不能拆解需要估算的基本问题
2、对基本问题的估算,不要估算其本身,而是先估算其上下界,然后在10倍的范围内估算出数值
营业额=消费人数 * 平均消费金额(区分工作日和周末)
消费人数=营业时间 * 单位时间消费人数(区分高峰时段+低峰时段)
费米思想问题有个明显特征,就是它没有数据也没有明显的计算逻辑,看起来很无厘头,这些数据是通过你的一些常识去得到。理解这类问题,也是没有标准答案的,这类题目实际上考察的是数据分析思维能力,在有限条件下,通过一些假设和推算得到答案。
解决费米思想的关键办法就是拆解,也就是多维度拆解分析方法,拆解的原则是:是把问题拆解到不能拆解(MECE原则),然后对于不能拆解的基本问题进行估算(估算一个范围)。
估算:
每天按照12h营业时间计算,其中客流量大有4h,客流量小有8h(正常估)。
休息日平均营业额=1/4工作日平均营业额(正常估)。
工作日流量大的时候,每2分钟接待3人次,人均消费10元(高估)。
那这样工作日高峰时间段每小时消费人数=60*3/2 =90个
非高峰就算30个那工作日一天营业额=4h *90个 * 10元+8h * 30个 * 10元=6000
一周的营业额=6000 * 5+6000/4 * 2=33000
题目四:思维拓展
如果APP有一个功能是用户的位置信息能够每隔1分钟上传一次数据库,那么怎么发挥它的作用?
这个题目思维拓展题,也是没有标准的答案,就是考你思维发散的力,如果你有接触过相关的应用的话,答案就会就更贴近实际。
这种位置信息我们经常用来做什么呢?就做用户画像。用户画像可以做什么呢?
我们这里有几个思路,
1)根据定位信息可以获取用户的生活区域,从而分析出用户的消费水平,推荐相应价格区间适合用户消费的产品;
你住在在哪个区域?例如你是住城中村还是豪华小区,知道你常年出现的地方、你住在是哪个小区能够推出来你的消费能力。甚至可以根据你的位置信息变动来判断你是否是开车还是没开车,以及你住的地方离公司的远近情况。
2)可以分析用户的活动习惯,推断用户的一些偏好,并做针对性推荐;
例如用户经常出入健身房,可以推荐运动器材,经常出入服装店美容店等,可以为用户推荐服装美容项目。这些店铺在地图上都是固定的,通过这些位置可以推断用户的偏好,还能判断你去的地方是进去还是仅仅路过而已。
3)可以推测用户的职业,比如教师、医生、程序员,为他们推荐符合她们职业需求的商品;
比如通过你经常去的地点,可能看到你是那个公司的,附近还有什么公司?
4)用户位置可以实时向用户推荐周边的一个生活服务比如附近的商店、便利店、住宿、停车场等,还可以还原用户的行为轨迹、交通拥堵情况、分析热点区域、分析各区域停留时长,从而确定用户的一个行为习惯,然后进行更好的提供服务和消费。
这些就是有针对性的提供数据给用户,说的不好听叫大数据杀手,因为每一分钟上传一次位置信息到数据库,这个是很可怕的,而且后面的话一般都是配套有流式处理,用大数据平台去做计算,然后给用户打标签,做一个用户画像的项目出来,这种就是做用户杀熟。
大数据杀熟就是你自己看到的数据只有你自己知道,别人看到的数据和你是不一样的,大数据杀熟就是应用在这种场景,每个人都是分隔开的,大家只能看到自己的数据,其他人的数据他们是看不到,然后就特别容易做大数据杀手。当然这确实也是有用的,因为有针对性的对你推荐一些东西,那你购买的可能性是很高的,能够符合你的当前需求(淘宝的千人千面也是类似的原理)。