1、
抽样估计的优良标准有三个,即:无偏性、一致性和有效性。
影响时间序列的因素有四个,即:长期趋势、季节变动、循环波动和不规则波动。
2、在一次集卡活动中,有5种不同的卡片以相同的概率出现,每分享一次笔记就可以得到一张卡片,集齐所有卡片所需点赞的笔记数量的期望,与以下哪个结果最为接近?
首先考虑从拥有0种到拥有任意1种卡片需要抽取的卡片数量的期望,易知E0=1=5/5;
再考虑从拥有1种卡片到拥有任意2种卡片需要抽取的卡片数量的期望,此时每抽取一张卡片,有4/5的概率完成此事件,因此期望E1=5/4;
依次类推,收集5种卡片的期望是E=1+5/4+5/3+5/2+5/1≈11.42
3、调查全公司1000名员工平均交通费用支出情况,采取不重置抽样,从其中抽取100名进行调查。根据以往调查可知总体方差s²为100,则样本均值的方差为 ()
样本方差为:S=σ2/n=100/100=1
所以求样本均值方差为:S*((N-n)/(N-1))=1*((1000-100)/(1000-1))=100/111
4、机器学习判别式模型和生成式模型
生成式:贝叶斯,高斯混合模型,EM模型,HMM,贝叶斯网络
判别式:线性回归,逻辑回归,支持向量机,knn
5、常见的聚类算法
(1) K-means聚类、K-中心点聚类、CLARANS算法,DIANA算法、BIRCH算法、Chameleon算法
(2) EM算法
(3) OPTICS算法、DBSCAN算法
6、小红书在首页上线了一个新的模块,目的是为了提升用户的浏览时长,请设计一套分析方案,衡量模块上线后对用户停留时长是否有提升?
采用假设检验的方法衡量模块上线后对用户停留时长是否有提升
假定,用户停留时长为stay_time
将用户均匀分为两组,一组为对照组,一组为实验组。
对照组不上线新模块,实验组上线新模块,采集对照组和实验组用户每天的浏览时长,分别为stay_time_X0,stay_time_X1
(1)原假设:用户停留时长没有提升,即,stay_time_X0 = stay_time_X1
备择假设 :用户停留时长提升,即,stay_time_X0 < stay_time_X1
(2)选取5%为显著性水平临界值
(3)计算最小样本量,采集数据
考虑到指标的周期性,时间周期选取2周。
采集实验开始前一天,两组用户的数据,是否存在明显差异,如无,继续观察前两天的数据,是否存在异常。
如无异常,继续采集数据。
(4)使用T检验,计算p值
(5)得出结论:若p值<5%,则推翻原假设,备择假设成立,新的模块能显著提升用户停留时长。反之,不能推翻原假设,不能判断新的模块是否能提升用户停留时长。
7、月复合增长率(年是同样的道理)
=(现有价值/基础价值)^(1/月份数) - 1=(160/120)^(1/3)-1
8、经过一番研究后,我们开发出了商品页面上“相关商品”模块的一个新的推荐算法,并且打算通过AB Test(50%用户保留原先的算法逻辑为控制组,50%用户使用新的算法逻辑为实验组)来对新的算法效果进行评估。假设你是此次实验的数据分析师,请问你会如何评估控制组和实验组的表现?(假设需要数据都可取到)请按重要性列出最重要的三个指标并给出你的分析过程/思考。
(1)指标
—用户实际的gmv
—进入商品详情页后加购/立即购买的转化率
—ctr(相关商品卡片的点击/曝光)
(2)分析过程
假设检验
1.设原假设为使用新的推荐算法后上述指标降低或不变,备择假设为使用新的推荐算法后上述指标增加
2.选择显著性水平临界值为5%,采集数据
选择周期时间为2周,在数据采集前检查两组数据是否有明显差异,若无,继续采集数据
3.使用T检验,计算P值
4.分析结论,如果P值小于5%,那么原假设不成立,备择假设成立,即使用新算法后指标提升,
反之无法推翻原假设,不能证明使用新算法后指标提升
9、如果我们发现,某店铺的X品类在今年3月的销量,比去年3月的销量下降了50%,如果你是负责此次分析的数据分析师,你会如何分析?请写出你的分析思路/过程/想法。
解1:
检验数据是否正确
指标拆分
销量=日均销量30=订单数(1-订单取消率-退货率)30
退货率=退货数/订单总数,进一步分析退货原因:质量问题/恶意退货/客服服务问题
订单取消率=订单取消数/订单总数,进一步分析订单取消原因,竞品性价比高/服务好/店面设计好/店铺评分高
订单数=咨询数1-咨询流失率)+加入购物车*(1-购物车流失率)+直接下单 咨询流失定位原因回复不及时/不准确
用户群体,老用户销量 新用户销量 不同渠道转化率
将指标与同期进行对比,定位问题
同时关注关键指标GMV是否下降明显
解2:
1、查明数据来源的可信性,查看数据时候正确
2、数据正确,的确下降的前提下,展开以下分析:
用户分析:
(1)将用户分为新用户和老用户,定位是哪个用户群体出了问题
(2)假设是老用户出了问题,分析老用户的回购率,流失率以及活跃度,分析是哪个环节出了问题
(3)定位了环节,再考虑从渠道方面展开分析,看看是哪个渠道出了问题;
产品分析:
(1)产品是否更新了,不符合消费者喜好或者还未让消费者接受
(2)产品的价格是否有变动
(3)产品周期性
市场分析:
(1)同质品类的竞争者有什么活动,互补品品类的商品有什么变化
(3)有什么政策上的变化
(4)市场上技术的发展趋势
10、某APP 7月份DAU比同年5月份上涨了10%,作为数据分析师,你会从哪些方面分析DAU增长的原因? 请列举至少两种以上拆分思路。
step1:确定数据是否存在异常:基于历史数据,利用移动平均等预测方法,预测7月DAU数值,与2-3倍标准差做对比,判断实际数值是否处于正常范围。(也就是判断DAU上涨10%这是一个趋势,还是一个问题,是长期因素导致的,还是短期内社会事件等因素导致的。)
step2:拆分数据维度:人群拆分、渠道拆分、地理拆分、内外部拆分(拆分的核心是找出哪些影响因素导致了数值的异常,从各个维度判断是整体因素还是某类因素)。
① 人群拆分:新老用户维度、性别维度、年龄维度、职业维度等等。
② 渠道拆分:从新用户的的引入渠道、APP的跳转入/跳转出渠道、分享渠道、付费渠道等。
③ 地理拆分:从地区、城市、线级等粒度,拆分数据,分析DAU增长点是发生在某类城市、还是整体市场的变化。如果是在某个或某类城市的变化,则进一步分析其DAU增长原因。同时对比其渗透率与DAU变化较小的城市渗透率,判断这类城市的变化对整体DAU变化的影响程度。
④ 内外部拆分:内部主要指产品本身的改动点是否获得用户认可,包括产品模块的改动、产品运营策略的改动,可通过A/B Test、用户调研等方式进行检验。 外部可以从市场趋势、市场竞争、外部舆论、社会事件、节假日、PEST模型等因素考虑,可利用舆论热度、关键词搜索量、ADX等指标衡量趋势类因素,也可从分隔市场角度解释市场竞争因素(在固定容量的市场环境中,一些产品的倒下或爆红,将导致用户量的集中和分散)。
step3/4/5/6/7/8/9:具体维度考察技术、产品、运营,进一步细化DAU增长原因,分析问题,预测8月趋势变化,并为后续运营策略提优化建议。
11、经过一番研究,我们决定在新用户首次激活APP时增加一个短视频介绍页面来增加用户对产品的感知,并且打算通过AB Test(50%为控制组,50%的用户首次激活时会看到短视频介绍)来进行评估。假如你是此次实验的数据分析师,请问你会如何评估控制组和实验组的表现?请列出你认为重要的指标,给出分析过程和可能用到的统计方法。
指标:用户激活量,注册激活率,短视频点击率,跳出率,短视频观看时长,
统计方法:T检验
1.监测短视频页面的跳出率,跳出率高则说明用户对这个功能比较反感
2.监测视频的播放时长,时长短则表明用户接受这个功能但内容没有吸引用户,可以通过改进内容来优化
12、小红书上海办公室楼下有一便利店,面积约为20平方米,主要提供零食及饮料。请预估该便利店每周的营业额是多少?
按照工作日5天和周末2天区分
营业额=5工作日平均营业额+2休息日平均营业额
每天按照12h营业时间计算,其中客流量大有6h,客流量小6h,客流量小的每小时营业额=1/2客流量大的每小时营业额。休息日平均营业额=1/2工作日平均营业额。
工作日流量大时,每三分钟接待一人次,人均消费30元
1个工作日营业额=6x20x30+610*30=5400元,1个休息日营业额=2700元
总营业额=5400x5+2700x2=32400元
13、如果APP有一个功能是用户的位置信息能够每隔1分钟上传一次数据库,那么怎么发挥它的作用?
1.App可以根据定位信息获取用户的生活区域,从而分析出用户的消费水平,推荐相应价格区间适合用户消费的商品。
2.App可以根据定位信息获取用户的生活以及活动习惯,例如如果用户经常出入健身房可以推荐运动器材,如果用户经常出入服装店,美容店餐厅等地可以为用户推荐服装,美容项目等。
3.App可以根据定位信息分析用户的职业,比如教师,医生,程序员等,为他们推荐符合他们职业需求的商品。