到底什么是“数据分析”思维?
1.感知问题
2.提出假设
3.选择特征
4.搜集数据
5.分析验证
描述性分析:描述发生了什么,它为分析人员提供了业务中关键指标和错失的概况。
诊断性分析:追溯时间发生原因,诊断性分析工具将有助于分析人员深入了解,从而从根本上解决问题。
预测性分析:预测可能发生的事情,利用建模分析,机器学习,数据挖掘,通过分析历史数据来预测
指导性分析:知道需要做什么,通过模拟和最优化找到最佳决策
在公司扮演的角色:
数据提供
boss助手
咨询
跨部门协作
学习SQL最好的办法就是到公司里狂写。自己学的话太满而且没有目的性。
案例分析1:假设你现在需要评估你们学校各个不同社团的影响力?
答:
社团注册人数(如果是付费会员制,看付费会员人数)
平均每场活动参与人数
活动满意度
校园渗透率(随机抽取一些学生,看对这个社团的认知程度)
社团体系的口碑(每个社团都去天写你认为最好的5-10个社团,同行评价同样重要)
案例分析2: 微信数据分析师--如何检测微信医疗群的活跃度?
情景回顾:
1.面试时间约为20分钟
2.题目看似只有一道题,但是必须拆解为多个小问题,比如定义问题--如何定义微信医疗群,如何定义活跃度等,解释定义,定义的实际使用以及使用中会碰到的问题以及解决方案
3.面试官会追问每一题给的答案
4.做好解释自己给出答案的充分准备
5.面试官如果对答案满意,会示意你继续说下去,否则会继续追问
第一步:定义问题。首先定义两个概念,什么叫做医疗群,什么叫做活跃度。这里我们可以自己来下一个定义,自圆其说即可,医疗群可以定义为群内成员至少80%以上是医护人员的群叫医疗群。至于活跃度,我们可以自己定义很多。比如每日每人所发信息条数等。
80%只是一个估计值,具体数值可以调整。如何判断一个微信用户为医护人员,根据账户关注的信息类别,朋友圈转发文章的类别等特征来识别。
第二步:解释定义。首先我们要解释为什么这么定义问题,并详细解释下如何操作,比如,如何确定一个微信账户是否为一生或者护士拥有。我们可以通过已有标签的用户为基础,来找出与其连接最紧密的账户。或者用过朋友圈转发的文章内容,收藏的文章主题之类的嫁接特征来识别一个账户是否为医疗人员(可以用机器学习模型来识别)。然后解释一下活跃度指标定义原因。如果使用在第一步中定义的活跃度指标。可以详细说明为什么每人每天的发送信息条数是一个很好的指标。因为其具有两点非常好的特征,一个是可度量,一个是可比较。
可能的问题:1.如何分别利用监督学习和无监督/半监督学习来找出用户是否为医护人员?
监督学习:先标记出用户是否为医护人员,然后训练模型进行识别。
无监督学习:将所有用户进行聚类分析,然后找出医护人员想对应的cluster,在找到其他共性。
2.监督学习和无监督学习的各自优缺点?
监督学习的识别准确率高,但是label非常稀缺且价格昂贵。
无监督学习不需要label,但是准确度不高且计算量较大。
第三步:总结归纳。基于给定的定义,讨论可能出现的情况。比如活跃度特别高的医疗群,为什么活跃,找出共性,然后用来刺激不活跃的医疗群变得活跃(假设我们这里的最终目标是要让群的整体活跃度上升)。
可能出现的问题:1.如何利用你发现的高活跃度群的特征来刺激低活跃度的社群变得更加活跃?
通过比较各项指标,比如推送发送的频率,微信版本,群提示是否开启等因素,调整低活跃度群的一些设置,从而达到提高活跃度的目的。具体的效果涛进行AB测试来进行观测。