数据分析基础技能

一、基础技能

有Hadoop、Spark等平台的海量数据处理经验

有数据驱动或增长黑客经验

熟练使用SQL、Hive语句

深入理解AB测试实验

敏感度、方法论、技术整合

有良好运营体系

二、日常工作

数据异常的排查判断是否异常、最大概率法则归类、闭环。

·融入专项

·做专项分析并负责KPI

·埋点，指标体系

BAT 面试必问的三个问题

Q1：流量波动，数据突然涨了怎么分析？

Q2：分析下你手机里面最常用的三个App是那三个（这个问题套路很深）？

Q3：商业模式，你之前产品的CPC/CPM以及商业模式是什么样的，你在这一块是怎么优化的？

三、专题分析新用户留存

比如在前面那个架构图里面发现：关键路径数据发现曝光PV到点击PV的CTR很低。

应细致分析：对于新用户，应该曝光什么，在什么时候、什么位置曝光等等。

某个量大的二级渠道次留明显要低于其他渠道。应进一步分析：对于该渠道，用户的留存过低是因为本身渠道质量存在问题？用户已经安装竞品？当前产品设计与渠道用户不太匹配？同时高留存的渠道本身特征是什么？切入以上两点，就已经能给产品运营不少建议了，再配合A/B测试，就能看到数据分析效果

四、三个问题

Q1. 流量波动，数据突然涨了怎么分析——考察分析师的经验怎么样

举个例子：美团外卖近期的订单量突然下降 5%，需要分析师给出解释并提供下一步建议。

先对命题进行解析，订单量下降 5% 属于什么水位，影响范围有多大。如果发现对收入有重大影响，这个时候 CEO 都可能会关注这件事情，所以要更全面地分析原因。

具体的分析模块包括以下几点（如图所示）。

Q2. 常用一个App-考察分析师的思考深度怎么样

回答跟应聘岗位相关的 App，比如：你应聘公司的产品是 QQ 音乐。

- App 是网易云音乐。最喜欢网易云的每日推荐，最想吐槽的是很多时候通过搜索来选择听某歌，但是搜索栏里面没有语音输入，同时下面的热门搜索跟我的画像非常不准，都不是我喜欢的，那些歌、明星可能我都没听过。如果我是项目经理，我会先看热门搜索的点击率多少，如果较低说明确实有问题，可以把热门搜索功能与用户的画像匹配，实现千人千面，同时在搜索栏增加语音输入功能

- “怎么样评估这样做就能够带来指标的提升？ ”

- “这种先开始小流量 A/B 测试，然后再慢慢放量，如果效果还不错，就全量。”

- “能不能说下你对 A/B 测试的理解，如正交性，A/B 测试的设计……”

Q3:商业化变现—考察对商业的最终目的是否敏感

实际上分析师日常所有的 PV、UV、MAU、DAU 等都是围绕最终的本质目的——商业变现。

举例：面试官让你举例一款工具类产品，说说如何商业化。

- “以墨迹天气 App 为例，首页"天气" Button 是主流量入口，进行底部下拉时会出现资讯，而在资讯里面有较多广告 App 下载链接，所以这是一个 App 带量商业化时景 Button，内部有较多旅游景点、住宿类 App下载推荐，所以这里是一个自身 App 高相关商业化推荐。"Me" 这个 Button，分生活、娱乐、休闲、游戏四大板块，每个模块都有自己的商业化坑位。”

- “目前产品的主要商业化收入来自哪里，各自的 cpm 大概多少？”

- “主要来自"时景" button 的旅游景点推荐，cpm 大概在 6 元。”

- “当前产品商业化提升的痛点是什么，之前做过哪些优化方案，效果如何。”

你回答：“作为工具类产品，用户停留时长短，这是最大的痛点。作为一款天气 App，我发现用户周末效应非常明显，即周五晚上、周末用户很多，所以当时我就想是否存在一批用户群会在周末的时候出去游玩，加上后来的调研，发现果然是这样，所以我们就想跟这种旅游景点合作，做线下场景推荐，果然现在效果也是最好的。

五、日常工作分析/转型四步法

第一步：规划好自己，再评估准备

分析师有三个发展方向。

业务线：适合对事物感到好奇并深入研究，思维发散并且能收敛的同学，喜欢展示自我，逻辑思维较强。

研发线：适合写代码的同学，喜欢安静独处，计算机功底好，天生的程序员基因。

算法线：适合做研究的同学，数学功底好，因为很多时候要看各种国外论文。

小 A 思考几天后，发现自己挺适合业务型，那么就先评估一下自己。

第二步：评估自己

对于业务型数据分析师的考量标准有以下几种。

产品理解能力：各种数据熟悉度、用户从哪里来，进来后做了什么，用户反馈最多问题是什么，竞品数据怎么样。（请注意所有的都要用数据说话，而不是大概。）

分析方法论：常见分析方法有哪些，A/B 测试，最大概率法则，二八定律，幸存者偏差理解怎么样。

可视化能力： PPT 功底怎么样，专题报告逻辑性、金字塔原理、审美怎么样。

演讲能力：表达能力、讲故事能力、形象化能力、大心脏能力怎么样。

协作能力：跟产品、业务、研发沟通时的软技能、如何在团队中定义好自己位置并让其他人很舒服。

逻辑思维：分析推导过程的全面性、合理性、价值性。

技术： Excel 的常见操作、SQL 熟不熟练，R 能不能搭建模型并知道有哪些问题、Python 是否能很好地用上？

第三步：优化自己

以产品理解为例，先以 A 当前公司业务的产品为切入点，熟悉最核心的数据，了解功能渗透率和关键路径，以这些数据为切入点去思考当前产品有哪些问题。并与产品经理沟通如何优化，同时要去看竞品数据和行业数据，最重要的是深入了解而不是略懂。

所谓深入了解，是你知道整个视频行业各个不同阶段的领头羊是谁？他们依靠什么成为领头羊？又因为什么出现增长瓶颈？当前各自的打法侧重什么？对我们自身的 App 有什么借鉴？后续我们要监控哪些数据。

第二个优化是数据分析方法论，所谓方法论是能快速从一个较全面、逻辑性、价值性的角度去分析，而不是单点无架构性分析，所有方法论都是通过不断提炼、总结、实践得出来的。这是评估一个分析师水平的重要标准。

第四步：寻找对象并实践

七、如何挑选适合项目场景的数据分析工具

1、数据分析整体流程

明确问题，先把问题定义清楚，因为很多人还没理清问题就直接去看数据了；

搭建框架，定义问题之后再把问题考虑全面、找到一条分析主线；

数据提取，用 MySQL、Hive 等工具提取相关数据；

数据处理，用 Excel、R、Python 处理数据；

数据分析，以数据分析方法论为主来分析数据；

数据展现，用 Tableau、Excel、R、Python 工具把你的数据展现出来；

撰写报告，考验你的文笔功底以及整体逻辑性；

报告演讲，考验你沟通能力，表达能力，被提问能力。所有的报告撰写完成之后不要直接去讲，还是要和业务方进行大量的沟通，如果不提前做好沟通，你在会议或公众场合上讲时很容易被别人挑战；

报告闭环，这是最难也是最大价值的地方。

MySQL、Hive：基本上所有的数据获取方式都是通过 MySQL、Hive 这两种语言来实现，同时你要学习一些 Linux 命令，因为在排查数据异常时会用到。你需要对这两门工具超级熟练，因为数据提取环节是不能出错的，这一步有问题，后面就都有问题。

Excel：Excel 是最高频的数据处理工具。工作中你经常遇到的一种情况，你的 leader 直接让你现场画个图，这时你最有可能用 Excel 而不是 R、Python。

R：R 是一门统计型语言，专门为数据分析而生，简单易学，但缺点是计算能力确实比较差，你导入两个 GB 数据就有可能导致死机。

Python：Python 是一门真正的脚本语言，可扩展性极强，算法研发同学必备。而数据分析以 Pands 包为主，其他常用包含爬虫、文本挖掘

2、Excel 常用操作

先看 Excel 常用操作，一般通过 SQL 在数据库中提取数据，保存到本地 Excel，所以 Excel 是最基础也是最重要的一个数据分析工具，能用 Excel 坚决不用其他工具。

Excel 对比分析（筛选和色阶功能）

对比分析是数据分析中常见的一种分析方法。所有的数据只有对比才有意义，比如：每年的双 11 都会与之前的双 11 进行消费额对比。在工作中最常见的对比对象就是大盘，比如：新上线一个功能，怎么样评估这个功能效果，除了看功能使用人数，更要做这个功能和大盘的留存对比，如果高于大盘留存，代表这个功能有非常好的正向效应。

举例：我们需要看自身 App 与竞品的重合用户与自身 App 的所有用户在客户端内的消费差异，从而针对这些重合用户，做针对性运营，这时就要用到对比分析。

以微视这款 App 为例，你会看到第一列微视与抖音的重合用户消费分类和第三列微视大盘消费分类的消费 CTR 数据（如下图所示）。

这里的相对值 diff ，它的计算方式是第二列的消费 CTR 除以第四列的消费 CTR 再减 1 ，然后你会发现搞笑、舞蹈、明星、美食分类，它的相对值是很明显的正向，因此，我们会针对这部分重合用户多推这些内容，减少其他内容权重。这里用到一个色阶功能，看起来会更直观。

Excel—时间序列拆解分析（透视图功能）

时间序列二次拆解分析：一般看某指标时，都会把时序周期拉长，看数据趋势，而数据都是波动的，所以会进行拆解分析，寻找具体波动项。

举个例子：新增用户的次日留存近半年出现下降，需要进行渠道维度拆解分析，看整体下降是因为所有的渠道下降还是某个别的渠道下降导致的。时间序列拆解分析流程中，透视图功能：

Excel—相关性分析（常用函数功能）

Excel 的相关性分析会用到函数功能以及加载项功能。相关性分析落实到场景是：在做某个子产品的时候，都会被问到你这个子产品对大盘的贡献度或者说影响度，这个时候就可以用相关性去说话。

举个例子：想评估“微信读书”这款产品，“想法”这个底部 Button 子模块的留存对整体大盘的留存的影响度。我们要看“想法”Button 功能留存和大盘的留存在散点图上是一般相关性吗？我们都会先看散点图（如下图所示）：

图中发现趋势比较一致，这时要利用 Excel 的高级工具中的分析工具库做相关性分析。具体分析工具库怎么找？是在文件—选项—加载项—点击分析工具库，点击确定之后，在数据工具栏会出现数据分析这个模块，基于这个模块做相关性分析。（如下图所示）：

相关系数就是筛选数据，会在你指定的位置输出相关性系数（如下图所示）：

无论是相关性回归还是傅里叶系数，甚至偏机器学习，Excel 都可以做。

Excel—临界点分析（插入图表复杂功能）

excel 的临界点分析：对于任何一款产品，高活跃用户与低活跃用户在产品使用上必然不同，所以会存在某个指标，一旦用户在这个指标上的消费超过某个临界值时，后面用户会变得非常黏性，这就是 Magic number。

举个例子：对于滴滴 App，当前新用户留存较低，在分析的过程中，发现新用户在前三天一旦下单专车超过 3 次，留存就会大幅提升，所以滴滴搞了很多优惠活动，让用户基本上不花钱都可以坐车，所以滴滴留存大幅提升。

这是优惠券的使用人数以及对应的用户数及留存的原始数据（如下图所示）：

当把这个数据用插入图表的复杂功能做成这样一张图，一个柱状图还有一个折线图（如下图所示）。柱状图对应用户数，折线图对应留存，然后它的横坐标是优惠券的使用人数，使用次数。

从图中可以发现当前优惠券的使用次数是主要集中在 0、1、2 这三种情况，但是在折线留存上却是一个拐点，这代表如果用户对一个优惠券使用次数超过三次，它的留存就能发生质的变化，所以围绕这个点可以想各种各样的办法刺激用户使用优惠券。

3、SQL 常见问题

常见的问题：

---- Max 函数，对某一个误认为是数值型但实际是字符串型字段取最大值，采用 Max 函数，发现结果一直有错，如 13<9， -60<-70。

解决方法：在 MAX 括号里面的字段加一个零，把这个字段转化为数值型再进行比较。

复制select max(a+0)

---- **日期处理，**日期取年月份，时间戳取日期，日期格式转换等等需求，经常出现各种问题。

解决方法：先百度看用什么函数来转，在正式跑数据前，直接 select 函数（a）测试下。

一种特殊的日期处理是北京时间和 Unix 时间转换，代码如下：

复制select from_unixtime(time), select from_unixtime(cast(substr(time,1,10) as int))(毫秒计时)

---- 先聚合再计数，如果要计算某个维度下的用户数，不要直接算用户数 count(distinct imei)，而应该是如下代码：

复制Select city,count(1) as uv from（select city,imei,count(1) from a group by imei）t1 group by city

---- 一列变多行，ab 测试中会对一个用户打很多标签，而这些标签都是存在一个字段中，所以要看标签维度指标，就要对该字段进行列变行拆解，代码如下：

复制Select *,b from t1 Lateral view explode(a) table as b

---- 取 Top，要看某分类下的 Top10 消费额子分类（金额一致就并列），代码如下：

复制Select *,rank() over(partition by a order by b desc) as rank from table t1

---- 避免数据倾斜，小表在左，大表在右，使用 map join ，同时对空值进行过滤，代码如下：

复制Select /*+mapjoin(a)*/ t1.city,t2.type,count(t1.imei) as uv

From

（select imei,city,count(1) as pv from a where imei != ‘’ group by imei,city）t1

Join

（select imei,type,count(1) as pv from a where imei != ‘’ group by imei,type） t2

On t1.imei=t2.imei

Group by t1.city,t2.type

R 语言以及 Python 脚本案例

4、R 语言以及 Python 脚本案例

1、R 语言常见问题：对于一个产品的重要指标如留存，影响的因素非常多，需要找出这些影响因素的重要性，从而知道围绕哪些因素运营才能更好提升留存。这个问题产品经理一定会问你，实际上 SQL 和 Excel 明显都解决不了。

你需要换种方式理解上面这段话：哪些指标最能够区分用户留存还是未留存，越是明显区分，越重要。

再转化为机器学习语言：对于一个用户，他有一个 y（留存/未留存），还有很多 x（各种影响因素），需要找出 x 与 y 的关系，并给出 x 的重要度排序，可以用随机森林，逻辑回归，决策树来实现。

举例：根据用户的基础信息和行为信息来预测用户是否流失，并做出重要度排序。样本数据如下图所示：

这里面有用户标志、基础信息（年龄、婚姻、教育水平、开通月数），还有用户的行为信息项（基本费用、无线费用、电子支付、套餐类型），预测用户是否流失可以直接用决策树来实现。整体的基础代码非常容易（如下图左边所示）。虽然目前结果不理想，但是代码确实能够帮助找到切入点。比如从下图右侧可以发现，开通月数和电子支付这两个变量非常重要，因此就可以给产品运营一些建议，如何把这两个指标做起来。

R 语言这个例子你可以好好复盘下，先把业务提出的问题转化为机器语言，同时用一些代码来实现（代码不需要很复杂），借此来帮助业务找到切入点。

2、那么 Python 和 R 相比， R 的机器学习算法语言 Python 都能很快实现，而对于下面所说的几种情况，R 稍微来说就有一点难度了。

爬虫：爬虫在工作中价值很大，比如爬取一些竞品的数据，用 R 不方便。

举例：资讯类 App 的很多文章是通过爬虫下发给大家，像今日头条的一些文章。

文本挖掘：对评论数据研究价值很大，比如对 App 评论数据的分析，从而知道如何去做评论运营闭环。

举例：京东网易 App 的评论运营，其他 App 的热点评论置前。

UDF 函数：Hive 自定义函数有时并不能满足需求，此时就需要自己定义函数来实现需求，这时就可以用 Python 写个 UDF。

举例：计算机尼系数，Hive 中直接调用 UDF 能够很快输出，

对于算法研发同学：个性化推荐、底层运维、Web 开发都是通过 Python 来实现。

八、推荐书籍

1.《独立思考：日常生活中的批判性思维》，这本书可以帮你打破惯性的思维模式，突破思维上的误区与局限，训练理性与逻辑能力，让你做出最正确的判断与决策，可以让你看得更高，走得更远。

2.《京东平台数据化运营》，这本书公开了京东平台的许多实操案例，例如关于 APP端、微信端、手机QQ端等无线流量的详细介绍；此外，还有关于优化搜索流量的方法和步骤，以及关于转化率相关指标的优化方法。本书贴近真实业务，有不少方法可以套用。

3.《机器学习》，数据分析师必须要懂点算法的知识，这是人工智能领域的一本入门教材。

4.《大数据之路》，系统地从规范，模型，平台，应用等多层次对阿里大数据产品实践做了一遍梳理，通俗易懂的介绍了大数据平台的架构。

5.《数据仓库工具箱》，这本书涉及的行业较多，从不同角度体现了数据仓库的各个方面，对维度建模知识讲的很透彻。