优秀的数据分析师需要具备这样一些素质:有扎实的 SQL 基础,熟练使用 Excel,有统计学 基础,至少掌握一门数据挖掘语言(R、SAS、Python、SPSS),有良好的沟通和表达能力,做好 不断学习的准备,有较强的数据敏感度和逻辑思维能力,深入了解业务,有管理者思维,能站在 管理者的角度考虑问题。
首先,要打好扎实的 SQL 基础。
SQL 基础之所以重要,是因为数据分析师分析的数据大多都是从数据库中提取而来的。有良好的 SQL 功底并能熟悉使用,不仅能提取到需要的数据,还能大大提高工作效率。尽管有部分数 据可以通过报表等其他途径获得,但绝大多数的数据仍需要通过自己写 SQL 语句。对于一些需要 深入分析用户行为的数据,用 SQL 提取数据的时间可能会占据整个数据分析过程的 50%,甚至 80%,而对于未开发成数据报表的常用数据需求,比如游戏封测、开测期间的日报和周报,则需 要编写大量的 SQL 语句来查询相应数据,这时如果熟悉存储过程,能够自动化或半自动化地实现 日常数据收集,就会事半功倍了。
目前使用较多的数据库有 MySQL、SQL Server 和 Oracle,数据分析师必须掌握的常用语句和函数有如下几种。
(1)合计和标量函数:Count、Max、Sum、Upper、lower、Round等。
(2)distinct——distinct 关键字可以过滤重复的数据记录。
(3)Top——结合 select 语句,Top 函数可以查询头几条和末几条的数据记录(仅限 SQL Server, 在其他数据库,可用 limit 语句、rownum 列等方式实现相似的目的)。
(4)Order By——结合 select语句,Order By 可以让查询结果按某个字段正序和逆序排列。
(5)Group By——Group By 子句可以对查询的结果集按指定字段分组。
(6)Group By & Having 子句——Having 语句基于 Group By,定义分组条件。
(7)Inner Join,Left Outer Join,Right Outer Join and Full outer Join——多表的列关联,即通过 Join 可以将不同物理表中的数据列根据一定的关联条件合并成一个结果集。
(8)Union 合并查询:Union/Union ALL 查询可以把多张表的数据行合并起来,Union 在合并 时重复的数据仅保留一行,而 Union ALL 则是直接合并,不会处理重复行。 在大数据时代,有很多查询工具可供选择。Hive 和 SQL 是目前比较主流的工具。Hive 是基 于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的 SQL 查询功能,可以将 SQL 语句转换为 MapReduce 任务进行运行。Hive 和 SQL 是非常相似的, 主要的区别就是 Hive 缺少更新和删除功能。如果你可以熟练使用 SQL,就可以平稳过渡到 Hive。 另外,一定要注意两者在结构和语法上的差异。
其次,要熟练使用 Excel。
Excel 可以进行各种数据的处理、统计分析和辅助决策操作,作为常用的数据处理和展现工 具,数据分析师除了要熟练将数据用 Excel 中的图表展现出来,还需要掌握为生成的图表做一系 列的格式设置的方法,如:系列格式美化、三维格式美化,以及坐标轴和网格线设置等,图表可 以与函数或宏等功能一起联用,制作出模拟图表或带有交互效果的高级图表,比如在中国地图上标注各省的人口分布等,实现这些能得到更好地数据分析和查看效果。Excel 里面自带的数据分析 功能,很大程度上能完成专业统计软件(R、SPSS、SAS、Matlab)的数据分析工作,这其中包括 描述性统计、相关系数、概率分布、均值推断、线性、非线性回归、多元回归分析、时间序列等 内容。熟悉使用 Excel 的各项功能对一名优秀的数据分析师来说非常重要。
再次,要有统计学基础。
统计学是收集、处理、分析、解释数据并从数据中得出结论的科学,其中的理论及依据就是 数据分析的理论和依据。统计学是数据分析的理论基础,可以使数据分析更加系统化,以系统的 数据科学作为数据分析的指导,才会更好地为数据分析服务。没有统计学基础的分析师的职业发 展之路不会长远,因为其在工作中可能会常常遇到不知道该用什么方法找寻数据规律的瓶颈,因 此掌握数据分析的统计学基础知识是成为一名优秀数据分析师的基础,这也是在招聘数据分析师 岗位时要求应聘者具有统计学知识的原因。当然,如果不是统计或数学专业,分析师还可以通过 自学统计学相关书籍的方法学习。
统计学知识主要包含:用于集中趋势分析的平均数、中数、众数;用于离中趋势分析的全距、 四分差、平均差、方差、标准差;研究现象之间是否存在某种依存关系的相关分析;确定两种或 两种以上变数间相互依赖的定量关系的回归分析;揭示同一个变量的各个类别之间的差异,以及 不同变量各个类别之间的对应关系的关联分析、R-Q 型因子分析;研究从变量群中提取共性因子 的因子分析;用于两个及以上样本均数差别的显著性检验的方差分析;概率及分布、参数估计、 假设检验等经典统计学内容。
最后,至少熟悉并精通一种数据挖掘工具和语言。
以 R 语言为例,R 编程语言在数据分析与机器学习领域已经成为一款重要的工具。R 作为脚 本语言凭借其良好的互动性和丰富的扩展包资源可以方便地解决大部分数据处理、变换、统计分 析、可视化的问题,并可以重现所有的细节。R 的优势在于有包罗万象的统计函数可以调用,特 别是在时间序列分析方面(在游戏行业也有很好的应用),无论是经典还是前沿的方法都有相应的 包可以直接使用。因此,掌握 R 语言可以提高整体的生产力。然而,要成为一名优秀的数据分析 师,仅学会使用一门语言远远不够,还需要修改数据挖掘语言的程序包或模型,因为现有的程序 包或模型有局限性,在前期数据处理上还是不够自由,如异常值的处理、变量处理等,而自己写 代码编程也可以根据自己的需求进行编写,实现更多的个性化需求。
一名优秀的数据分析师,还应该主动熟悉业务。
以游戏公司为例,如果不熟悉游戏产品制作流程、系统架构、基本运营思路,不知道游戏玩家的基本游戏行为和情感诉求,那么数据分析工作就相当于空中楼阁,所以要多了解策划人员的 游戏设计理念、运营人员的版本计划,抓住一切机会多观察和学习其工作思路和方法,并参与其 具体的实施过程,这样才能逐步积累真正的游戏业务经验。现实情况中很多游戏数据分析师都没有这样的经历,也就没有相关的经验积累,所以他们大多数的工作产出主要是一些非产品相关的 平台数据分析内容和结论;当然,笔者相信并非他们不愿意去积累,而是受限于企业中的一些机 制,比如大多数游戏数据分析师是在技术部门或平台部门,而非具体的产品部门,少有切实深入 到业务现场的机会。在这种环境下,更需要自己主动去了解业务,多玩游戏,多主动和产品部门 联系,若脱离行业认知和游戏业务背景,即使有很好的统计学功底,分析的结果也往往只能停留 在数据解读层面,甚至出现因为不了解业务背景而使结论错误的情况。从另外一个角度来说,懂 业务也是数据敏感的体现,不懂业务的数据分析师,看到的只是一个数字。反之,懂业务的数据 分析师,则看到的不仅仅是数字,他明白这个数字代表什么意义,更能针对数据分析结论提出有 针对性的建议,对产品或者企业来说都是非常有价值的。
懂游戏业务是做游戏数据分析师的基本要求,这种观点不仅适用于游戏行业,对任何其他行业也是一样的道理。优秀的分析师不仅要懂业务,而且要非常熟悉业务。
撰写报告的能力对成为一名优秀的分析师来说也非常重要。
即便有严谨的分析思路和有价值的数据资料,如果不能将其写成报告,或者写的报告未能准确清楚地表达出数据中隐含的规律,那数据的价值将大打折扣。一份好的分析报告,数据资料是 功底,报告的框架是支柱,报告的格式是军装,独特见解是亮点,预测方法是刀枪,正确的判断 是见证。在撰写报告时,深入地思考,深入分析,逻辑严谨,结论有说服力,能提前预测数据趋 势,能从问题中引申出解决方案,提出有指导意义的分析建议,这些都是一名优秀的分析师所体 现的特质。
除了以上的硬实力,数据敏感力、逻辑思维能力、归纳能力、批判性思维能力、交流沟通能力、责任力这些软性的技能也是优秀分析师必须具备的素质。另外,如果分析师能站在更高的角 度思考问题,有管理者的思维,则能在众多分析师中能脱颖而出。
以上有些素质是我们在入职场之前就具备的,而有些则需要进入行业环境后逐步积累和建立。 成为优秀的数据分析师需要具备过硬的业务素养和技术能力,这绝非一朝一夕之功,需要在实践 中不断成长和升华。一个优秀的数据分析师应该以数据价值为导向,放眼全局、立足业务、善于 沟通,认真对待每一次的数据分析工作,在工作中快速成长。
End.
作者:黎湘艳 叶洋