如何盖一栋大楼?
我有一个体会,要想高效的掌握某方面的知识,除了要投入时间精力认真学习思考具体的知识点,还要从更宏观和更微观的角度去观察该领域,从而建立更加全面的认知。这个过程很像是盖楼:
1.宏观上,得有科学、牢固的主体结构
2.操作上,得有高强度的粘合剂,将各种材料固定在主结构上
3.微观上,得有充足且质量过硬的基础建材
结合以上,我将数据分析的学习也想象成了一个盖楼的过程,并据此从以下三点对这一个多月来的学习进行一个总结:
钢结构——框架认知
混凝土——思考体悟
砖瓦块——定义描述
【PART1. 钢结构】框架认知
钢结构,是一栋大楼核心骨架,应当满足两点:
1.科学坚固,保证相关的概念、心得可以高效的建构在上面。
2.简洁清晰,易于记忆和调取,从而指导相关工作、学习的开展;
下面就从“事”和“人”两个角度来阐述我的框架认知
【事】对数据分析的整体认知
基本认知:
定义(WHAT):有目的搜集数据,提炼信息,找出规律,形成结论的过程。
价值(WHY):支撑科学决策,助力业务优化。
基本流程(HOW)
结合了解到的大大小小多个数据分析流程及个人对数据分析的理解,我总结了以下数据分析流程,其步骤及主要任务如下:
- STEP1.业务理解—— 搞清楚 [Who how to do what things with whom,by what tools,and howmuch money/time/energy at where, in when, for why.]
明确目的:为什么要进行分析,要实现什么价值
定义问题:澄清问题的RSQC-PE(范围边界Range、进度时间Schedule、质量效果Quality、成本投入Cost、干系同路人People、预期成果Expection)
拟定方案:设定假设及基本故事线
- STEP2 数据搜集—— 获得原始数据并确定可用
采集:获取原始数据
检核:评估数据质量
探索:简单观察数据
- STEP3 数据处理—— 根据分析目的,对数据进行整理加工,得到适合数据分析要求的样式
清洗:剔除无效数据
校正:对数据进行微调以使其符合分析需要
- STEP4 数据分析—— 围绕发现关联、验证假设、预测变化开展分析
描述性分析:发生了什么,什么正在发生?
推断性分析:为什么发生,还可能发生什么?
- STEP5 直观展示—— 让客户在30秒钟内看懂你的数据。
可视化:用图形直观展示数据背后的信息
视觉优化:减少信息干扰,降低认知难度,提升美感和易读性
- STEP6 讲解汇报—— 讲一个好故事,将结论高效传递给客户
讲解分析结论/撰写分析报告——综合阐述假设、证明、结论、建议
【人】数据分析师需要的素养
结合工作室培训、书籍及相关文章,梳理出了数据分析师需要具备的素养,作为学习提升的参照系。
思维
- 结构化:
将事物抽象、分类成更小的元素,以便发现关联关系,找出关键要素。 - 公式化:
将各个要素量化、运算为可比较评价的指标。 - 业务化:
将各要素带入业务场景,结合成本、收益、机会、风险等,找出性价比最高的控制要素。
素质
懂:
管理&业务
工具&分析
展示&设计
擅:
严谨&好奇
沟通&学习
模仿&创新
技能(初级)
- 统计学
信息图形化、条件概率、贝叶斯公式、相关与独立、几何分布、二项分布、泊松分布、正态分布、统计抽样、估计、置信区间、假设检验 - 软件工具
- Tableau
数据源:连接、表关联、数据提取
数据处理:拆分、数据透视表、维度/度量、离散/连续、分层结构
表计算:百分比、同环比、表计算方向
计算字段:逻辑函数、日期函数、文本函数、空值函数
筛选器:维度筛选器、度量筛选器
基本图表:折线图、条形图、饼图、双轴图、散点图等
仪表板:大小、容器、布局等
简单的参数、组、集使用方法
简单的参考线、参考区间使用方法
基本的格式设置 - SQL
查询、存储 - R
命令行用法
基本的数据分析库包(tidyr,dplyr,ggplot2) - Python
基本语法
函数和相关库包(numpy, pandas, matplotlib, sklearn)
- Tableau
【PART2.混凝土】个人体悟
一个中心
如果有人问我数据分析的中心词是什么,我会认为是“相关”,无论哪种类型的分析,其背后的逻辑都是找到一组相关,然后通过对这组相关的论证运用来支撑决策,优化业务。
由此想到,如果用最简化的语言概括数据分析,就是猜测相关、检验相关、运用相关。
两个主题
将上面说的检验相关、运用相关,用另一种更常见的方式表达,就找到了了数据分析工作的两个核心主题——验证假设、预测变化
三个隐喻
①厨师
上面提到的数据分析6步流程,相对比较抽象,我将之映射成了一个更直观的过程——厨师烹饪
- 业务理解——确定点单
明确客人想吃啥,自己要做的菜品和数量 - 数据搜集——获取食材
根据要做的菜品去搜集需要的食材,并检验食材的质量。
这些食材,有些是野菜随处可见(公开数据),有些是自家种的菜(企业内部数据),有些是得花钱买的菜(外部隐私数据),有些是偷的菜(爬取数据) - 数据处理——洗菜切菜
将食材清洗、切割以便加工烹饪 - 数据分析——加工烹饪
通过各种方法,最大化发掘出食材的美味。
我们可能会发现有些食材需要特殊的厨具和方法才能烹饪。这就是数据挖掘,这些特殊的厨具和烹饪方法,就是数据挖掘里用到的各类算法和模型。 - 直观展示——装碗摆盘
装碗以便于客人夹取食用,摆盘增加美观度以提升食欲 - 讲解报告——上桌成席
送到客人面前进行品尝
②侦探
数据分析师开展工作时的感觉很像侦探在调查案子,先要仔细去探查现场(理解业务),再事无巨细的搜集线索(数据搜集),大胆的做出假设(猜测相关),再认真仔细的去验证假设。总有一些秘密等着我们去发现,这正是数据分析的乐趣所在。
③预言家
在电影《黑客帝国》中,先知是一个计算机程序,因为可以读取Matrix的所有数据,所以能预见未来,这正是数据分析想要实现的终极目标。上图中对于先知描述正像预言家做的一眼:解读需要智慧、无法保证预测一定正确、不能代替人做决定,也和数据分析工作如出一辙。
十个元素
数据可视化的是将抽象的数据转化为直观视觉信息,从而发现和凸显数据之间的关联。
将这个过程进一步拆解,我们会发现数据可视化本质就是将多个维度/度量合理的安排到多个视觉元素当中,使人能从单个图像上获取更多维的信息。从这个角度理解,常见的图表不过是一些视觉元素的常用组合方式。只要理解了所有的视觉元素,我们就可以构建更加独特的可视化效果。基于此,我找到了十个视觉元素,分别是
七个基础视觉元素:颜色、形状、尺寸(大小)、位置、亮度、纹理、角度
三个衍生可识别视觉元素:符号、文字、阵列
以上十个视觉元素可以用一句话记忆“色型尺位亮纹角,符号文本阵列表”
无数个视角
对于数据分析,维度是个至关重要的概念,广义上说,维度就是观察事物的视角,往往表现为一种分类方式,用以规范化的描述事物的某些特征。这组分类可以是文字、数字甚至任何可区分的符号。
当表现为一组离散的、可穷尽的类别时,就是Tableau里的的[维度]。
当表现为一段连续的、不可穷尽的数值时,就是Tableau里的[度量]。
无论我们怎么称呼它们,它们都只是观察事物的角度而已,这种角度可以有无数多个。于是我们可以有n个[维度]、[度量]、分类方式,以及nxn个类别,同时我们需要明白,所有这些类别都是为了便于人类认知而人为设定出来的,本质是通过对客观事物进行抽象简化,降低认知的难度。
所以,我们完全可以根据自己的需要建立超越已有分类方式的维度。只要满足MECE(相互独立、完全穷尽),任何你能想到的分类方式都可以成为一个新的维度,这种创造维度的活动其实很常见,比如企业根据自身情况进行的客户分类画像。
综合以上,我们就会发现数据分析的过程,其实是通过不同[维度]的组合来切割或整合出新的视角,并在该视角下观察[度量]值的变化,以发现和验证相关,这点在使用Tableau等可视化分析工具时感受会尤为明显。不同维度的组合方式,决定了观察数据的视角和颗粒度。
【PART3附录.砖瓦块】定义描述
以下是截止目前收集到的数据分析相关概念及部分描述,因内容较多,为避免干扰,以链接形式展示→定义描述
关键词回顾——先知夏洛克的餐馆
- 先知——隐喻③预言家——核心主题之预测变化
- 夏洛克——隐喻②侦探——核心主题之验证假设
- 餐馆——隐喻①厨师——数据分析流程