一、数据处理
根据数据分析目的将搜集到的数据用适当处理方法加工处理,占80%,必不可少的阶段。
1、数据规范
所具备规范和要求:
第一,数据表由标题行(字段)和数据部分(记录)组成;
第二,数据表第一行是表的字段名称,不能重复;
第三,第二行起是数据部分,每一行称为记录,不允许出现空白行和空白列,保持完整性;
第四,一个单元格只记录一个属性的数据,切勿重复;
第五,数据表不能有合并单元格;
第六,数据表需要一维表的形式。一维表也叫流水线表格,每一行是否为独立的变量
数据处理——将原始表处理为便于分析的一维表形式。
2、数据导入
第一,文本导入
出现乱码,语言改为简体中文,设置数据格式,数据放置位置
第二,数据库导入
如果数据库的数据超出Excel范围不可选择导入表,通常选择导入数据透视表
第三,网站导入
复制网址,自网站,粘贴网址,导入;单击鼠标右键,刷新数据,也可选择刷新频率
3、数据清洗
第一,重复数据处理
数据透视表法、菜单删除法、条件格式标识法、高级筛选法
函数法(countif)、
第二,缺失数据处理
取消合并单元格后,定位条件:Ctrl+G或F5,=加向上箭头,自动填充:Ctrl+Enter
第三,空格数据处理
查找替换:Ctrl+H,函数法:Trim
4、数据抽取
保留原数据表中某些字段记录的部分信息,形成新字段新纪录,数据拆分。
第一,字段拆分
菜单法:数据-分列;
函数法:MID、LEFT、RIGHT
第二,记录拆分
随机抽样:RAND+RANK+填充(去除公式)+VLOOKUP
按字段拆分:常用工具7.3
5、数据合并
包含字段合并、字段匹配、记录合并三大类
第一,字段合并
函数法:CONCATENATE(字符型)、&(字符型)、DATE(数值型)
第二、字段匹配
单条件:VLOOKUP(精确匹配)
注意事项:匹配范围中关键字段必须在第一列,第三个参数表示关键字段为参照的列数,注意字段类型要一致。
思考:如何进行多条件匹配?
6、数据计算
简单计算:加、减、乘、除
函数计算:日期计算、数据标准化、加权求和、数据分组等
第一,日期计算
函数法:DATEDIF(起始日期,结束日期, "日期格式参数")
日期格式参数:Y-年,M-月,D-天
*DATEDIF函数无法查找,只能手动输入;日期格式参数必须在英文双引号里;参数大小写不影响
第二,数据标准化
将数据按照比例缩放,使其落入特定区间,消除变量间因不同单位造成的差异,使数据具有可比性。
*常用的数据标准化方法为0-1标准化,公式:X*=(X-min)/(max-min)
第三,加权求和
权重:该指标在整个指标评价体系中的相对重要程度,表示在其他指标不变的情况下,该指标的变化对结果的影响程度。
*函数法:SUMPRODUCT(区域1,区域2)
第四,数据分组-IF函数
函数法:IF(条件,满足条件结果,不满足条件结果)
IF函数有嵌套层数限制;对逻辑思维能力要求高,编写麻烦,易出错;
第五,数据分组-VLOOKUP函数
VLOOKUP模糊匹配
首先需要准备数据分组对应表,主要由阈值和分组标签组成,阈值必须进行升序排序,否则会出错。
7、数据转换
第一,行列转置
选择性粘贴-转置
第二,数据类型转换
l文本→数值:选择性粘贴-运算,智能标记-转换为数字,数据-分列(优先选择)
l数值→文本:数据-分列,TEXT函数
l数值→日期:设置单元格格式-日期、数据-分列
第三,二维表转一维表
数据透视表法:多重合并计算(Alt+D,+P)
*作业:三维表转一维表
二、数据分析
1、对比分析
将两个或两个以上的数据比较,分析差异性,发现事物发展变化情况和规律。
日期分组,环比计算,同比计算
2、结构分析
分组的基础上计算各组成部分所占比重,进而分析总体的内部结构比重,比如市场占有率。
定性分组:按业务的属性划分、占比计算
3、分布分析
根据分析目的将数值型数据进行等距或不等距的分组,消费、收入、年龄等分布分析。
定量分组:VLOOKUP函数,数据透视表
*柱状图的顺序必须从小到大,不能改变X轴的顺序
数据透视表可以快速实现分组,不可以进行不等距分组;
VLOOKUP函数可以实现不等距分组,并且可以生成一个实际字段供使用者选择和分析。
因此,拿到一组数据后,在不知道具体分许特征的情况下,可以先用数据透视表快速了解数据分布特征,然后利用VLOOKUP进行针对性分组,划分更适合的分组范围。
*作业:如何统计购买日期间隔分布?数据存在一个用户多条购买日期数据。
4、交叉分析
用于分析两个或两个以上分组变量间的关系,并以交叉表的方式进行变量之间的对比分析。
l定量、定量分组交叉
l定量、定性分组交叉
l定性、定性分组交叉
*分组可以两个以上,但分组变量越多,越难以发现规律;因此,一般两个分组变量足以。
*在数据透视表中双击单元格可以得到用户明细表
5、矩阵分析
根据两个重要属性作为分析依据进行关联分析,找出问题解决办法。
分四个象限,做矩阵图不要选择表头和标签
6、多表关联分析
根据各个表共有的关键字段进行数据记录的一一对应,相当于VLOOKUP的匹配功能,2013版以上才有
通过两个表之间的共有字段,进行关联分析
7、RFM分析
相当于三个维度的交叉分析
三、数据展现
1、用图表说话,把分析结果用合适的图形或表格展现给读者或听众,使其更容易理解作者的观点。
成分:首选饼图
排序:首选柱形图,若标签太长可考虑条形图
分布:首选柱形图
趋势:首选折线图
相关:首选散点图
2、双坐标轴图
当数据序列为两个或两个以上,并且单位不同或者数据量级差别较大,可使用双坐标轴。
3、目标完成率图
反应业务目标完成情况。需要用到XY Chart
Labeler插件
4、雷达图
当数据的项目和序列大于两个时,用柱形图非常不直观,建议使用雷达图
5、矩阵图
用法同矩阵分析。矩阵图基于散点图绘制
*注:制作矩阵图,不要选择标签和数据对应的表头,只需选择数据本身。
6、漏斗图
对业务流程最直观的表现形式,可快速发现业务流程中出现问题的环节。
漏斗图在堆积条形图的基础上绘制,需要计算占位数据*公式=(总数据-该环节数据)/2*。
7、旋风图
第一,用于两个数据序列不同指标或不同项目之间的对比;
第二,表示两个数据之间的相关关系
8、帕累托图
也被称为排列图、主次图,主要用于质量分析,原因定位等,原理来自于帕累托原则——二八法则。先绘制直方图,累计百分比做折线图
9、迷你图
起到快速查看数据趋势和分布,不用绘制出折线图或柱形图,是2010版以上才具有的功能。
条件格式(可自定义规则):数据条、色阶、图标集
10、图表美化
三大原则
字体统一:大小、颜色、字体
排版简洁:最大化数据墨水比原则,即保留有效元素,去除无效元素,淡化非主要元素
配色协调:不超过三种,把握不准可只使用一种颜色