Excel数据分析实战

一、数据处理

根据数据分析目的将搜集到的数据用适当处理方法加工处理,占80%,必不可少的阶段。

1、数据规范

所具备规范和要求:

第一,数据表由标题行(字段)和数据部分(记录)组成;

第二,数据表第一行是表的字段名称,不能重复;

第三,第二行起是数据部分,每一行称为记录,不允许出现空白行和空白列,保持完整性;

第四,一个单元格只记录一个属性的数据,切勿重复;

第五,数据表不能有合并单元格;

第六,数据表需要一维表的形式。一维表也叫流水线表格,每一行是否为独立的变量

数据处理——将原始表处理为便于分析的一维表形式。

2、数据导入

第一,文本导入

出现乱码,语言改为简体中文,设置数据格式,数据放置位置

第二,数据库导入

如果数据库的数据超出Excel范围不可选择导入,通常选择导入数据透视表

第三,网站导入

复制网址,自网站,粘贴网址,导入;单击鼠标右键,刷新数据,也可选择刷新频率

3、数据清洗

第一,重复数据处理

数据透视表法、菜单删除法、条件格式标识法、高级筛选法

函数法(countif)、

第二,缺失数据处理

取消合并单元格后,定位条件:Ctrl+G或F5,=加向上箭头,自动填充:Ctrl+Enter

第三,空格数据处理

查找替换:Ctrl+H,函数法:Trim

4、数据抽取

保留原数据表中某些字段记录的部分信息,形成新字段新纪录,数据拆分。

第一,字段拆分

菜单法:数据-分列;

函数法:MID、LEFT、RIGHT

第二,记录拆分

随机抽样:RAND+RANK+填充(去除公式)+VLOOKUP

按字段拆分:常用工具7.3

5、数据合并

包含字段合并、字段匹配、记录合并三大类

第一,字段合并

函数法:CONCATENATE(字符型)、&(字符型)、DATE(数值型)

第二、字段匹配

单条件:VLOOKUP(精确匹配)

注意事项:匹配范围中关键字段必须在第一列,第三个参数表示关键字段为参照的列数,注意字段类型要一致。

思考:如何进行多条件匹配?

6、数据计算

简单计算:加、减、乘、除

函数计算:日期计算、数据标准化、加权求和、数据分组等

第一,日期计算

函数法:DATEDIF(起始日期,结束日期, "日期格式参数")

日期格式参数:Y-年,M-月,D-天

*DATEDIF函数无法查找,只能手动输入;日期格式参数必须在英文双引号里;参数大小写不影响

第二,数据标准化

将数据按照比例缩放,使其落入特定区间,消除变量间因不同单位造成的差异,使数据具有可比性。

*常用的数据标准化方法为0-1标准化,公式:X*=(X-min)/(max-min)

第三,加权求和

权重:该指标在整个指标评价体系中的相对重要程度,表示在其他指标不变的情况下,该指标的变化对结果的影响程度。

*函数法:SUMPRODUCT(区域1,区域2)

第四,数据分组-IF函数

函数法:IF(条件,满足条件结果,不满足条件结果)

IF函数有嵌套层数限制;对逻辑思维能力要求高,编写麻烦,易出错;

第五,数据分组-VLOOKUP函数

VLOOKUP模糊匹配

首先需要准备数据分组对应表,主要由阈值和分组标签组成,阈值必须进行升序排序,否则会出错

7、数据转换

第一,行列转置

选择性粘贴-转置

第二,数据类型转换

l文本→数值:选择性粘贴-运算,智能标记-转换为数字,数据-分列(优先选择)

l数值→文本:数据-分列,TEXT函数

l数值→日期:设置单元格格式-日期、数据-分列

第三,二维表转一维表

数据透视表法:多重合并计算(Alt+D,+P)

*作业:三维表转一维表

二、数据分析

1、对比分析

将两个或两个以上的数据比较,分析差异性,发现事物发展变化情况和规律。

日期分组,环比计算,同比计算

2、结构分析

分组的基础上计算各组成部分所占比重,进而分析总体的内部结构比重,比如市场占有率。

定性分组:按业务的属性划分、占比计算

3、分布分析

根据分析目的将数值型数据进行等距不等距的分组,消费、收入、年龄等分布分析。

定量分组:VLOOKUP函数,数据透视表

*柱状图的顺序必须从小到大,不能改变X轴的顺序

数据透视表可以快速实现分组,不可以进行不等距分组;

VLOOKUP函数可以实现不等距分组,并且可以生成一个实际字段供使用者选择和分析。

因此,拿到一组数据后,在不知道具体分许特征的情况下,可以先用数据透视表快速了解数据分布特征,然后利用VLOOKUP进行针对性分组,划分更适合的分组范围。

*作业:如何统计购买日期间隔分布?数据存在一个用户多条购买日期数据。

4、交叉分析

用于分析两个或两个以上分组变量间的关系,并以交叉表的方式进行变量之间的对比分析。

l定量、定量分组交叉

l定量、定性分组交叉

l定性、定性分组交叉

*分组可以两个以上,但分组变量越多,越难以发现规律;因此,一般两个分组变量足以。

Excel数据分析实战_第1张图片
Excel数据分析实战_第2张图片

*在数据透视表中双击单元格可以得到用户明细表

5、矩阵分析

根据两个重要属性作为分析依据进行关联分析,找出问题解决办法。

分四个象限,做矩阵图不要选择表头和标签

6、多表关联分析

根据各个表共有的关键字段进行数据记录的一一对应,相当于VLOOKUP的匹配功能,2013版以上才有

Excel数据分析实战_第3张图片

通过两个表之间的共有字段,进行关联分析

7、RFM分析

Excel数据分析实战_第4张图片

相当于三个维度的交叉分析

三、数据展现

1、用图表说话,把分析结果用合适的图形或表格展现给读者或听众,使其更容易理解作者的观点。

Excel数据分析实战_第5张图片

成分:首选饼图

排序:首选柱形图,若标签太长可考虑条形图

分布:首选柱形图

趋势:首选折线图

相关:首选散点图

2、双坐标轴图

当数据序列为两个或两个以上,并且单位不同或者数据量级差别较大,可使用双坐标轴。

3、目标完成率图

反应业务目标完成情况。需要用到XY Chart

Labeler插件

4、雷达图

当数据的项目和序列大于两个时,用柱形图非常不直观,建议使用雷达图

5、矩阵图

用法同矩阵分析。矩阵图基于散点图绘制

*注:制作矩阵图,不要选择标签和数据对应的表头,只需选择数据本身。

6、漏斗图

对业务流程最直观的表现形式,可快速发现业务流程中出现问题的环节。

漏斗图在堆积条形图的基础上绘制,需要计算占位数据*公式=(总数据-该环节数据)/2*

7、旋风图

第一,用于两个数据序列不同指标或不同项目之间的对比;

第二,表示两个数据之间的相关关系

8、帕累托图

也被称为排列图、主次图,主要用于质量分析,原因定位等,原理来自于帕累托原则——二八法则。先绘制直方图,累计百分比做折线图

9、迷你图

起到快速查看数据趋势和分布,不用绘制出折线图或柱形图,是2010版以上才具有的功能。

条件格式(可自定义规则):数据条、色阶、图标集

10、图表美化

三大原则

字体统一:大小、颜色、字体

排版简洁:最大化数据墨水比原则,即保留有效元素,去除无效元素,淡化非主要元素

配色协调:不超过三种,把握不准可只使用一种颜色

你可能感兴趣的:(Excel数据分析实战)