使用Excel来进行数据处理

什么是数据处理?

数据处理就是把,杂乱无章的数据,经过科学的系统的整理之后,变成我们所需要的数据的一个过程叫数据处理。

数据处理所经过的步骤

1、数据清洗

在数据清洗里主要是干这么三件事

  • 剔除重复数据

有四种处理重复值的方法
1.函数法
COUNTIF(你需要检查的区域,你指定的条件)对区域中满足指定条件的单元格进行计数
条件可以为,数字,字符串或者文本,例如:32、‘23’,‘>32’,'apple'
2.高级筛选法
选择要筛选的区域--》数据选项卡--》排序和筛选--》高级--》高级筛选--》将筛选结果复制到其他位置,在勾选选择不重复的记录,点击确定
3.条件格式法
(excel2010以后才能使用) 开始--》条件格式--》突出显示单元格规则--》重复值(重复值被标为不同的颜色)
4.数据透视表法
插入选项卡,新建数据透视表--》选择区域--》选择重复数据--透视表存放位置--》现有工作表--》指定为重复数据
--》将你要查重的字段拖至标签--》在拖至区域汇总


找到重复数据之后,我们需要剔除重复数据,那么剔除重复数据,有哪几种方法呢?
1.通过菜单栏操作删除重复项
选择要检查的区域,数据--》删除重复项--》选择要删除的列--》确定

2.通过排序删除重复项
选择单元格--》排序和筛选--》降序--》前面是重复项,删除

3.通过筛选删除重复列(有点复杂)
选择单元格--》排序和筛选--》筛选--》在列标签中单击下拉菜单,按照你的筛选条件--》确定

  • 补全缺失数据

在这里说明一件事,如果缺失值过多,说明数据收集有问题,可以接受的缺失值是在10%以下
1.定位输入

  • 定位缺失值
    定位功能:开始--》编辑--》定位条件/Ctrl+g--》定位条件--》空值--》确定

这里使用定位输入对缺失值的处理有四种
1..使用样本统计量的值代替缺失值。最常见的是使用平均值来代替缺失值
2.使用统计模型的值代替缺失值(回归模型 判别模型,需要专业的数据软件)
3.删除有缺失值的记录,会导致样本数量减少
4.将有缺失值的记录保留,在分析时候记得排除

实际中,使用第一种是比较常见的,我们采用定位一次,替换全部的方法(使用enter+Ctrl)

  • Ctrl+enter用作在不同区域输入相同的值,
  • 先使用ctrl选择要输入的区域
  • 在输入要录入的内容
  • 松开CTRL 使用CTRL+enter 成功

2.查找和替换
当缺失值以错误的标识符出现时候,可以使用
开始--》编辑--》查找和替换
或者
Ctrl+G(定位)ctrl+f(查找) ctrl+h(替换)

  • 纠正错误数据

逻辑错误一般有两种
1.输入不符合要求
2.信息录入错误

一般情况下IF函数+特定的逻辑条件可以解决大部分问题

  • IF函数()
    里面有三个参数
    1.判断的表达式
    2.表达为真时候显示的值
    3.表达式为假时候显示的值

EG:IF(COUNTIF(B3:H3,'<>0')>3,'错误',‘正确’)
含义是:当B3:H3区域里,出现不等于0 的数,大于三个,显示正确,小于三个显示错误

利用条件格式标记错误
开始--》条件格式--》突出显示条件规则--》其他规则--》设置显示规则--》设置显示颜色
EG = OR(B3=1,B3=0)=FALSE
含义是:当函数参数,任意一个为真是,返回true

AND(参数1,参数2.。。。)当所有参数都为真时,才返回true

2、数据转化

  • 数据表的行列互换
    1.开始--》剪贴板--》粘贴--》选择性粘贴
    2.CTRL+alt+V--》选择转置,复选框

  • 多选题的录入方式之间的转换
    多选题的录入方式有两种
    1.使用二分法,利用0和1 表示是否该选项被选中,这种方法录入时候繁琐,但是数据分析起来简单
    2.多重分类法,这种方法只能在SPSS中进行,分析,在Excel里相对繁琐,但是节省录入时间

我们这里说另外一种,就是将多重录入转换为二分法,即省时,又省力

假设有这样的数据

1.JPG

我们需要在录入时候,使用多重分类法,在进行数据分析时候,使用二分法,那么怎么办呢?很简单,就是将录入后多重分类的结果,转化为二分的结果
这里介绍两个函数
HLOOKUP函数:查找与匹配,在表格首行查找指定的数据,并返回指定的数据所在的列中的指定的列所处的单元格的内容
HLOOKUP匹配函数的使用:(要在表格第一行查找的值,包含数据的单元格区域,可以使用绝对区域或区域名称的引用,希望返回匹配值的序列号,1,返回第二个参数第一行的值,依次类推,近似匹配1,还是相似匹配0,一般为0)
ISNUMBER函数():判断是否为数字,是就返回true,不是就返回false

这里数据的转换函数为:=IF(ISNUMBER(HLOOKUP(1,B5:D5,1,0))1,0)
HLOOKUP 含义:在B5:D5区域中寻找1,找到该数值,就返回该数值所在的第一行的信息,精确匹配,如果没找打。就返回#N/A
IDNUMBER含义:判断是否为数字,是就返回true,不是就返回false

3、数据提取
保留原数据中某些字段的部分信息,组合成一个新的字段,可以是字段的部分信息--字段分列,也可以是几个字段合并为一个新的字段---字段合并,还可以是将原数据表中没有但是其他数据表的信息匹配过来----字段匹配

1.字段分列
两种方法

  • 菜单法(适合有特定分隔符的情况)
    数据--》数据工具--》分列--》选择分隔符号--》完成
  • 函数法(没有特定分隔符)
    LEFT(text,num_chart)/RIGHT(text,num_chart)函数
    text:包含要提取的字符串的文本
    num_chart:要提取的字符串的left/right的个数

2.字段合并
也是有两种方法

  • CONCATEBATE函数
    CONCATEBATE(text1,text2,。。。)text<=30,text可以为文本,数字,单元格引用,当使用数字和文本进行合并时候,数字变为文本,无法进行计算

  • &运算符
    同理
    EG:=A2&“迟到”&B2&“次”

TEXT函数:使用连接运算符连接数字和文本时候。控制数字的显示方式
EG:=A3&“迟到比例为”&TEXT(B3,“0%”)

3.字段匹配(提取不同表格所需要的信息)
打开两个表--》找到你需要提取的信息,输入公式=VLOOKUP(B2[员工职位表.xlsx]Sheetxx$xx,3,0),第二个参数不需要手动录取,直选选中区域即可

VLOOKUP函数:查找与匹配,在表格首列查找指定的数据,并返回指定的数据所在的行中的指定的列所处的单元
VLOOKUP匹配函数的使用:(要在表格第一列查找的值,包含数据的单元格区域,可以使用绝对区域或区域名称的引用,希望返回匹配值的序列号,1,返回第二个参数第一列的值,依次类推,近似匹配1,还是相似匹配0,一般为0)
出现错误标识#N/A
1.函数第二个参数的第一列的值可能不是要查找的值
2.数据存在空格(可以使用TRIM函数批量删除)3.
数据类型或格式不一致,转为一致即可

4、数据计算
1.简单计算
加、减、乘、除
有时候数据表中的字段不能直接提取,但是可以通过计算的来
可以通过字段的 + - * / 的来
=B2+D3
如果求D2:D7之间的所有和
编辑选项卡--》自动求和--》求和--》Enter(还可以求平均数,最大值,最小值,计数等功能)

2.函数计算

  • 平均值和总和
    AVERAGE()/SUM(),MAX、MIN等等····
    括号内时要计算的参数,之间用逗号隔开,可以是绝对值,单元格引用,区域或者定义的名称
  • 对日期的操作
    输入日期:
    需要显示年-月-日 TODAY()函数或者CTRL+;
    或者单独显示时-分-秒使用 CTRL+shift+;
    一起显示年月日时分秒 使用NOW()或者先按下CTRL+;-》空格--》CTRL+shift+;
    使用公式插入的时间是动态的,使用快捷键是静态的
    日期的加减
    如果是简单的加减天数
    直接使用=A2+5,直接对天数操作
    如果是复杂情况,使用DATE函数
    =DATE(YEAR(A2)+3,MONTH(A2)+1,DAY(A2)+5)
    计算相差天数
    DATTEDIF函数 ()
    三个参数(开始日期,结束日期,计算形式)
    Y:计算时段中的整年
    M:计算时段中的整月
    D:计算时段中的整天
    MD:日期中天数的差,忽略年和月
    YM:日期中月数的差,忽略年和日
    YD:日期中年份的差,忽略月和日

5.数据分组
主要使用VLOOKUP函数实现
准备数据,确定分组的范围和标准(阈值是分组范围中的最低值)--》输入函数VLOOKUP(A2,2:12,2),并复制公式到你需要的地方
因为VLOOKUP最后一次参数省略,默认是近似匹配

6.数据抽样
问卷调查两种方式,普查和抽样(一般使用抽样)
RAND函数(),返回0~1随机值,但是保持函数编辑状态不变,按下F9,生成的随机数永远保存,且不反回新的值
如果要返回大于1的整数,写法就类似Java里的random函数
取整数=INT(RAND(*10+60))整数的60~70随机数
随机完记得去重,如果样本不够,继续随机就好,直到满足要求

你可能感兴趣的:(使用Excel来进行数据处理)