使用Excel表格进行数据清理

Excel表格可以用来学习初级的数据分析。有一些数据清理阶段遇到的小技巧,在此记录一下。
数据清理主要的工作步骤是:调整样式→删除重复值→处理缺失值→一致化处理→数据排序→异常值处理

调整样式
  1. 打开Excel表之后乱码:
    造成乱码的原因和编程中时常遇到的字符编码出错是同一个道理,一般是因为导进来的时候本来表格是用csv或者是文本的形式,这样编码方式是阿斯卡码,而不是utf-8,总之目标是将utf-8的格式赋给表格里的数据。
    :选择“数据”→“从文本/css”,按照指引步骤完成导出转换
  2. 进入表格后发现原来的表格里面有很多冗余的空白行,删又删不掉
    :选中空白栏第一行,然后按ctrl+shift+↓ 可以一路选完下面的所有行,右键选择删除,保存文件退出重进。
  3. 调整表格的宽度让表格变得容易看,在开始→自动换行
  4. 隐藏掉不需要的列,在列名上右键点隐藏。
处理缺失值
  1. 处理缺失值有几种可选的做法:
  • 删掉整行,丢弃数据
  • 利用前后的平均值估算并且补齐数据
  • 利用已知的信息尝试填写数据
  • 标注缺失
  1. 到缺失的值,选出一整列或一整行然后在开始→查找与选择→定位条件→空值,可以锁定选中的行或者列中的空值,填补空值,按ctrl + Enter可以将一次填补的内容赋到所有空格里。
  2. 删除重复值:找到主键,因

你可能感兴趣的:(使用Excel表格进行数据清理)