数据预处理主要包括什么?

  1. 无量纲化

无量纲化主要解决数据的量纲不同的问题,使不同的数据转换到同一规格,常见的方法有标准化区间缩放法。标准化的假设前提是特征值服从正态分布。区间放缩法利用了边界值信息,将特征的取值区间缩放到某个特点的范围,列如[0,1]等。

(1) 标准化

理论上,标准化适用于服从正态分布的数据,目前很多工程都依赖大数据,所以在样本足够多的情况下,工程师往往直接使用标准化对数据进行无量纲化预处理,在深度学习中,将数据标准化能够保证有更好的收敛。如果不进行数据标准化,有些特征将会对损失函数影响很大,使得其他值比较小的特征重要性降低

(2)归一化/区间缩放法

归一化适用于数据量较小的工程。顾名思义就是利用两个最值进行缩放。公式为(x-min)/(max-min)

2.哑编码与独热编码

如果某一列数据是一些特征,比如国家名称,那就没有办法应用到回归或者分类里,所以需要对数据进行哑编码或者独热编码。

哑编码与独热编码的区别主要是哑编码祛除了一个状态位。

例如:假设在中国、德国、法国、美国四种可能的取值,独热编码就是用每个维度表达一个国家,比如中国为1,0,0,0。而哑编码只需要三个状态位,如其他都为0则中国必为1.

3.缺失值补充

缺失值最常用的就是均值、就近补齐、K最近距离填充等方法。特别需要注意的是,有的时候缺失值也是一种特征。

应当分为三种情况:

当缺失值过多时:应当舍弃这个特征。

当缺失值适中时:应当将填充值当成一种特征

当缺失值较少时:可以考虑进行填充

填充的常用策略:

  1. 用一个异常值填充并将缺失值作为一个特征处理
  2. 用均值或者条件均值填充,如果数据是不平衡的,那么应该使用条件均值填充,条件均值指的是与缺失值所属标签相同的所有数据的均值。
  3. 用相邻数据填充
  4. 利用插值算法
  5. 数据拟合,将缺失值当成一种预测来处理

hi 认识一下?

微信关注公众号:全都是码农 (allmanong)
你将获得:
关于人工智能的所有面试问题一网打尽!未来还有思维导图哦!
回复121 立即获得 已整理好121本python学习电子书
回复89 立即获得 程序员史诗级必读书单吐血整理四个维度系列89本书。
回复167 立即获得 机器学习和python学习之路史上整理大数据技术书从入门到进阶最全本(66本)
回复18 立即获得 数据库从入门到进阶必读18本技术书籍网盘整理电子书(珍藏版)
回复56 立即获得 我整理的56本算法与数据结构
未来还有人工智能研究生课程笔记等等,我们一起进步呀!

你可能感兴趣的:(人工智能面试,人工智能,机器学习,python,数据分析)