机器学习数据处理-数据归一化

目录

  • 方差
  • 标准差
  • 相对标准偏差
  • 正态分布
  • 数据归一化

方差

概念

描述了一组数据距离他们平均值的离散程度

场景

如果一个班的平均分是50分,可能有两种极端情况:

  1. 大部分人都在50分左右附近徘徊
  2. 一半人接近100分,另一半人接近0分

第一种情况每个数据距离平均值比较近,离散程度小,方差小
第二种情况每个数据距离平均值比较远,离散程度大,方差大
我们通过对比两个班的方差,来计算哪个班的成绩比较稳定

公式(总体方差)

σ 2 = ∑ i = 1 n ( x i − μ ) 2 N σ^2 = \frac{\sum_{i=1}^n(x_i-μ)^2}{N} σ2=Ni=1n(xiμ)2

μ 为总体数据的平均值,N为总数, x i x_i xi为每个数据的值

标准差

概念

方差开平方就是标准差,为了保证使数据的量纲保持一致

场景

比如一个班的平均分数还是50分,方差是937.5分,标准差是30.6分,通过标准差我们可以看出学生的成绩大概在平均值上下浮动30.6分

公式(总体标准差)

σ = σ 2 σ = \sqrt{σ^2} σ=σ2

相对标准偏差

概念

相对标准偏差又称为相对标准差、变异系数、标准偏差系数,之所以引入标准标准差,是为了针对单位不一致时可以更准确的说明两组数据的离散程度,

场景

比如不同国家的同一个商品的价格,因为使用的货币不一致,导致价格标准不同,离散值也会相差很大

公式

标准差除以平均值就是相对标准偏差

C V = σ μ CV=\frac{σ}{μ} CV=μσ

正态分布

概念

正态分布也称常态分布,又名高斯分布,是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。
正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。
正态分布的奇妙之处,就是许多看似随机事件竟然服从一个表达式就能表达的分布

场景

抛硬币,定义每个抛出的硬币正面+1分,反面-1分,仍10个硬币,概率分布图如下表示:
移至 https://www.cooooder.com/archives/20210813001 查看

如果是更多的硬币,那么它的概率图也会遵循上图的趋势
之所以正态分布这么常见,是因为通常情况下,一个事物影响的因素往往很多种,每一个因素具备像抛硬币一样的概率,所以让最终结果接近于正态分布。
如果想再深入研究,可以了解一下中心极限定理。

正态分布只适合各种因素累加的情况,如果这些因素不是彼此独立的,会互相加强影响,那么就不是正态分布了

数据归一化

概念

数据归一化就是将所有的数据映射到同一尺度,即让每一个特征数据的影响力是相同的

场景

比如当我们有一批样本数据(有两个特征值)进行预测,其中一个特征值的影响远远大于另一个特征值时,会造成预测的不准确,所以我们需要提前对数据做预处理,这种处理就叫数据归一化。

常见算法
  • 最值归一化
  • 均值方差归一化
最值归一化

把所有数据映射到0-1之间

X s c a l e = X − X m i n X m a x − X m i n X_{scale}=\frac{X-X_{min}}{X_{max}-X_{min}} Xscale=XmaxXminXXmin

X m i n X_{min} Xmin X m a x X_{max} Xmax是我们根据样本数据定义的最小和最大边界值

注:最值归一化适用于有明显边界的情况(极端两边分化也不太适用)

0均值方差归一化

将特征数据的分布调整成标准正态分布,
给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1。

参考:

  1. 机器学习必须要会的:方差、标准差、相对标准偏差、正态分布的概念
  2. 怎样用通俗易懂的文字解释正态分布及其意义?

你可能感兴趣的:(机器学习,机器学习,数据分析,算法)