07_归一化案例:约会相亲对象

案例:

相亲约会对象数据,这个样本时男士的数据,三个特征,玩游戏所消耗时间的 百分比、每年获得的飞行常客里程数、每周消费的冰淇淋公升数。然后有一个 所属类别,被女士评价的三个类别,不喜欢didnt、魅力一般small、极具魅力large 也许也就是说飞行里程数对于结算结果或者说相亲结果影响较大,但是统计的 人觉得这三个特征同等重要。

07_归一化案例:约会相亲对象_第1张图片

 

在此处为什么要进行归一化,归一化说白了就是控制数据在指定的范围内,防止过大数据对结果造成干扰。

这里先使用一个算法k-means算法,该算法后面会详细介绍。

k-means就是同一特征下的两个样本,相减取平方。

对于上图标红的两个样本(从现在开始,表中的行称为样本,列称为特征值),使用k-means时,计算(72993-35948)^2 + (10.141740-6.830792)^2 + (1.032955-1.213192)^2,会发现(72993-35948)^2的值过大,后面两项基本可以忽略不计了,但是案例中有一句话很重要------“统计的 人觉得这三个特征同等重要”。所以,就要解决这个情况,可以使用归一化解决。

最终,使得某一个特征对最终结果不会造成更大影响。

 

问题:如果数据中异常点较多,对归一化会有什么影响?

   回忆归一化公式,x1=x-min/max-min , x1的值容易受到max-min的影响,x2也就受到影响,所以当出现特别大和特别小的数值,会对结果产生很大的影响,因此需要另一种方法来解决此问题。

   这种方法就是标准化,标准化也是使用最广泛的方法。

 

专业一点的回答归一化的缺点:注意在特定场景下最大值最小值是变化的,另外,最大值与最小值非常容易受异常点影响,所以这种方法鲁棒性较差,只适合传统精确小数据场景。

鲁棒性:可以理解为稳定性,比如网站访问人数增多时,网站是否可以正常运转。

 

你可能感兴趣的:(07_归一化案例:约会相亲对象)