R—用scale()函数进行变量标准化处理

随便举个例子，比如钢铁直男小明要给他女朋友买圣诞礼物，他从某宝上搜集了10种礼物的价格、性价比和好评数信息，试图从中分析出最佳选择。

首先目前有三个维度的数据来衡量礼物，要进行对比的话，得把这三组数据组合成一个单一变量；其次是这三组数据完全不是同一量级，所以组合之前必须对其进行标准化处理。

标准化处理如上，用scale函数对price_num,useful_rate和popular_num进行处理，其原理是计算每组的平均值和标准差，各组平均值见attr(,”scaled:center”)，标准差见attr(,”scaled:scale”)；再将组内各个数值与其平均值的差，与其标准差的比值，作为该数值在组内的相对数值。

举例如价格，303在组内的相对数值是0.0717732，122在组内的相对数值是-1.5937331等等，这样就解决了各组量级不同无法直接对比的问题。

这个方法也可以用于各组的计量单位不同的情况，比如小明的择偶标准有身高（米）、三围（厘米）、体重（公斤）和饭量（碗）四个对比条件，且有多名单身美女的相关数据供小明分析选择，那么也可以利用上述方法。

继续返回说scale函数，其实上述scale的标准写法是z1<-scale(present[,2:4],center = TRUE,scale=TRUE)，只不过center平均值和scale标准差都是默认为true，即计算的时候默认包含这两个参数。

那么false的情况呢，首先看没用标准差，只用平均值的，即不考虑各组数据的离散程度。