数据的处理和变换的概念

数据的处理和变换的分类
1、数据归一化
2、数据平滑化
3、数据采样
数据归一化是将数据按比例缩放,使之落入一个小的特定范围。(对不同的数据进行“书同为车同轨”的规划方法)
数据归一化的变换方式:线性变换、反正切变换、数据标准化和其他用户自定义变化。
数据标准化:把值全都映射到标准正态分布上数据的处理和变化。
对多维数据通过对每个维度的归一化可以辅助观察维度间的关系,或者是用曲线去拟合数据内部两个数据之间的关系。
曲线拟合:为了发现数据的趋势分析变量之间的关系。将数据转化成平滑连续的曲线,有利于我们将注意力从“微小的细节”转移到“更高层面的趋势观察和判断”。是数据处理的重要方法。这就是曲线拟合或者叫做数据平滑化。
曲线拟合的类型:模拟一次方程曲线、模拟指数函数曲线、模拟多项式曲线、自定义方程曲线。
曲线拟合的基本思想:表达并观测“趋势”劫富济贫,也就是说低数据点和高数据点尽量分布在拟合曲线的周围。
总结:画点成线,选用是适当的曲线进行拟合。
数据采样
当面临大数据时,而我们的能力有限的时候,就需要数据采样。
使用数据采样的原因
获取全部数据集代价太大、时间开销无法接受。选出具备原始数据特征的数据。
在统计学中,数据采样是从总体中选出个体样本来估计总体的特征。如:在一所大学中选取一部分,问其身高,用以估测整所学校。
在信号邻域中,数据采样是将连续信号简化为离散信号。如:手机中跑步软件激励的轨迹。
数据处理和变换的技术
1、分箱
2、数据降维
3、数据聚类
分箱:将一些连续值分组装进一些“小箱子”的方法。“小箱子”指的是区间。
数据降维:有时称之为投影,吧数据从多维的空间投影到二维货值三维的空间,再对降维的数据运用简单的可视化手段,让我们看到数据的总体分布情况。比如:把大地球摊成地图。
数据降维的方法:线性方法:主成分分析、多维尺度分析···;非线性方法:t分布随即近邻嵌入、自组织映射、等距特征映射···
数据聚类:
数据聚类的一种方法:K均值聚类(K-means)K代表聚类的个数,mean有均值的意思,K-means可以理解为给数据通过一些参考点归为不同的类,计算觉知,然后把均值所在的点。作为归类的参考点在重新归类,这样迭代进行数次就可以得到一个不错的聚类结果。
还有高斯混合模型,DBSCAN算法,层次聚类,谱聚类

你可能感兴趣的:(计算机基础)