数据预处理

1.功能:数据预处理的过程就类似于将铁矿石冶炼成铁,在这之后就可以制作我们所需要的东西,去除一些杂质也就是不需要的数据(噪声),留下来有用的数据进行后面的功能。
2。数据来源:比如金融数据,手机,GPS,购物等,来源广泛,格式不同。
3.原因:真实的数据是很混乱的,真实的数据挖掘过程中,数据预处理所占时间可能是整个项目时间的70%,就比如调查问卷中答非所问,也比如样本过多,超过我的需求。缺失数据往往是较为常见的问题。缺的原因可能是设备损坏,或者没有提供该项服务数据,有的数据也是不适用的(NOT APPLiable)。缺失的种类:1.完全随机缺失:2.有条件的缺失:
4.检测离群点数据:1.相对的距离判断:该点a与其他相近数据的距离的平均值,另外的点b与他的相近数据的平均值的大小,通过算比较这两个距离的值来判断这两个点是否是同一类的点。
5.重复数据处理:有不同的数据集会含有相同的内容,但是其数据的格式不一样。就比如调查同一个人,一个数据集里面是写的这个人的真实姓名,而另一个数据集里面写的可能是外号,但这都描述的是一个人,处理数据的时候要删除冗余数据。解决:1.用滑动窗口(高度疑似重复的数据是挨着的)2.先排序,将相似的数据排在一起,再用一些关键的信息来区别。
6.数据转化:当数据已经基本完整了,就是要进行数据的格式转化,转化成我们能够处理的数据格式。就可以采用编码知识,但编码背后可能会产生一些问题。比如四种颜色的编码:这里我们可以用一个四位的数据,来表示,但这样的数据不能太多,否则维数太多。
7.采样过程:数据库越来越大,希望对数据进行采样来降低时间复杂度,在内存中算一些数据很快,但是从硬盘上面读数据需要很多时间,所以就想到了采样。在大数据中是由于数据太多了,所以要采样,只需要知道其规律。也可以用来调整分类比例,通过采样来对原始数据进行调整。
8.不平衡数据:不能识别关键的信息,只是强调准确率。整体的准确率不适合不平衡数据。看正类上的准确率和负类的准确率都考虑。
9.生成点:1.向上采样:一个点找到他临近的点,在这个区域内随机生成其他点。2.边缘点:比如一个很大的数据宽度,一般是最外面的边缘点是最有价值的,内部的点是没有特殊价值的,需要找到边缘点。就可以用一些方法比如密度,法向量等方法找到这些边缘点,会发现只要采样5%的点就可以和100%的点的数据一样准确。
10.数据标准化:将数据映射到0,1之间:((原始数据-原始数据最小值)/(原始数据最大值-原始数据最小值))*(新的最大值-新的最小值)+新的最小值。当遇到高斯数据时:用偏均值,偏离多少个标准值,一般高斯数据中,偏离超过三个标准值的概率是很小的。偏离的标准值=(当前值-均值)/标准差。
11.数据描述:1均值:mean,特性:容易受到一两个特别极端的值的影响。比如平均收入:2.中位数:中间的那个数3.mode:频率,出现的频率4.variance:方差数据的离得远近。
12.数据的相关性:比如身高与体重:协方差公式,正相关,负相关。为0的时候,A,B没有线性关系,但不代表没有关系。
13.数据可视化:展现数据,一维二维较为简单,三维,四维的时候:BOX PLOTS:缺点,丧失了数据之间的联系,相当于一个性质用一个箱子表示出来,中间是中位数,箱子的宽度表示的是数据的紧凑程度。2.平行坐标:一一条线代表一个数据,该条线和其他性质的线的交点就是该值。软件:CITESPACE和GEPHI。
14.特征选择:例如一个人有很多特性,在选择的时候我就不需要全部的这些特性,而是挑选出我们最需要的属性。熵概念:描述变量的不确定性。熵值越大他的区分度越小,数据不确定性最大。H(X)=-∑p(x)logbP(x),当该值为1的时候,就是表示区分度很小,数据的不确定性最大。
15.特征子集选择:分支定界,比如有单调性关系,当存在两个子集,一个子集比另一个子集的能量小,那么就不用再对该子集再进行后面的测试计算。
16.特征提取:比如图像的边缘提取,不同的像素点之间做一个差值,如果差值比较大,该像素点就有可能是在边缘点或者变化点。
17.主成分选择:比如你看的图片怎么就知道是什么东西,三维物体投成二维图片也能区分。同样的物体从不同的角度看差别是很大的,不同的映射方法它的映射损失是很大的,有效信息需要大量保留。二维高斯数据分布,数据图像呈现椭圆形,这里面的方差就是一个比较好的信息,如果沿着某一个属性的方差比较大,就说这个属性很有价值,能够体现特征。选择区分度大的属性作为判断的属性。实际问题中的划分有的时候很难区别,陷入两难决定。如果将坐标轴移动,就可以变成最初看到的简单的例子。S(x)=1/(N-1)*XXT,S(Y)=1/(N-1)*YYT,这就是坐标变换,相当于移动了坐标轴。目标:在Y轴下的计算的协方差只有在对角线上不是0,其他都是0:Y=PX:P旋转矩阵在这里插入图片描述
18.线性判别分析:降维保留类的区分信息。不同的投影方式就可以很大程度的进行区分
在这里插入图片描述

你可能感兴趣的:(数据处理,数据挖掘,数据预处理)