高维数据处理

  • PCA
  • LDA
  • SOM
    • - 取差异性对周围范围的邻居进行更新
  • MDS
  • ReliefF
  • LLE和ISOMAP
  • 一些总结

PCA

  • 非监督
  • 利用协方差矩阵寻找投射函数 ω使
  • 使用拉格朗日解不等式
  • 根据求得的特征值进行特征向量的选择
  • 一般求信息率90%以上的特征向量集
  • 对于N远大于D的数据,使用SVD(奇异值)进行求解
  • 先进行一次自乘降维再进行训练

LDA

  • 监督性
  • 寻求使得类内方差最小并且类间差异性最大的投射空间

SOM

  • 聚类方法

- 取差异性对周围范围的邻居进行更新

MDS

  • 非监督降维
  • 注重数据的相对距离(关系),有利于流型数据的降维和可视化
  • 但对原数据整体结构破坏严重
  • 三个基本步骤:
    • 计算stress
    • 更新投射函数
    • 检查disparity

ReliefF

  • ReliefF处理多分类的情况,Relief只能处理两分类
  • 用于对特征进行赋权,通过权值进行过滤
    • 算法输入: 数据集D, 包含c类样本,子集采样数m,权值阈值 δ , kNN系数k
    • 算法步骤:
      1. initial W(Ai)=0 ;
      2. for 1 to m, sample x from D:
        1. label of x is y
        2. form dataset H and M, k near-hit (Hj,j=0,1,2...k) and k near-miss (Mj(c),c=0,1,2...C)
        3. for feature Ai in all features:
          W(Ai)=W(Ai)Jdiff(A,R,Hj)mk+Cclass(R)p(C)1P(class(R))Jdiff(A,R,HJ(c))mk

          diff(A,R1,R2)=|R1(A)R2(A)|max(A)min(A) if A is continues0 if R1=R2 and A is discrete1 if R1R2 and A is discrete
        4. end for
      3. end for
      4. if W(A)δ , add to feature set, otherwise filterout

LLE和ISOMAP

一些总结

  • 高纬度数据建模的基本思想是寻找函数 f(x)
    • f(x) 将数据投射到一个低维的空间
    • 在低维空间中数据的某些特征可以保持
  • 方法的选择:
    • 注重降低维度并提高数据的可分析性则使用PCA,对于大量数据使用SVD
    • 注重类间区分和类内区分,则使用LDA
    • 注重数据的相互关联,并且数据复杂不可分,则使用MDS
    • 对于流形,使用LLE和IOSMAP

你可能感兴趣的:(Swift,入门,数据,数据挖掘)