数据降维之主成分分析、多维缩放、t分布随机近邻嵌入、自编码神经网络

  1. 主成分分析(PCA)

    算法描述:
    输入样本集:这里写图片描述
    低维空间这里写图片描述
    具体过程:
    这里写图片描述
    注意:实践当中通常对样本矩阵进行奇异值分解代替协方差矩阵特征值分解.
    数据降维之主成分分析、多维缩放、t分布随机近邻嵌入、自编码神经网络_第1张图片
    维数:这里写图片描述的选取规则:
    数据降维之主成分分析、多维缩放、t分布随机近邻嵌入、自编码神经网络_第2张图片

  2. 自编码神经网络

自动编码器(autoencoder)是神经网络的一种,经过训练后能尝试将输入复制到输出。自编码器内部有一个隐含层h,产生编码来表示输入,一个编码器·函数h=f(x)和一个生成重构解码器r=g(h)。结构如下:
数据降维之主成分分析、多维缩放、t分布随机近邻嵌入、自编码神经网络_第3张图片
如果一个自动编码器学会简单的设置g(f(x))=x,那么这个自动编码器不会很有用,相反,自动编码器只能近似的复制,并只能复制类似训练数据的输入。现在的基本思想推广到随机映射这里写图片描述
降维的思想:将输入复制到输出听起来没用用,但我们通常不关心解码器的输出,相反,我们希望通过训练自动编码器对输入进行复制任务使得h获得有用的特性,通过限制h的维度比x小,这种编码器维度小于输入维度的自动编码器成为欠完备自动编码器.
学习过程及与PCA的关系:
数据降维之主成分分析、多维缩放、t分布随机近邻嵌入、自编码神经网络_第4张图片

3.多维缩放:
多维缩放,指一组n维数据,用m(

你可能感兴趣的:(数据挖掘,NLP)