【NLP】十二种属性降维的方法

降维可以用两种不同的方式来完成:
(1) 只保留原始数据集最相关的变量(特征选择)
(2) 通过找到一组较小的新变量,每个变量都是输入变量的组合,包含与输入变量基本相同的信息(降维)

(1)遗漏价值比率(Missing Value Ratio)

如果任何变量中缺失值的百分比大于该阈值,我们将删除该变量。

(2)低方差滤波器(Low Variance Filter)

计算每个变量的方差,然后删除与数据集中的其他变量相比具有低方差的变量。假设某一变量的所有值都等于某一常量,那么该属性是无法对模型起到有效的作用,还不如舍弃这个变量。因此可以设置某一阈值,对属性进行过滤筛选。

(3)高相关滤波器(High Correlation filter)

两个变量之间的高度相关性意味着它们具有相似的趋势,并且可能携带相似的信息。我们可以计算本质上是数值的独立数值变量之间的相关性。如果相关系数超过某个阈值,我们可以删除其中一个变量,作为一般准则,我们应该保持那些与目标变量表现出良好或高相关性的变量。

通常,如果一对变量之间的相关性大于0.5-0.6,我们应该认真考虑删除这些变量之一。

(4)随机森林(Random Forest)

随机森林是最常用的特征选择算法之一。我们需要通过应用one-hot将数据转换为数字形式,因为随机森林(Scikit-Learn实现)只接受数字输入。

通过随机森林,可以输出每个特征的重要性程度,由此来进行特征的选择。

(5)反向特征消除(Backward Feature Elimination)

以下是反向特征消除的主要步骤:

  • 先获取数据集中的全部n个变量,然后用它们训练一个模型。
  • 计算模型的性能。
  • 在删除每个变量(n次)后计算模型的性能,即我们每次都去掉一个变量,用剩余的n-1个变量训练模型。
  • 确定对模型性能影响最小的变量,把它删除。
  • 重复此过程,直到不再能删除任何变量。

可以使用“RFE.RANKIGIN”命令检查变量的排名。

(6)前向特征选择(Forward Feature Selection)

是反向特征消除的相反过程,而不是消除特征。我们试图找到最佳的特征,以提高性能的模型。该技术的工作原理如下:

  • 我们从一个特性开始。本质上,我们使用每个特征分别训练N次模型。

  • 选择最佳性能的变量作为起始变量。

  • 然后我们重复这个过程并一次添加一个变量。产生最高性能增加的变量被保留。

  • 我们重复这个过程直到模型的性能没有明显的改善。

    注意: 后向特征消除和前向特征选择都耗时且计算昂贵。 它们实际上仅用于具有少量输入变量的数据集。

(7)因子分析(Factor Analysis)

因子分析是一种常见的统计方法,它能从多个变量中提取共性因子,并得到最优解。假设我们有两个变量:收入和教育。它们可能是高度相关的,因为总体来看,学历高的人一般收入也更高,反之亦然。所以它们可能存在一个潜在的共性因子,比如“能力”。

在因子分析中,我们将变量按其相关性分组,即特定组内所有变量的相关性较组间变量的相关性较。我们把每个组称为一个因子,它是多个变量的组合。和原始数据集的变量相比,这些因子在数量上更少,但携带的信息基本一致。

(8)主成分分析(Principal Component Analysis )

如果说因子分析是假设存在一系列潜在因子,能反映变量携带的信息,那PCA就是通过正交变换将原始的n维数据集变换到一个新的被称做主成分的数据集中,即从现有的大量变量中提取一组新的变量。下面是关于PCA的一些要点:

  • 主成分是原始变量的线性组合。
  • 第一个主成分具有最大的方差值。
  • 第二主成分试图解释数据集中的剩余方差,并且与第一主成分不相关(正交)。
  • 第三主成分试图解释前两个主成分等没有解释的方差。

(9)独立成分分析(Independent Component Analysis)

独立分量分析(ICA)基于信息理论,是最广泛使用的降维技术之一。PCA和ICA之间的主要区别在于,PCA寻找不相关的因素,而ICA寻找独立因素

如果两个变量不相关,它们之间就没有线性关系。如果它们是独立的,它们就不依赖于其他变量。例如,一个人的年龄和他吃了什么/看了什么电视无关。

该算法假设给定变量是一些未知潜在变量的线性混合。它还假设这些潜在变量是相互独立的,即它们不依赖于其他变量,因此它们被称为观察数据的独立分量。

(10)基于投影的几种方法(Methods Based on Projections)

(11) t分布随机邻居嵌入(t- Distributed Stochastic Neighbor Embedding (t-SNE))

(12)均匀流形近似和投影(uniform manifold approximation and projection[UMAP])

(13)奇异值分解(SVD)

参考原文
原文参考翻译 I
原文翻译参考 II

你可能感兴趣的:(个人学习)