面向机器学习的特征工程 六、降维:用 PCA 压缩数据集

来源:ApacheCN《面向机器学习的特征工程》翻译项目

译者:@cn-Wziv

校对:@HeYun

通过自动数据收集和特征生成技术,可以快速获得大量特征,但并非所有这些都有用。在第 3 章和
在第 4 章中,我们讨论了基于频率的滤波和特征缩放修剪无信息的特征。现在我们来仔细讨论一下使用主成分分析(PCA)进行数据降维。

本章标志着进入基于模型的特征工程技术。在这之前,大多数技术可以在不参考数据的情况下定义。对于实例中,基于频率的过滤可能会说“删除所有小于n的计数“,这个程序可以在没有进一步输入的情况下进行数据本身。 另一方面,基于模型的技术则需要来自数据的信息。例如,PCA 是围绕数据的主轴定义的。 在之前的技术中,数据,功能和模型之间从来没有明确的界限。从这一点前进,差异变得越来越模糊。这正是目前关于特征学习研究的兴奋之处。

阅读全文

你可能感兴趣的:(面向机器学习的特征工程 六、降维:用 PCA 压缩数据集)