机器学习笔记 - 数据科学中基于 Scikit-Learn、Tensorflow、Pandas 和 Scipy的7种最常用的特征工程技术
一、概述特征工程描述了制定相关特征的过程,这些特征尽可能准确地描述底层数据科学问题,并使算法能够理解和学习模式。换句话说:您提供的特征可作为将您自己对世界的理解和知识传达给模型的一种方式。每个特征描述一种信息“片段”。这些部分的总和允许算法得出有关目标变量的结论-至少如果您有一个实际包含有关目标变量的信息的数据集。据《福布斯》杂志报道,数据科学家大约花费80%的时间收集和准备相关数据,其中仅数据清