Python 特征工程丨数析学院

在数据分析中,特征选择往往是我们面临的首要难题,本节将向大家介绍 Scikit-Learn 提供的特征工程相关工具,以便我们在 Python 中更好地对模型的特征进行处理。

分类变量特征预处理

首先我们构造如下示例数据:

Python 特征工程丨数析学院_第1张图片
1

在作为示例的租房数据中,分类变量 neighborhood 可以对应以下三个值:

2

运用 Scikit-Learn 中的 DictVectorizer 函数,我们将以上租房数据的分类变量转换为 one-hot 形式:

Python 特征工程丨数析学院_第2张图片
3

可以通过调用 get_feature_names 函数,来查看转换后的数组中对应的列名:

Python 特征工程丨数析学院_第3张图片
4

要注意的是,当我们将 DictVectorizer 函数参数 sparse 的值设置为 True 时,转换后的对象将不再是一个数组,而是一个 sparse matrix 对象:

Python 特征工程丨数析学院_第4张图片
5

未完待续:课程内容较多,请复制链接通过电脑学习,获得最佳学习效果。 http://datacademy.io/lesson/139
更多课程和文章尽在微信号:「datartisan数据工匠」

Python 特征工程丨数析学院_第5张图片

你可能感兴趣的:(Python 特征工程丨数析学院)