数据预处理:变量筛选和变换

变量筛选和变换

我们在尽心数据处理中会遇到变量的筛选问题
这里我们不是PCA(主成分分析),就是简单的人工变量筛选,
比如就像提取其中几个变量,或者想删除一些变量,还有就是某一个变量根据内容的一些简单筛选和变换。

1、选择部分变量

首先我们看下数据结构
数据预处理:变量筛选和变换_第1张图片
定义一个x_col2来存储需要用到的变量名称
数据预处理:变量筛选和变换_第2张图片

2、删除部分变量

如果我们要用到数据集的大部分数据,我们就可以采取删除其中的几个变量的方法
数据预处理:变量筛选和变换_第3张图片
定义一个drops存储需要删除的变量,用一个for循环就可以把需要删掉的变量去除了

3、选取变量部分值

比如我们想筛选出y变量中为0的样本

data=data[data.y.map(lambda x: x in [0])] 

数据预处理:变量筛选和变换_第4张图片

4、变量值的变换

比如有些离散型变量需要实际情况进行转换,一般情况下是字符串行转换成数值型
这里我们制作演示,把数值型转换为字符串,其实操作是一样的
数据预处理:变量筛选和变换_第5张图片

你可能感兴趣的:(数据挖掘)