python股票预测如何做数据预处理_用python进行数据预处理简介

常见的数据挖掘的手段数据加载与粗略查看

处理丢失的数据

处理偏离值

数据统计

特征值的合并、连接

数据转换、标准化、归一化

主要介绍

2.1数据加载与粗略查看

2.1.1数据加载

一般训练与测试的数据都提供csv格式,使用pandas库读取:

1. df_train = pd.read_csv('../train.csv')

此时读取的df_train为DataFrame格式。

同时pandas还可以读取各种不同格式的数据,如存储比较快的hdf格式、excel等

但有时数据不是简单的csv,它按照文本保存,如“ID||texttexttexttext”这样的一条数据需要将中间的“||”当作分隔符,读取方式如下:

1.train = pd.read_csv('../input/training_text', sep="\|\|", engine='python', header=None, skiprows=1, names=["ID","Text"])

更多参数应该查阅pandas文档。

2.1.2数据粗略查看

在pandas读进来数据一个train后,train的格式为DataFrame,调用下面的几个方法就可以大致了解我们得到的数据是什么,有什么特征值,特征值的数据类型是什么,如果是数值那么最大最小值是什么等:

train.head(5) #显示前5行数据

train.tail(5) #显示后5行

train.columns #查看列名

train.shape #查看数据集行列分布,几行几列

train.describe() #查看数据的大体情况

如train.describe():

2.2处理丢失的数据

处理这些数据以前不建议把train与test 连接起来,因为这样容易造成test里数据的丢失,个人认为较好的方式为:

full_data = [train, test]

将两个数据集合成为list,然后清洗时对其for循环即可,如:

for dataset in full_data:

dataset['FamilySize'] = dataset['SibSp'] + dataset['Parch'] + 1

下面只介绍对测试集train 的操作。

找到丢失的位置

输出每个列丢失值也即值为NaN的数据和,并从多到少排序:

total = train.isnull().sum().sort_values(ascending=False)

print(total)

Cabin 687

Age 177

Embarked 2

Fare 0

Ticket 0

Parch 0

SibSp 0

Sex 0

Name 0

Pclass 0

Survived 0

PassengerId 0

也可以输出百分比:

percent =(train.isnull().sum()/train.isnull().count()).sort_val

你可能感兴趣的:(python股票预测如何做数据预处理_用python进行数据预处理简介)