股票数据预处理

数据导入:

提示:注意是csv,还是xlsx文件,本文导入中证100指数

import pandas as pd

data = pd.read_excel("./data/CSI100.xls",dtype={"股票代码_Stkcd":str})

注意设置代码格式为str类型:

dtype={"股票代码_Stkcd":str}

股票数据预处理_第1张图片


更改指标名称:

`提示:使用split

cols = [i.split("_")[1] for i in data.columns]
data.columns = cols

股票数据预处理_第2张图片


筛选数据:

提示:将所有的行业名称是非空值的

例如:notnull

data = data[data['Csrciccd1'].notnull()]
data = data[data["Date"]>="2005-01-01"]

统计每个指标的个数:

提示:这里统计学习行业的总量

例如:

all_df.Csrciccd1.value_counts()

股票数据预处理_第3张图片

缺失值填充:

提示:这里采用均值填充

all_df = all_df.fillna(all_df.mean())

统一日期

使用字典的调用方式

all_df["month"] = all_df["Date"].apply(lambda x: str(x).split("-")[0]+"-"+str(x).split("-")[1])

m_d = dict(all_df[["month", "Date"]].values)
all_df["Date"] = all_df["month"].apply(lambda x: m_d[x])

你可能感兴趣的:(python,开发语言)