python数据可视化——处理时间序列数据

在这里主要使用pandas对数据进行处理。

首先把数据读入pandas

data = pd.read_csv("D:\\...存放数据的路径..\\数据文件名.csv", encoding="gbk")

对于时间数据的那一列,将其转换为DATE类型

data['TIME'] = pd.to_datetime(data['TIME'])

如果对于时间数据,想单独提取某一月份或者某一日期或者某一周,可以创建一个新列或者直接在时间列TIME上进行更改,这里使用了一个lamda函数,做法大致如下。

data['TIME'] = data['TIME'].apply(lambda v: datetime.strftime(v, '%Y-%m-%d'))  # 原列上更改
data['MONTH'] = data['TIME'].apply(lambda v: datetime.strftime(v, '%Y-%m'))  # 添加月份新列

然后去掉重复行,过多的重复数据不利于很好地找到特殊数据的占比等

data = data.drop_duplicates()  # 将重复行去掉

通常都会把时间序列数据作为索引,在图像的绘制中,索引数据默认作为x轴。
将该列设置为索引后,对其进行操作可能不方便,取消索引的命令:

data = data.set_index(['TIME'])  # 将TIME列设为索引
data = data.reset_index()  # 取消索引

你可能感兴趣的:(python数据可视化,python,数据分析,可视化)