数据缺失值的补齐(代码)

数据缺失值的补齐(代码)

在做时间序列模型的建模以及其他模型的建模时,我们经常会碰到拟合数据存在缺失值(nan)的情况,直接删除存在缺失值的条目大多数情况下不太合理,因此需要对缺失值进行补齐(插值),补齐数据的方法有很多,比如用固定值(0等)代替、平均值、最大值等,下面介绍用平均值进行插值的python代码。

思路:用缺失值前后四天的数据的平均值对缺失值进行插值。
代码编写思路:
1.如果缺失值当天的前后四天有数据,则用当天前后四天的平均值进行补齐。
2.如果缺失值当天的前后四天没有数据,则用其他所有年份的当天的前后四天的数据的平均值补进行齐。

代码部分:
数据缺失值的补齐(代码)_第1张图片
数据缺失值的补齐(代码)_第2张图片
数据缺失值的补齐(代码)_第3张图片
数据缺失值的补齐(代码)_第4张图片
数据缺失值的补齐(代码)_第5张图片
运行代码:
数据缺失值的补齐(代码)_第6张图片
所调用的库:
数据缺失值的补齐(代码)_第7张图片
写的有点粗糙,希望对看的人有点帮助。原始数据我就不放了,读取其他数据时,将index_col的属性改为日期所在的列,即可。



你可能感兴趣的:(数据缺失值处理,python,数据分析)