插值法补齐缺失数据_如何用插值法补齐缺失的数据

在我做的大气污染报表系统中,由于原始数据缺失,经常出现一些负数或者0的大气浓度,导致最后生成的曲线很丑,会画到水平轴以下。将这些错误的数据当错缺失数据处理,需要采取一定的手段填充。缺失的数据采取插值法填充,这一点早就确定下来,但在如何实现上却困扰很久。

将原始问题简化一下。比如有这样一组数据。

ID  so    co1

1  0.1  0.1

2  0    0.2

3  0.2  0

4  0    0

5  0    0.4

6  0.1  0.5

插值法计算方法如下:(也可以不使用这两个步骤,只要最后的结果一致就行)

步骤一:计算缺失值上下的已知值间的斜率:

k = (b2 - b1)/(n + 1)  n 为缺失数据的个数

步骤二:计算对应的缺失值

a(i) = b1 + k * i

经过处理后,得到的数据是这样的:

1    0.10    0.10

2    0.15    0.20

3    0.20    0.27

4    0.17    0.33

5    0.13    0.40

6    0.10    0.50

我最初的想法是:在sql语句中用for循环来做。逐条地检查每个数值,如果是0,那么获取它的前一个记录的值b1,然后再继续向后遍历,获取后面一个非0的值b2,计算这两个非0数据之间的距离n,之后再用插值法将缺失的数据计算出来,并update到b1和b2之间的每

你可能感兴趣的:(插值法补齐缺失数据)