好久没有更新点东西了，就把工作中灵感突发得到得小模块分享给大家吧。

需求分析

首先，气象观测数据因为有很多很多所以时不时的会有缺省值，就是说通常的数据非常的不干净，几乎每个时次同一区域不同站点总有几个或一堆缺测值，简单的求平均或者NAN=0，会破坏观测数据的分布结构，这样代表性就变小了，但是直接扔掉又会造成数据量骤减。
所以，资料的预处理很重要，这里分享一个实际使用中的简单小模块。

方法简述

核心思路是将不同的站点按照“粗一些”的网格区域分类，每类分别求取自己的平均值，然后替代掉自己类里面含有的缺省值，达到data clean的功能。
然后重复迭代更粗一丢丢的网格直到消灭所有缺省值。

代码

def lon_lat_web_cleanup(df,rect=1):
    """
    按照经纬度以及给定的网格分配距离分组求平均值，以求填补缺省值
    #design by wenqiushi 2018/5/21
    """
    
    lonW = df['longitude'].min() - rect
    lonE = df['longitude'].max() + rect
    latS = df['latitude'].min() - rect
    latN = df['latitude'].max() + rect
    lon_web = np.arange(lonW,lonE,rect)
    lat_web = np.arange(latS,latN,rect)
    
    lon_grib,lat_grib=np.meshgrid(lon_web,lat_web)
    
    kind_dict = {}
    kind_num = 0
    for key in list(zip(lon_grib.reshape(-1),lat_grib.reshape(-1))):
        kind_dict[key] = kind_num
        kind_num+=1
    
    kind_list = []
    for idx in list(df.index):
        idx_lon = df.loc[idx,'longitude']
        idx_lat = df.loc[idx,'latitude']
        
        lon_flag = lon_web[np.where(np.abs(lon_web - idx_lon)==np.abs(lon_web - idx_lon).min())][0]
        lat_flag = lat_web[np.where(np.abs(lat_web - idx_lat)==np.abs(lat_web - idx_lat).min())][0]
        kind_list.append(kind_dict[(lon_flag,lat_flag)])
    res = df.copy()
    var_df=df.iloc[:,3:]
    res.insert(0,'kind',kind_list)
    res_mean=res.groupby('kind').mean()

    rc_num=np.where(var_df.isna())
    
    for row,col in list(zip(var_df.index[rc_num[0]],var_df.columns[rc_num[1]])):
        df.loc[row,col] = res_mean.loc[res.loc[row,'kind'],col]