“AI Earth”人工智能创新挑战赛——AI助力精准气象和海洋预测BaseLine

BaseLine提交需要了解阿里云天池的Docker构建与提交,内容可以参考:https://www.jianshu.com/p/d871920cb472

竞赛题目

发生在热带太平洋上的厄尔尼诺-南方涛动(ENSO)现象是地球上最强、最显著的年际气候信号。通过大气或海洋遥相关过程,经常会引发洪涝、干旱、高温、雪灾等极端事件,对全球的天气、气候以及粮食产量具有重要的影响。准确预测ENSO,是提高东亚和全球气候预测水平和防灾减灾的关键。

本次赛题是一个时间序列预测问题。基于历史气候观测和模式模拟数据,利用T时刻过去12个月(包含T时刻)的时空序列(气象因子),构建预测ENSO的深度学习模型,预测未来1-24个月的Nino3.4指数,如下图所示:


enter image description here

图1 赛题示意图

竞赛数据

数据简介

本次比赛使用的数据包括CMIP5/6模式的历史模拟数据和美国SODA模式重建的近100多年历史观测同化数据。每个样本包含以下气象及时空变量:海表温度异常(SST),热含量异常(T300),纬向风异常(Ua),经向风异常(Va),数据维度为(year,month,lat,lon)。对于训练数据提供对应月份的Nino3.4 index标签数据。

训练数据说明

每个数据样本第一维度(year)表征数据所对应起始年份,对于CMIP数据共4645年,其中1-2265为CMIP6中15个模式提供的151年的历史模拟数据(总共:151年 *15 个模式=2265);2266-4645为CMIP5中17个模式提供的140年的历史模拟数据(总共:140年 *17 个模式=2380)。对于历史观测同化数据为美国提供的SODA数据。

其中每个样本第二维度(mouth)表征数据对应的月份,对于训练数据均为36,对应的从当前年份开始连续三年数据(从1月开始,共36月),比如:

SODA_train.nc中[0,0:36,:,:]为第1-第3年逐月的历史观测数据;

SODA_train.nc中[1,0:36,:,:]为第2-第4年逐月的历史观测数据;
…,
SODA_train.nc中[99,0:36,:,:]为第100-102年逐月的历史观测数据。


CMIP_train.nc中[0,0:36,:,:]为CMIP6第一个模式提供的第1-第3年逐月的历史模拟数据;
…,
CMIP_train.nc中[150,0:36,:,:]为CMIP6第一个模式提供的第151-第153年逐月的历史模拟数据;

CMIP_train.nc中[151,0:36,:,:]为CMIP6第二个模式提供的第1-第3年逐月的历史模拟数据;
…,
CMIP_train.nc中[2265,0:36,:,:]为CMIP5第一个模式提供的第1-第3年逐月的历史模拟数据;
…,
CMIP_train.nc中[2405,0:36,:,:]为CMIP5第二个模式提供的第1-第3年逐月的历史模拟数据;
…,
CMIP_train.nc中[4644,0:36,:,:]为CMIP5第17个模式提供的第140-第142年逐月的历史模拟数据。

其中每个样本第三、第四维度分别代表经纬度(南纬55度北纬60度,东经0360度),所有数据的经纬度范围相同。

训练数据标签说明

标签数据为Nino3.4 SST异常指数,数据维度为(year,month)。

CMIP(SODA)_train.nc对应的标签数据当前时刻Nino3.4 SST异常指数的三个月滑动平均值,因此数据维度与维度介绍同训练数据一致

注:三个月滑动平均值为当前月与未来两个月的平均值。

测试数据说明

测试用的初始场(输入)数据为国际多个海洋资料同化结果提供的随机抽取的n段12个时间序列,数据格式采用NPY格式保存,维度为(12,lat,lon, 4),12为t时刻及过去11个时刻,4为预测因子,并按照SST,T300,Ua,Va的顺序存放。

测试集文件序列的命名规则:test_编号起始月份终止月份.npy,如test_00001_01_12_.npy

数据(Netcdf文件)读取方法

(1) https://www.giss.nasa.gov/tools/panoply/ panoply可视化文件

(2) Python中xarray/netCDF4 库

提交说明

选手针对测试集中每个测试样本,预测未来24个月的Nino3.4指数,并保存为和测试样本同名的npy格式文件,其中Nino3.4指数均以float格式保存。例如针对test_00001_01_12_.npy样本,预测结果保存为test_00001_01_12_.npy。将测试集所有样本预测结果文件保存在result文件夹下,并打包为result.zip。

评估指标

参赛选手提交的预测结果采用客观定量评分办法,该方法基于相关系数技巧评分(Correlation coefficient)和均方根误差(RMSE),相关系数及方法说明可参考http://www.cawcr.gov.au/projects/verification/,当预报时效越长所占的评分比重越高,系统会自动的在天池平台上计分和排名,最终得分排名前6的参赛队伍将晋级终极赛 。

评分细则说明: 根据所提供的n个测试数据,对模型进行测试,得到n组未来1-24个月的序列选取对应预测时效的n个数据与标签值进行计算相关系数和均方根误差,如下图所示。并计算得分。计算公式为:

“AI Earth”人工智能创新挑战赛——AI助力精准气象和海洋预测BaseLine_第1张图片

“AI Earth”人工智能创新挑战赛——AI助力精准气象和海洋预测BaseLine_第2张图片

BaseLine

学习地址:http://datawhale.club/t/topic/1419
首先从Datawhale的GitHub上下载该repo,该baseline为一个基础模型,但是已经给出了训练好的权重,我们之间使用即可,另外需要对预测的代码做一些小的修改,主要是检测result文件夹是否存在,如果不存在的话就创建该文件夹。至此,就可以docker build并且push就到仓库,再到竞赛页面提交即可。(这里的操作步骤可以参看文章开始的docker使用介绍)

“AI Earth”人工智能创新挑战赛——AI助力精准气象和海洋预测BaseLine_第3张图片

tips

提交之前最好在本地先运行一下,看是否有错误,以免耽误时间浪费提交次数。
docker run -it -v /Users/zp/Desktop/datawhale/team-learning-data-mining/tcdata/:/tcdata 8f5692a57547 /bin/bash
这里需要提交根据容器镜像的介绍创建tcdata

|--tcdata
    |--enso_round1_test_20210201.zip
    |--enso_round1_test_20210201
        |--test_00001_07_06.npy
        |--test_00014_02_01.npy
import tensorflow as tf
import tensorflow.keras.backend as K
from tensorflow.keras.layers import *
from tensorflow.keras.models import *
from tensorflow.keras.optimizers import *
from tensorflow.keras.callbacks import *
from tensorflow.keras.layers import Input 
import numpy as np
import os
import zipfile

def RMSE(y_true, y_pred):
    return tf.sqrt(tf.reduce_mean(tf.square(y_true - y_pred)))

def build_model():  
    inp    = Input(shape=(12,24,72,4))  
    
    x_4    = Dense(1, activation='relu')(inp)   
    x_3    = Dense(1, activation='relu')(tf.reshape(x_4,[-1,12,24,72]))
    x_2    = Dense(1, activation='relu')(tf.reshape(x_3,[-1,12,24]))
    x_1    = Dense(1, activation='relu')(tf.reshape(x_2,[-1,12]))
     
    x = Dense(64, activation='relu')(x_1)  
    x = Dropout(0.25)(x) 
    x = Dense(32, activation='relu')(x)   
    x = Dropout(0.25)(x)  
    output = Dense(24, activation='linear')(x)   
    model  = Model(inputs=inp, outputs=output)

    adam = tf.optimizers.Adam(lr=1e-3,beta_1=0.99,beta_2 = 0.99) 
    model.compile(optimizer=adam, loss=RMSE)

    return model 

model = build_model()
model.load_weights('./user_data/model_data/model_mlp_baseline.h5')

test_path = './tcdata/enso_round1_test_20210201/'

### 1. 测试数据读取
files = os.listdir(test_path)
test_feas_dict = {}
for file in files:
    test_feas_dict[file] = np.load(test_path + file)
print(file)
### 2. 结果预测
test_predicts_dict = {}
for file_name,val in test_feas_dict.items():
    test_predicts_dict[file_name] = model.predict(val).reshape(-1,)
#     test_predicts_dict[file_name] = model.predict(val.reshape([-1,12])[0,:])

### 3.存储预测结果
if os.path.isdir('/result/'):
    pass
else:
    os.mkdir('/result/')
for file_name,val in test_predicts_dict.items(): 
    np.save('./result/' + file_name,val)

#打包目录为zip文件(未压缩)
def make_zip(source_dir='./result/', output_filename = 'result.zip'):
    zipf = zipfile.ZipFile(output_filename, 'w')
    pre_len = len(os.path.dirname(source_dir))
    source_dirs = os.walk(source_dir)
    print(source_dirs)
    for parent, dirnames, filenames in source_dirs:
        print(parent, dirnames)
        for filename in filenames:
            if '.npy' not in filename:
                continue
            pathfile = os.path.join(parent, filename)
            arcname = pathfile[pre_len:].strip(os.path.sep)   #相对路径
            zipf.write(pathfile, arcname)
    zipf.close()
make_zip()

你可能感兴趣的:(“AI Earth”人工智能创新挑战赛——AI助力精准气象和海洋预测BaseLine)