NetCDF(nc)数据初印象—Python读取与创建

    第一次见到后缀名为.nc4的文件,是师姐发给我的 ,大学四年第一次见这种格式,实在是很惊恐。甚至在网上查找也是搜索:“nc4怎么打开”。幸好已经有了上网搜代码的经验,终于了解了一丢丢NetCDF。

    NetCDF(network Common Data Form)网络通用数据格式是由美国大学大气研究协会(University Corporation for Atmospheric Research,UCAR)的Unidata项目科学家针对科学数据的特点开发的,是一种面向数组型并适于网络共享的数据的描述和编码标准。NetCDF广泛应用于大气科学、水文、海洋学、环境模拟、地球物理等诸多领域。用户可以借助多种方式方便地管理和操作 NetCDF 数据集。(这段文字复制的百度百科。)

    接下来,我以全球海温数据(来源于All Gridded Datasets: NOAA Physical Sciences Laboratory)为例,来介绍一下如何利用Python(Jupyter Notebook)来进行nc数据格式读取与创建。

1、nc数据格式读取

    首先,我们需要netCDF4模块,利用nc.Dataset(file)读取文件后,可使用dataset_name.variables.keys()查看文件的keys。

读取文件并查看keys

    而查看每个keys的属性则是用dataset_name.variables['key_name'],如下:

查看key的属性

    以time为例,我们可以注意到time的数据类型是Float64,数据的最开始记录时间(days since ...),当前数据的量,以及空缺时的填充,我认为这些是需要注意的。lon的话还需要注意actual_range,表示其经度的范围。

    然后我们就可以读取数据啦!

读取数据

    我们可以发现我这里有两种形式,我们可以对比一下sst和ssts:

sst


ssts

    可以发现一个是masked_array,缺测值被掩码了,而ssts是array,会显示缺测值为填充值,即9.969209968386869e+36。

    当我们查看time的时候(上面times不小心多打了个s,后续改过来了,懒得改图了),我们发现格式并不是我们想的那样:

time

    这时,我们需要用nc.num2date来处理一下,如下:

nc.num2date

    这样,我们的time就变成了我们想要看到的格式!!!

2、创建nc文件

    我将以我的毕设中所处理出来的一部分结果为例,来说明如何创建nc文件。

    首先是利用nc.Dataset (file)创建一个空nc文件,注意后面一定要有‘w’表示可写。

创建第一步

    然后,为这个nc文件定义数据维度,使用的是createDimension语句,如下:

定义数据维度

    'lon'表示维度的名称,len(lon)表示维度的大小,我上面是读取了lon所以直接写的,当要定义其他的大小时,直接写下大小就可以了。

    然后,基于定义的维度创建变量,使用createVariable:

基于定义的维度创建变量

    然后,存储数据到变量:

存储数据到变量

    最后,关闭文件,d.close(),大功告成!!!

    当然,大家还可以为变量和数据集添加属性等,比如添加文件标题,要使用dataset_name.title。

    另外,如果大家的数据有缺测值时,也需要用到ma.masked_greater_equal()、ma.masked_less_equal()等来进行掩码:

掩码

    这也是我的第一次处理nc数据,如果有不正确的地方,还请指正。

你可能感兴趣的:(NetCDF(nc)数据初印象—Python读取与创建)