HPC高性能计算知识: 勘探典型业务处理分析

HPC高性能计算知识: 勘探典型业务处理分析_第1张图片

640?wx_fmt=gif&wxfrom=5&wx_lazy=1

HPC应用的主要领域是科学与工程计算,诸如高能物理、核爆炸模拟、气象预报、石油勘探、地震预报、地球模拟、药品研制、CAD设计中的仿真与建模、流体力学的计算等。随着云计算和大数据技术的不断成熟和广泛应用,HPC已经渗透到HPDA和HPC Cloud领域,但古老的东西最容易被大众理解,所以下面我们将以物探为例,开启HPC在物探在物探领域应用的旅程。


石油勘探是典型的HPC物探应用,在原理上通过反射地震波的形式完成对石油勘探,整个勘探过程大致分为反射波数据采集、地震资料处理数据解释三个步骤。


石油地震数据处理系统是一个要求计算机系统运算性能、运行稳定性极高的计算环境。其原因在于石油行业中的数据处理非常困难和庞大。以找油和打井工作来说,一般采用三维地震勘探的办法是先在地面放炮,通过仪器测量地面震动反射波的情况,把采集所获得的地震波在地层中传播的运动学和动力学信息进行去伪存真处理,转化为地质信息,经过计算分析,反推出地下的生油、储油、盖层的地质构造特点,再确定在打井的具体位置


HPC高性能计算知识: 勘探典型业务处理分析_第2张图片


随着石油勘探新技术的不断更新、信息技术的渗透,迫使企业也需要不断采用性能优异、技术先进、价格便宜的高性能计算机处理系统来占领市场。

 

第一步收集到的数据称为“初始数据”,可能是几十TB或几百TB不等。


第二步是处理地震资料和数据,将这些数据加工、去伪存真,转化为有效的地质信息。那么,为什么要进行地震资料处理呢?


地震资料数据中包含着有关地下构造和岩性的信息,但这些信息是叠加干扰信息且被一些外界因素所扭曲,信息之间往往是互相交织的,不宜直接用于地质解释。因此,需要对野外采集的地震资料进行室内处理。


地震波石油勘探法高性能计算应用,主要可分为地震资料处理油藏模拟两大类。


  • 地震资料处理是典型的浮点计算密集型应用,以求解数据密集的波动方程为主要计算模式,因此对浮点计算能力要求较高,对大量密集数据的处理服务器需要良好的多核扩展性。


  • 而油藏模拟对计算平台的要求是需要支持稀疏矩阵方程的迭代求解,对内存带宽的要求非常高,并需要大缓存支持,因此这类软件可归为对内存带宽高度敏感的计算密集应用。


在作地震资料处理时,计算网络主要担负着并行计算时的数据通讯并行文件系统的数据传递。


  • 并行计算时的数据通讯主要是求解方程组时各个计算节点间的数据交换;这种数据交换主要是发生在计算节点之间,每次交换的数据相对不是很大,但交换的次数较为频繁。


  • 并行文件系统的数据传递主要是读写数据文件;这种网络通讯主要发生在计算节点和存储节点之间,计算节点通过存储节点读写存储设备;其特点是网络通讯并不频繁,一般发生在程序运行的开始、结束以及中间特定的时间(有波峰和波谷),但是每次通讯的数据量很大,所以对网络的带宽要求较高,这也是体现HPC存储系统性能的几个关键时期


当集群架构的高性能服务器的计算能力越来越强时,我们注意到集群系统需要存储的数据也是越来越多,这些数据多为计算过程中的中间数据,这就意味着存储系统必须提供稳定、高速的传输带宽,以保证高速计算的需要。


除了中间数据以外,存储系统还需要存储大量的计算结果,这就要求存储系统提供可靠的存储环境。


地震资料数据处理数据按照流程分为三个阶段: 初始数据、中间数据、成果数据


地震资料数据处理的第一个流程就是将野外采集的原始数据导入到存储系统。计算前,快速将原始数据读入计算节点,在运算过程中会产生大量的中间结果,即中间数据,这些中间数据在一定时间内会被反复使用,这部分数据要在线保存在高性能存储上,存储的IO性能要求非常高。


在计算过程中产生比初始数据多几十倍的中间数据,中间数据被多次读出计算,计算完后写入存储,如此多次反复,得到最终成果数据。

 

中间数据是不能删除的,因为可能会从中间某个点开始计算,以提高效率。


因为HPC执行的计算任务可能需要几个小时,也可能长达几天甚至数周。由于高性能计算系统规模高达上万个节点,故障难以避免,因此HPC系统中普遍使用“checkpoint”技术周期性地保存计算的状态和中间数据,当发生故障时,则可从上次保存的“checkpoint”状态恢复计算。在每个阶段完成后保存计算结果的方法则更简单而高效。


中间数据有归档的要求(有的HPC软件在不断产生新的中间数据,同时删除不再使用的中间数据)。但这些中间数据如果长时间占用在线高性能存储系统,会降低存储的使用效率,对于用户来说是投资上的浪费,这就需要进行数据迁移或归档,将不常用的数据保存性能相对较低的近线或离线存储系统中。


对于成果数据来说,每个处理任务都会产生一个最终的计算结果,它是不能被改动的,而且是需要长期保存的。地震资料处理数据的特点及对存储的要求主要体现在:


  • 1、 统一命名空间:不同的计算节点都要到这个统一命名空间中读取数据,存放、读取中间数据,存放结果数据。

  • 2、 数据量大:初始数据几十TB,中间数据是初始数据的10~20倍,但成果数据的大小却仅有初始数据的0.5~1%左右。

  • 3、 带宽要求高:计算节点和存储节点的数据交互次数不频繁,但是数据量大,即对网络带宽和存储节点的带宽要求高;

  • 4、 可靠性要求高:中间数据和结果数据都是珍贵数据,是通过大量的时间和资源的投入得出来的,所以对存储的可靠性要求高;

  • 5、 扩展性高:不同任务的计算集群,共用一个存储系统,避免数据迁移。

  • 6、 易用易管理:单一命名空间;存储资源可以灵活的划分给不同的计算任务(计算节点);维护简单;配额管理;

  • 7、 数据归档要求:中间数据和结果数据经过生命周期后,很少被访问,有归档需求。东方物探有这个要求,中石化国堪研究院没有这个要求。


第三步就是解释,地震资料经过数字处理以后,为什么还要进行解释工作呢?这是因为数字处理以后,提供大量的一条一条地震剖面或一块三维数据体,这些资料里包含了许许多多的地下地质信息。而我们的主要目的是要知道与油气有关的信息,如哪里能生油?哪里能储存油?这些与油气有关的地层的岩石性质、物理性质是什么?这就需要从地震资料包含的大量信息中找出与油气有关的信息,这是解释工作肩负的重要使命。


HPC高性能计算知识: 勘探典型业务处理分析_第3张图片


解释工作的好坏关系到能不能快速、优质、准确地找到油气田!所以,解释工作是地震勘探三大环节中必不可少的、最后的也是至关重要的环节。


关于高性能计算技术,前期详细总结分享过<高性能计算(HPC)技术、方案和行业全面解析>电子书,请点击原文链接查阅详情。



温馨提示:

请搜索“ICT_Architect”“扫一扫”二维码关注公众号,点击原文链接获阅读原文了解更多

640?wx_fmt=png&wxfrom=5&wx_lazy=1

求知若渴, 虚心若愚

640?wx_fmt=gif&wxfrom=5&wx_lazy=1

你可能感兴趣的:(HPC高性能计算知识: 勘探典型业务处理分析)