本文转自石油Link,如有侵权,请联系我删除。
大数据这个新兴的概念这几年和VR一样火了起来。但大数据究竟是什么,将会给石油行业带来哪些变革?本文从已经有的应用,如预测ROP,预测电潜泵损坏时间,预测井底状况,以及测井数据的机器解释等。探讨了大数据对于我们工作和生活的影响,随着大数据对于石油行业的深入,原来的油藏,钻井等技术都将因为该技术而产生革命性的变化,若干年后,也许你的岗位将不复存在。
什么是大数据
大数据这个概念,或许可以用淘宝的一个实例解释:
(图片来自“薄云借智”)
还可以用出行时使用的高德地图实时路况来解释:
当你使用高德地图导航的时候,可以发现,这个软件已经可以实时告诉你哪条道路发生了拥堵,道路的拥堵程度,以及通过拥堵路段所需要的时间。
在淘宝的案例中,将网购用户选购的文胸罩杯和她们的购物模式数据相结合,就得到了女性胸越大,购买力就越高这样一个关联。而在高德地图的使用中,每个使用高德导航的人,都会将自己的位置和速度信息回传到服务器,在某一拥堵路段,车辆平均速度很低,服务器会认为该路段发生了拥堵,并将这一信息反馈给用户;而根据低速行驶的时长,服务器就可以给出“预计通过时间”这一预测。
在上面的例子中,每一个淘宝和高德地图的用户,他们所产生的信息的汇总,就是大数据(Big Data)。这两个软件的用户规模都是亿级的,其产生的数据量也是惊人的。下图解释了传统数据库和大数据的一些区别。
(图片来自“薄云借智”)
其实,大数据(Big Data)本身仅仅是一堆数据,杂乱无章毫无意义。而这些数据只有经过了数据挖掘(Data Mining)之后,才会产生意义。而大数据该如何挖掘,就成为了大数据研究的重点。
石油行业的大数据
我们在日常生活中所接触到的大数据,和石油行业中所使用的大数据,有着极大的不同。如果我们借用对日常生活提供服务的大数据概念套用在石油行业,就理解错了。其中的不同点主要是:
产生主体的不同。百度阿里这些互联网公司研究的大数据,主要是由人类活动产生。而油气行业的大数据,主要是要依靠各类传感器(Sensor)产生。
背后机理的不同。人类行为主要受到人类心理活动的驱使。而油气行业所研究的问题,背后是物理和化学规律。
曾经硅谷有一些科技企业,跑到休斯顿的大石油公司去说,把你所有的数据都给我,我来给你做大数据分析,帮助你进行勘探开发和实际生产规划的决策。但是这个想法距离石油公司的实际应用还有很大的距离。因为硅谷的科技企业进行的大数据分析的方式并不适合于石油行业。油田决策这种动辄千万美元的事情,真正拍板的肯定还是资深工程师。要想证明现在数据分析的算法能够准确的帮助决策,还需要从实际的小项目入手,一点一点的让石油行业从业者信服。
有一个说法是:一切不谈具体场景的大数据分析都是耍流氓;还有一种说法是:一切不以预测为目的的大数据分析都是耍流氓。所以,真正的靠谱的大数据应用,应该是结合具体场景,同时能够实现预测。虽然,定夺在哪里打井这种事,大数据还搞不定,但工程上的一些具体应用,在美国已经实现了:
预测钻进速度
钻速ROP(Rate of Penetration),是钻井中十分重要的一个工程参数,而ROP的预测一直是钻井工程希望实现的。现在,通过大数据技术,美国西弗吉尼亚大学石油工程系的Shahab Mohaghegh教授课题组所研究的算法已经能够利用大数据技术,结合LWD数据,预测下面10feet的ROP,并实现了相当高的准确性。
电潜泵工况预测
传统上,井下的电潜泵只有在已经损坏后,才会被打捞上来进行修理。这样就导致了非生产时间NPT(None Production Time),造成经济损失。通用电气GE公司目前正在致力于通过在电潜泵上安装传感器,实时监控电潜泵工况,并利用大数据,预测电潜泵会在什么时候损坏,从而提前安排维修或更换,避免NPT。
井底状况预测
哈里伯顿的Pinnacle部门,专业从事油藏分析和压裂检测,是井下光纤产品开发和行业应用领导者。光纤传感器下到井底后,可以提供完整、实时的井底情况。依靠一种新型光纤传输微地震接收器,和分布式光纤井下温度检测系统,并结合大数据分析技术,可以实现对地下裂缝的精准分析,从而评估压裂效果;并可以对地下的油气水流体状态,做出动态监测。
测井数据机器解释
传统的测井曲线,都是要靠测井工程师来进行人工解释。而现在利用大数据技术,结合机器学习,测井数据的机器解释已经能够实现。具体来说,就是先要训练电脑识别测井曲线,告诉机器每种曲线背后的物理机理及各种地层的响应特征,并使用大量的数据来训练。之后,训练过的机器就能够对测井数据进行自动解释,准确性达到了70%到80%。能够极大地降低测井工程师的工作强度。
通过大数据,以前很多不敢想,不可能的事情都可以变成可能。比如说,油田的区块分析,哪块有潜力而哪块没有,结合大数据就能做出判断;或者,压裂的效果,裂缝产生的长度,深度,以及流体流动的效果,结合大数据也可以给出。
石油大数据背后的技术
大数据应用于石油行业时,遇到的一个大讨论就是,Data-Driven还是Physics-Driven,直译为数据驱动还是物理驱动。Data-Driven意思是说,仅仅依靠分析数据,找到数据背后的规律。比如说,很多电商网站的推荐引擎具备这种能力,它能够在顾客买书的时候,推荐顾客刚好喜欢的其他书籍,顾客可能不知道“为什么”,其实网站也不在乎“为什么”,只是知道喜欢这种书的人和喜欢那种书的人之间,刚好具有一定的关联性。
这种推荐就是基于数据的,它能够通过统计分析人类所不能感知的关联,知其然而不知其所以然。文初给的阿里的例子也是数据驱动,数据发现女性罩杯和购买力存在正相关,却不知道为什么。而Physics-Driven的意思是,考虑数据背后的物理原理,结合物理原理和数据来解释问题,知其然也知其所以然。
长期以来,石油行业都是长期以来,石油行业都是Physics-Driven的,也就是,会提出各种各样的原理,原油成藏原理,原油迁移原理,钻头切割原理等等,而这些原理也被证明是确实有效的。那么,在大数据应用时,就不该彻底抛弃物理原理而单纯的采用Data-Driven;所采用的方式应该是,在物理原理的指导下,结合数据,进行大数据的分析。
石油行业的物理原理非常复杂,各种情况又千变万化,想让大数据在石油业应用,离不开的技术是神经网络(Neural Network)和深度学习(Deep Learning)。这两个术语是计算科学上的,简单解释都要一整篇文章。但通俗说起来,就是试图让机器拥有人类的思维方式,达到人工智能。
比如,一个小孩,当他第一次看到一只哈士奇,妈妈告诉他这是一只狗;之后他又看到了一只泰迪,妈妈告诉他这也是一只狗;再之后他看到了一只藏獒,妈妈告诉他这还是一只狗。那么,看过了几种狗之后,有一天小孩看到了一只他没见过的狗,比如京巴,他还是能够知道,这只京巴也是一种狗。其实哈士奇、泰迪、藏獒和京巴的外部特征差别还是很大的,但是人类就能够认识到这些狗之间还是有共性的,并把他们归为一类,其背后有着隐藏的分析处理过程,这在神经网络中称为“隐含层”。当然,这些特征可不是有一只头,四条腿,一条尾巴这么浅显,因为人类还可以分别狗和猫,而猫和狗都是一只头,四条腿,一条尾巴。
然而,如果让电脑来识别这些图像,电脑就傻眼了,电脑在知道了哈士奇泰迪藏獒是狗之后,却无法知道它没见过的京巴也是狗。而如果用神经网络和深度学习的方法训练电脑,就可以让电脑有着人脑般的结构和思维方式,即有了“隐含层”思维方式。从而有了“人工智能”。
可以预见的是,大数据技术在石油行业,必将会大放异彩,有着惊人的表现和成果。但是,这中间还有很长的路要走,难度相当大,这些电脑和算法需要大量的训练才能够达到理想的效果。因此,一大批同时懂得石油知识和大数据知识的跨界人才,需求量一定会相当大。在此,推荐石油专业的从业者和学生们,去自学一些大数据方面的知识,现在的网络这么发达,各种学习资料都能找到,想立于不败之地,就要抢先行动抢先布局。而作为企业来说,找到并重用这类跨界人才,就成了企业竞争力的保障。