深度解析物联网和大数据分析的渊源和应用

最近很多人跟我讨论物联网和大数据,但他们大都还对这两个技术分类认识不是很清晰。在这里我结合我们的一些案例对这两个概念做一些阐述。

物联网是一个完整的概念,不仅包括远端的传感器数据采集、传输、存储和展示,还包括对采集的传感器历史数据的分析,以及基于分析结果所产生的决策、反馈和控制动作。相对于传统的人的认知方式,物联网相当于增强了人的“五官“的识别能力,使人能够获取到原本很多无法直接获取的信息。而基于物联网的数据分析,则相当于增强了人的”大脑”的感知能力,让人能够摆脱传统思维的局限性,实现更多维度、更全面的、更实时的认知和判断能力。

通常意义上的大数据,指的都是对批量数据的计算。由于原本的存储和计算能力有限,最近十年陆续发展出了一系列包括Hadoop、Spark在内的新技术,用以高效、实时的处理海量的数据(批量数据为主),而在此基础上,将原来的一些处理小数据集的数据挖掘技术,同大数据结合起来,实现对很多业务系统数据(批量数据为主)的分析,比如针对不同标签的群体的分类和画像,并进行精准营销。而随着实时性的提高,最近几年流式计算和分析也被提到了一个更高的层次,来处理时时刻刻都需要分析和处理的、带有时间标签的数据,如物联网数据或日志数据。

如大家所见,这两个看似毫无关联的技术,是可以通过数据(一个产生数据,一个处理和分析数据)紧密的联系在一起的。

区分IoT、IIoT和工业大数据

需追根溯源

在进一步阐述之前,我需要帮大家区分几个概念。

首先区分传统物联网和工业物联网传统物联网主要针对消费者以及智慧城市等,通过增加众多分散广泛的传感器采集和传输实时数据,构建实时监控、展示、告警和历史数据查询的能力;而工业物联网,则主要指的是通过采集现有工业设备的控制系统数据(很少需要增加传感器),在监控告警的基础上,通过深入的数据分析,找到提高设备可靠性、降低异常、提高生产和运营效率的途径。

传统物联网的数据分析,和我们在互联网上的流式数据分析,区别不大,通过单一指标的处理,产生相应的时间窗口内的平均、极值等计算量,并进行批量计算和展示。

再区分工业物联网和工业大数据在国外很多厂商和媒体上,并没有工业大数据这个概念,更多是将其合并在了工业物联网(IIoT)的范畴,而国内则将二者当成两个不同的类别,同时,还将二者连同诸如生产和供应链系统等,统统融入到工业互联网的概念中去。所以,我们可以看到包括Gartner在内的国外分析机构,并没有专门针对工业大数据或者工业互联网的分类,而有很细致的IIoT的分析。

传统的工业里面,并不是没有数据处理。但是原本的数据采集、数据处理、数据分析和反馈,都是分散在不同系统里面,一方面无法处理海量的工业“大“数据,另一方面也无法保证实时性。我们经常看见工业企业里面,很多数据分析人员被迫从不同的控制系统中手动导出一些数据文件,通过手工的方式进行交叉关联和标注,并编写相应的Matlab程序实现统计分析和建模,然后再提取一些现场数据进行验证,条件好的企业,还会请一些外部的合作伙伴将其开发成应用。这种处理和分析的效率实在是很低下,但确实是一种普遍现象。

工业物联网和互联网大数据

分析大不同

工业物联网的数据分析(工业物联网+工业大数据),同传统的互联网大数据分析,有很多不一样的地方。

数据属性不同

1、数据量巨大

工业数据的“量”,需要从几个方面来考虑:

数据维度多传统的物联网,由于通常多是相对独立的传感器,而每个传感器上的数据点往往都是个位数,因此数据维度很少。

对于工业物联网来说,复杂的生产都是多个过程相互关联、每个过程又是多维度数据集成的过程。

这里所说的数据维度囊括了生产过程中各种设备特征、外部工况、参数、材料和工艺配方等相关因素。这种维度的数量级往往是成千上万,在很多高端自动化生产(如半导体)的过程中,数据维度都达到了千万级别,而其中任何一个过程的任何一个变量的变化,都有可能对最终生产的结果产生蝴蝶效应。

采样频率多样化传统物联网的数据采集间隔通常都是秒级、分钟级别,相对比较固定。

工业设备数据的采样频率的跨度非常大,一个设备的不同指标可以有上千倍的差别。对于设备故障诊断常用的电流、振动加速度传感器指标,往往需要10KHz以上的采样频率,而一些状态变化,往往只需要几秒甚至几十秒才采样一次。

数据时间跨度大长期的数据保存,对于积累在不同状态下的特征判决,非常有帮助。

传统的物联网对长期数据的保存需求不是很明显,没有太多“状态性”(Stateless)的需求。

但是工业物联网,对基于状态(Stateful)的数据分析,需求非常强烈。

首先,在传统的工业领域,对于设备状态、控制门限、关键参数的设置,往往都是通过厂家或者运营人员的经验值来去设置和调整,这个值是否正确,是需要经过长期的数据验证的;

其次,工业设备的电流、功率、扭矩等指标,在不同工作模式、工况条件、故障状态下,往往都存在明确的不一样特征。而这些特征,如果能够被保存下来,通过机器学习来训练特征识别模型,将有助于实现精准的状态判决、异常检测和故障诊断。并且,通过不断累积类似相同标签的数据样本,将有助于增强识别的准确性。特别是一些可靠性很高的关键设备,因为故障的成本很高,更需要保存异常或者故障的特征,并通过部件之间、子系统之间以及设备之间特征的组合分析,来进一步提高可靠性。

2、实时性强

通常大家都认为工业数据的实时性会很强,但这往往指的是工业控制的实时性,而不是工业数据分析的实时性。

传统的工业数据分析,往往是通过在控制系统或者软件系统中截取一段数据,保存成文件,通过分析人员编写一段代码(如Matlab)和模型,在实验环境中进行测试和验证,再开发相应的控制逻辑或者应用程序,通过实时接收来评估开发的模型,在运行的过程中不断调整模型的参数。这个过程是非常痛苦的,不仅仅是因为数据的来源和分析是脱节的,更是因为在模型开发的过程中需要实时数据的验证是没有办法在现有环境中实现的。

而理想的工业数据分析,就应该是一个高效实时的过程。它可以从实时的工业数据中截取有效的数据样本,基于不同的开发语言和模型框架,开发特定的算法和模型,并基于实时采集的数据进行验证,然后将验证的结果同真实的实时数据流结合起来,实现实时的判决。只有这样,才能形成针对具体场景的智能分析和控制。

3、数据质量差

工业数据质量差是工业数据的典型特点。

工业的专业性特点,导致大型设备往往是来自多个不同厂家的子系统的大集成。而主机厂往往并不了解每个子系统的工作原理,并没有形成一套完整的、跨子系统的控制逻辑和数据整合机制,因此只能从其中挑选一些关键的控制信号,实现既定的控制逻辑,而不会去关心每一个子系统的工作原理,包括各种有助于实现可靠性、效率乃至质量分析的非控制用指标。

一方面,工业设备生产厂家虽然都声称能够达到各种指标,但他们往往只能保证关键控制指标的完整性,而不能保证子系统关键指标的精度和可靠性;另一方面,由于没有很好的数据整合机制,往往无法识别不同子系统的工作状态,而给后期针对不同工作状态的数据分析造成巨大的障碍;第三,来自不同子系统的整合,往往会出现时间标签不统一、数据量程不对、数据标签错误等常见错误,甚至在出现问题的时候,主机厂都无法解释子系统的指标意义;同时,由于现场环境的恶劣条件,往往会造成传感器数据失效,或者长期处于不准确状态;这些数据质量问题,都给后期的数据分析造成了巨大的障碍,在分析之前需要做大量的清洗和处理工作。

数据分析方法不同

一提到大数据分析,很多人都会自然想到通过海量数据的聚类、分类、挖掘,来实现精准营销、用户画像。

但是,这些互联网或者业务系统的数据,都有一些显著的假设条件,即数据量大、数据可以清晰的标签化、标准化场景多、分析的准确性要求不高。通过一系列的分类、挖掘,可以找到不同样本之间的共同特征,针对有相似属性的不同个体的训练结果,来推测具备相同或者相近属性的个体的特征。

1、工业数据分析挑战

但是在工业数据分析,这些假设条件基本都不存在,数据分析面临更多的挑战是:

小样本工业的异常现象往往会非常少,或者在单一设备上发生的概率非常低,这就造成无法使用常规的大数据、机器学习的方法,根据采集的异常数据特征,去训练稳定的故障模型;

过拟合根据大量相关因素,通过机器学习在特定数据集下所训练出来的模型,即使经过了大量的测试数据的验证,变现出很完美的拟合特征,但是在真实环境下,由于数据和工作状态的多变性,往往也很难取得长期稳定的判决结果,即出现“过拟合”的情况。

难以准确清晰的标注工业的数据,即使出现了一些可以提炼的特征,但是这种特征往往是跟不同的工况或者工作模式紧密相关(如振动传感器振动幅度的高低,在设备轻载或者重载下完全不一样),如果没有办法区分出异常特征的标注条件,也很难实现有效的数据过滤和分析;

场景碎片化工业的场景非常碎片化,很难有通用的模型,即使有一些类似电机、泵的故障模型,以及振动分析、SPC这样的通用分析方法,在不同类型的设备上,甚至在同一类型的不同个体上,都很难保证统一稳定的运行。

这些挑战,都会造成工业大数据分析,不可能完全采用互联网大数据的分析方法,而是需要充分结合工作机理,实现复合型的建模和判决。

2、工业数据分析分类

通常意义上工业物联网的数据分析,可以分为如下四个类别:

描述式分析(Descriptive):对采集的物联网数据进行统计和展示,这部分以统计分析为主;诊断式分析(Diagnostic):结合工业机理,对异常产生的原因进行诊断分析,这部分需要加入很多的数据挖掘技术,包括相关性分析、序列事件分析等;预测式分析(Predictive):通过长期历史数据的发展规律,预测趋势的变化,这部分需要引入包括机器学习、神经网络等技术,对趋势进行预测;处方式分析(Prescriptive):通过多个维度的数据分析的结果,结合知识库和机器学习,给出多种决策依据的可能,并提供智能的判决支持;在每个类别里面,又必须从两个层次来展开分析:

机理分析:根据物理或化学的原理,对工业设备的控制、过程以及产生的响应进行基于设计原理的专业分析,这部分一定是以专业知识为依据的;数据驱动的分析:对于工业里面很多无法测量,无法解释的现象,可以通过提取数据特征,从海量的数据中寻找异常点,通过机器学习的方法,弥补专业知识的不足;可以看到,工业数据分析的基础是工业机理,也就是专业工业知识的了解,而不是数据分析的方法和能力。没有充分的工业机理和专业知识,盲目的将一些大数据、人工智能的工具对工业数据进行分析,一定会适得其反。

应用场景融入工业三大层

起巨大作用

我们都知道,互联网大数据的应用场景包括基于用户画像的精准营销、海量结构化的决策支持等。那工业物联网的数据分析,可以应用到哪些场景中呢?

深度解析物联网和大数据分析的渊源和应用_第1张图片

我们认为,工业物联网的大数据分析,从工业的三个层次,都可以发挥出巨大的作用。

设备层工业企业可以通过读取智能工业产品的传感器或者控制系统的各种实时参数,构建可视化的远程监控,并给予采集的历史数据,构建层次化的部件、子系统乃至整个设备的健康指标体系,并使用人工智能实现趋势预测;基于预测的结果,对维修策略以及备品备件的管理策略进行优化,降低和避免客户因为非计划停机带来的损失;

例如,为某石油机械制造公司提供了钻井设备的预测性维修和故障辅助诊断系统,不仅能够实时采集钻机不同关键子系统,如发电机、泥浆泵、绞车、顶驱的各种关键指标数据,更能够根据历史数据的发展趋势,对关键部件的性能进行评估,并根据部件性能预测的结果,调整和优化维修的策略;同时,还能够根据钻机的实时状态的分析,对钻井的效率进行评估和优化,能够有效的提高钻井的投入产出比。

过程层工业企业可以将生产阶段的各种要素,如原材料、设备、工艺配方和工序要求,通过数字化的手段集成在一个紧密协作的生产过程中,并根据既定的规则,自动的完成在不同条件组合下的操作,实现自动化的生产过程;同时记录生产过程中的各类数据,为后续的分析和优化提供依据。

通过采集生产线上的各种生产设备的实时运行数据,实现全部生产过程的可视化监控,并且通过经验或者机器学习建立关键设备参数、检验指标的监控策略,对出现违背策略的异常情况进行及时处理和调整,实现稳定并不断优化的生产过程。

例如,某电子玻璃产线构建的在线质量监控体系,充分采集了冷端和热端的设备产生的数据,并通过机器学习获得流程生产过程中关键指标的最佳规格,设定相应的SPC监控告警策略,并通过相关性分析,在几万个数据采集点中实现对特定的质量异常现象的诊断分析。

经营层工业企业可以通过将过程层产生的各种OT数据,同业务系统产生或者填报的各类IT数据相结合,构建统一的数据标准,并在其基础上,通过一定的计算和分析,就能够产生准确的经营层面的分析,对企业的安全生产、经营效率、决策支持都提供支撑,并逐步延展至企业外部环境,提供开放的数据生态,进而形成更强的竞争力。

例如,某省级能源集团提供了安全生产智慧管控的解决方案,从数十个不同类型的实时数据库提取生产的实时数据,结合从第三方业务系统抽取的业务数据,构建多维度的统一数据标准,并基于IT和OT融合的数据标准,开发包括生产运行监控、安全管理、环保管理、质量管理、能源管理、经营分析等在内的一系列的工业应用。

说到这里,很多人不禁会问,原本不是也有很多的数据分析,包括BI和大屏展示还有很多的分析报表,为什么还要增加基于工业物联网的数据分析呢?

我们都知道,现阶段工业的数据分析,包括上述的展示和报表,都是基于业务系统的,很多都是填报的数据,或者基于填报数据产生的计算。而控制系统的数据和相应的分析结果,是游离在现有的数据分析系统之外的。但是,真实反映企业设备、生产和经营情况的,如果没有来自控制系统的数据和相应的分析,是严重失真的。同时,很多OT的分析,如果没有来自IT系统的关联,也是无法得到精准的结果的(比如将维保记录和生产数据结合起来实现质量分析)。

深度解析物联网和大数据分析的渊源和应用_第2张图片

工业IT/OT数据融合平台架构示意图

一个高效运行的工业企业,按照我们的理解,是必须将OT和IT的数据整合到一个大的平台上,并制定严格的数据标准(资产、过程、流程、组织的标准),通过不同的专业数据分析,持续开发不同的新形态的应用(如上图所示),才能满足企业全方位、精准、高效运营的需求。(下一篇我将针对工业企业的IT和OT的融合架构进行探讨,提前预告一下)

企业选对工业物联网平台

将决胜未来

总结一下,物联网,无论是通用的物联网还是工业物联网,如果没有结合专业的精细化的数据分析,是支撑不了企业未来的发展战略的。选择合适的工业物联网平台,将极大的加快企业的数字化进程,朝着智能化的道路快速推进。

 

 

你可能感兴趣的:(数据分析,大数据,物联网,物联网,数据分析)