对源数据分析处理,转化为价值数据的过程就像是采矿,因此我们将数据比喻为工业互联网的金矿,等待着新一代数据服务商去挖掘萃取。
本文的主旨是希望在目前工业互联网如火如荼的发展建设中,对如何在工业场景下,挖掘使用数据进行体系性梳理,和感兴趣的朋友分享下个人理解。
近十年里,随着金融和互联网行业的热度降低,工业作为整个现代人类文明发展的基石,其重要性在全世界范围内都得到了重新肯定,全球工业产业发展正在迎来新一轮的春天。
美国自2008年金融危机遇到了产业空心化,鉴于在其GDP总量中,服务业占比70%而制造业仅占12%的不平衡结构,美国提出“先进制造业伙伴计划”,旨在振兴“美国制造”;日本制造业产值占GDP比重达20%,已从国家层面上开始高度重视科技附加值高的高端制造业;德国以精益制造领先全球,提出“工业4.0”企图再次引领新一轮工业革命,巩固其竞争地位;中国经济增长放缓,经济结构调整站在了制造业转型升级的十字路口。未来制造业将回归各国战略重心,成为全球经济稳定增长的重要引擎。
国家 | 政府规划 | 战略重点 |
---|---|---|
德国 | 《高技术战略2020》 | 工业4.0,智慧工厂,智能生产,成为新一代工业生产技术供应国和主导市场 |
美国 | 《重振美国制造业框架》《先进制造伙伴计划》《先进制造业国家战略计划》 | 工业互联网,将人、数据与智能设备衔接,以交换数据来驱动制造业智能转型。侧重“软”服务,通过大数据、软件、互联网等对传统工业实现再工业化 |
日本 | 《日本制造业白皮书》 | “以3D造型技术为核心的产品制造革命” 人工智能,智能化生产线和3D造型技术 |
中国 | 《中国制造业发展纲要》《中国制造2025》《深化“互联网+先进制造业”,发展工业互联网》 | 两化融合,制造强国,工业互联网,打造新一代信息技术产业、生物医药与生物制造产业、高端装备制造产业、新能源产业等 |
从发展方向来看,德国和日本的政策偏重物与物之间的互联,关注产品的生产过程;美国的政策偏重物与人之间的互联,更关注人对产品的使能。中国的“互联网+”策略方向上偏向美国,落地措施上偏向德日,可以认为对二者全部涵括。
从2016年开始,中国一直是全球最具竞争力的制造业国家,中国当前的制造业规模非常大,早在2010年就超越美国成为了全球第一。按照联合国统计,每500个产品中,有约220个源自中国。从制造业的技术创新来看,中国近几年进步很快。不过,最近5年中国经济增长率约7.1%,经济放缓将进一步持续。由于需求下降引起工业活动不断下滑,进而导致工厂产能过剩。中国汽车行业目前产能利用率从2009年的100%下降至50%,制造业占GDP的比重也在逐年递减,其中大部分转向了服务业。很显然中国制造业转型升级的任务非常繁重,主要的问题仍然是结构性问题:有效需求不足,使得产能过剩问题凸显;有效供给不能完全适应消费结构升级的需要,应该提高供给侧对消费结构升级的适应性和灵活性。
《中国制造2025》战略提出,中国要顺应“互联网+”的发展趋势,以信息化与工业化深度融合为主线,重点发展新一代信息技术、高档数控机床和机器人、航空航天装备、海洋工程装备及高技术船舶、先进轨道交通装备、节能与新能源汽车、电力装备、新材料、生物医药及高性能医疗器械、农业机械装备10大领域。这些领域需要投入大量的创新研发资金,需要军工企业、大型国企、高校科研机构的通力合作。同时,中国的中小企业是中国制造业最有潜力的组成部分,它的数量占到了所有企业的99%,创造了中国60%的GDP。中国中小企业的研发创造远远超过大型企业,中国65%的专利,75%的发明专利及80%的新产品来自于中小企业。中国制造的未来不仅要依靠大型企业,更需要中小企业的创新和活力。
从工业4.0产业链看,工业智能制造在上游高度依赖四大基础条件–传感器(数据采集)、大容量存储(数据存储)、大数据计算能力(数据处理)和工业联网(数据传输),这些均是工业4.0实施的关键要素和前提保障;产业链中游包括软硬结合的行业解决方案提供商、智能制造解决方案设计方,工业云等基础平台服务商等,提供了数据从粗加工到深加工的各类服务(数据使用)。由于在中国大部分行业并没有成熟的智能制造解决方案,先进入者往往具有较强的先发优势,在细分行业形成较高进入壁垒;从产业链下游看,接受工业4.0改造的产业和厂商通过对数据的规模利用(数据价值化),将大幅节省劳动成本、提高生产效率、提升客户体验,增强制造厂商的竞争优势。
工业互联网核心就是工业数据的优化使用,数据的流转过程在各个行业大同小异,关键都是对数据自身的“生产采集-网络传输-集中存储-加工处理-应用呈现”五步动作,最终依据呈现结果进行手工或自动策略执行。下面也将通过工业场景下的数据采集、传输、存储、处理、应用和价值化六个主要步骤依序进行分析。其中“采集-传输-存储-处理”四个步骤相对标准化,应用与价值化则更加依托场景,选择多种多样。
首先对工业场景下的数据源进行释义的统一,这里的释义纯粹依据作者认知,可能会与某些标准不符(当然不同标准之间也经常会打架),只是为了便于后文的阅读理解,领会精神即可,请勿扣字。
本文所述的工业重点在制造业,指能通过物理和化学过程生产出实体产品的企业,软件和能源产业等不包含在内。
在制造企业中,能够产生数据的实体统分为三类:
此三者是可以相互转化的,A企业的产品可以成为B企业的原件,例如钢板、开关或轮胎等,也可以成为C企业的设备,例如车床、打包机、车企运输小汽车的板车等。释义界定以销售完成,物品主权方变更作为边界,便于后面数据主权的划分。本文重点关注生产设备类数据采集,面向消费者的工业产品暂不做涉及。
另外本文讲的产品和原件以电子类实体物品为主,也包含可以附加电子标签的实体,设备则专指电子类设备。总之要能有电,没电就谈不上采集和传输数据,搞个钢锭、焦炭或者锤子、改锥、手推车啥的,也没有太多数据可以挖掘。
工业数据系统设计,理论上应该是自顶向下的,既应先有数据价值化目标,再做数据使用的设计,进而明确数据处理动作和数据存储需求,最后根据数据量架设传输网络和部署采集终端。但考虑到目前整个工业数字化发展的现状,价值化应用方向并不明确,建设顺序普遍还是以自下向上为主,简单讲就是“要想富,先修路,修好路能不能富再说“的思路。本文也就随同主流思想,按照数据从产生到应用的顺序介绍,更便于读者理解,反正技术上还是那些内容,先说后说差别不大。
书归正文,数据采集动作主要是依靠设备和产品监测提供自身的运行数据,以及部署额外传感器两种手段来执行。设备自身的数据收集就看生产设备的企业做了哪些接口,可以提供什么数据项标签,能力完全把控在ABB、西门子等工业设备巨头手中,能采集到的数据都是根据其发布的通用接口获得。传感器则是生产企业根据自身需要在全产线和产品上部署,完成探测、记录和上传的功能,从探测目标上通常分为光电、热感、气敏、力敏、磁敏、声敏、湿敏等不同类别,采集到的数据也各自对应。工业传感器根据部署环境,对可靠性和稳定性有较高要求,例如需要耐高温高压等。往往一套大型设备或组装产品,都会包含大量的传感器组件,如工业机器人设备,可能会包含三维视觉传感器、力扭矩传感器、碰撞检测传感器、安全传感器、焊接缝追踪传感器、触觉传感器等。又如一辆整车产品,往往也会对发动机、水箱、油箱、刹车、轮胎等部件都设置传感器进行监测,一次采集的单条数据会包含上百个数据项内容。
传感器技术发展的方向是小型化和无线化,以适应更广泛的应用场景。其中小型化的关键技术是微机电系统(Microelectromechanical Systems,MEMS),操作范围在微米级别,器件尺寸往往在20微米到1毫米之间。微机电系统在日本被称作微机械(MicroMachines),在欧洲被称作微系统技术(Micro Systems Technology,MST),相关的纳米级操作技术则被称为纳机电系统(nanoelectromechanical systems,NEMS)。MEMS目前常见的应用有陀螺仪、胎压和声音等方面的传感探测。
传感器节点往往包括一个探测装置、一个微控制器、一个能源装置(一般为电池)、一个网络连接器(有线或无线)。有线连接方式受成本和环境所限逐步走向没落,无线传感网络(Wireless sensor network,WSN)应用范围则在快速发展,相关网络技术有很多,如ZigBee、蓝牙、LoRa、NB-IoT等。
当前国内的工业传感器发展相对落后,2017年全球MEMS传感器销售排名前十均为欧美企业,其中Bosch、意法半导体、德州仪器和Avago稳居前四。
数据生成采集后,就要通过网络技术传输到集中的管理端进行储存。现在很多智慧工厂、智能车间项目中,往往将车床、铣床等设备数据通过室内网络初步集中的过程也叫做数据采集,这只是定义范围上的区别,无需深究。
工业互联网中的数据传输主要涵盖两段网络,传感器/设备到工业网关,以及工业网关到管理平台。个别简化场景里面工业网关和管理平台节点会合一,二者也对应物联网场景中的IoT网关和IoT管理平台。设备传感器到工业网关再到管理平台的连接,可以类比移动网络中的终端到基站到核心网。
工业网关节点身负承上启下的重任,兼容性和实时转发性能是关键指标。工业网关到管理平台这段网络传输相对简单,基本上就是走移动互联网、WIFI或者以太网专线这些大路货,咋标准咋简单咋来。而工业网关到传感器/设备这一段的网络通信技术就五花八门了,给大家分享下维基百科上的部分列举项,看看能认识几个。
造成这种混乱的根本原因有二,一是工业细分子行业的分门别类,二是设备生产厂商的各自为战。因此工业互联网发展首先要做的就是网络统一,如前文所说,无线传感网络WSN是目前最主要的方向。但个人感觉,在工业领域,由于ABB\西门子等传统设备厂商话语权较大,各种开源标准化组织乱飞,最终哪个协议能脱颖而出一统天下,三五年内还很难有定论。
从技术思路上做些简单分析,因为在我国工业互联网产业联盟AII的标准中已经规定了要采用IPv6,在国内也就不需要考虑OSI模型IP层以上部分了,直接采用现有TCP/UDP等标准即可,协议设计的重点应该放在数据链路层的传输设计上。工业设备终端到工业网关这段网络为典型的点到多点一跳网络,因此不需要设计寻址协议,新加入网络的设备节点广播一下,即可联系到网关完成注册。设计关键是封装协议报头足够简短精悍,满足低时延和无线化的发展方向。带宽需求则要看场景,传感器直接采集数据的网络传输对带宽要求较低,而生产设备采集数据的传输会要求稍高,但也不需要太高的带宽。只有类似汽车这种组装产品涉及多部件采集数据同时上传时,才会对网络带宽有较高要求。此类产品,如果会大范围移动的,则使用4G/5G,小范围动或者不会动的,则优先用有线或WIFI。在采用无线网络传输时,还要考虑单位固定空间内,大量终端接入时的互扰,WIFI就一直因为稳定性问题被诟病,很难在工业互联网场景中有较大发展。
概括来说,工业互联网数据传输场景的需求主要是高密接入和低时延,带宽则要看场景。因为本文所述重点是数据,那么数据传输部分,只要能保证数据项从设备/产品传递到管理平台进行储存即可,网络就不做过多分析。其实用什么姿势传球不重要,关键是能准确快速的传到位。
这里再说一下工业互联网产业联盟AII重点在推的标识解析体系标准。技术架构上很好理解,就是用一套标准的编码去替代目前企业各自为政的产品编码、资产编码、物料编码、XX编码等,用此编码作为实体唯一身份标识,搭配产品/设备的IPv6唯一地址,形成类似互联网域名与IP地址一样的对应关系。从国际到国家再到行业到企业,建设多级名称节点,做标识到地址的解析。总之,搞明白了DNS,工业标识解析体系就不会存在理解难度。
但是(此处必须有但是,虽然想法不够主流,但作为技术爱好者,实在是不吐不快),这套工业标识解析体系标准的用途实在让人看不清。
我们先来看DNS的使用。首先,DNS是要应用在大型开放的网络中,小范围封闭网络一般用IP地址就够了,根本不需要做域名解析;其次,DNS的使用目的是为了降低IP地址的记忆难度,对计算机服务访问来说,域名并不是必须的;最后,域名与IP地址并不是唯一对应的关系,通过单域名对应多IP可以实现全局负载均衡,多域名对应单IP可以实现业务服务的复用。
对应来看工业互联网标识解析体系。首先,一台企业的生产设备暴露在大型开放网络中风险远大于收益(工业互联网都设计了国际顶级节点,规模比Internet只大不小),Internet网站服务面向公众提供访问是为了互联网企业生存盈利,机床叉车面向公众提供访问想不明白必要性,万一被黑了,对企业来说损失可是不可估量的。其次,就目前的思路来看,标识的编码设计,复杂度比IPv6小不了多少,记忆难度仍然很高,估计访问时都得靠扫码。最后,现在设计中,一台生产设备的标识与IPv6地址都是唯一的,那么同一设备要两个唯一的识别编码有啥意义,留一个就够用了啊。
只提问题不给解决方案都是耍流氓,一些个人想法如下:
可以理解我们国家搞工业互联网标识解析体系的初衷,在IPv4时代,地址分配与域名解析这两块被国外卡脖子卡得太久了。人的连接已经就这样了,我们希望在新时代物的连接中能够抢占优势地位,至少增加更多的自主权。这个思路方向个人举双手赞同,但就目前设计来看,具体落地还远远不够成熟,有些太想当然的高大上了,但愿不要再闹出类似IPv9的笑话来就好。思维方向可以大开脑洞,但技术设计一定要准确严谨。
工业数据经过采集传输后,势必要有个集中存储的地方,其需求的核心就是容量大。物联网时代,海量的连接设备带来了海量的数据,即使设备单次单条采集的数据量不大,但架不住节点多频度高,PB级别容量已经成为很多新系统的基本存储需求。
工业数据以结构化数据为主,既采集来的数据标准性很高,数据项之间有很强的关系逻辑,因此传统的工业数据库都会采用关系型数据库进行存储管理。但在目前物联网数据采集能力的高速发展下,今天一条数据采10个项,明天可能就是几十项,后天就是上百项。数据项内容的不确定性增长,严重影响了关系型数据库在工业互联网场景使用的未来。再加上越来越丰富的数据类型,如音视频、图像文档等在工业领域的广泛应用,分布式的NoSQL技术正在逐步壮大,有可能在未来5-10 年取代关系型数据库在工业数据领域的地位,如MongoDB、Hadoop现阶段都已开始崭露头角。
各类数据库技术发展了这么多年,已经相当成熟,工业领域也没有什么独到的分支方向,更多的是技术应用创新,所以这里就不做过多展开了,感兴趣的朋友去看些通用的数据类技术文档即可。
另外讲一个数据存管分离的理念,目前在工业领域比较容易让人混淆。工业数据管理平台的概念,由于各个厂商出发点不同,会根据自身产品方案去各自解读,形成很多马甲概念。管理平台的作用主要是与终端设备(如传感器模组)建立通信通道,传输数据。类似交通部门,只管修路连通和制定交通规则,不造车(生产数据)不开车(流转数据)。物联网平台、视频管理平台、车联网平台等都是此类管理终端通信的软件平台。在现有工业体系架构中,因为管理平台的集中部署与数据集中存储需求吻合,且管理平台厂家一般也是终端(物联网卡、摄像头、传感器)的生产厂家,因此大部分平台的管理与存储能力是集合在一起的,通过一体机的方式为客户提供服务。此类软硬件不解耦加存管不解耦的黑盒子销售方式,价格不需要透明,可以为厂商带来更高的利润。
受到数据量飞速激增的冲击,传统工业数据的黑盒子模式正在逐渐瓦解中。软硬件解耦已经先一步落实,行业后进者基于标准虚拟机或X86服务器,开发管理平台软件,帮助工业企业拥有更广泛的基础架构可选择范围,使云化部署成为可能,对传统一体机形态形成强烈的价格冲击,迫使传统厂商也纷纷转型软件云化。
而存管解耦分离相对进展较慢,各厂商为了自身考虑,短期内很难放弃存储扩容这一块的丰厚利益。未解耦模式下,数据的读取使用,都需要再经过管理平台的接口处理,造成性能效率的降低(更多次的数据处理)和数据缺乏独立性(厂商私有数据接口)。
由于目前工业企业受限于自身技术能力,且平台开发厂商的意愿不强,存管解耦分离的大范围普及,估计还得有个3-5年才能到来。但从企业信息化总体需求趋势来看,数据处理性能提升和业务开发分工细化是必然方向,存管解耦也终将实现。
完成了数据的集中存储,下一步就要进行加工处理,将原始数据变成可用数据。这个阶段有不少技术名词:数据清洗、数据治理、数据排序、数据整合、数据关联等等。实际上都是对数据的增、删、改、查这些基础操作的延伸。通过一系列的算法规则设定,将数据初步加工成工业应用需要的原材料。
同时工业数据处理中,还需要采用分布式和消息缓存等大数据技术来实现并发检索加速。单计算节点的处理能力提升永远是有限的,面对未来海量工业数据,分布式并发数据处理技术才能实现无限扩展。Hadoop已经成为大数据技术的事实标准,基于(key, value)模型能够有效处理海量的结构化、半结构化和非结构化数据,从容量、性能、兼容性到可扩展性都是工业数据处理技术的最佳选择。当然,在目前工业企业的信息化建设初始起步阶段,采用MySQL、MongoDB等数据技术是技术门槛较低、性价比较高的选择,但后期数据量超过临界点后会面临架构变更的困难。因此企业做技术选型时,一定要对未来几年的数据量有所预估,个人建议如果数据总量3年内会达到PB级,那就直接上Hadoop;如果5年后才达到,可以考虑架构逐步演进变更;如果根本达不到PB级,采用传统数据库技术处理就够了。
像炒菜一样,经过前面几个步骤,数据已经被剥洗切腌,成为备好的食材,就等着大厨下锅变成可口美味了。
数据,在工业场景中的主要作用是作为决策依据,是人或自动算法做判断时的关键输入。数据应用就是输入查看和算法执行的统合工具。所有的工业应用,概括起来就是做了数据呈现与动作执行两个事,数据呈现是因,动作执行是果。
数据呈现:将处理过的数据进一步精加工,以图、表、音等形式在应用程序界面中呈现出来,让使用者能够更直观的了解设备运行情况、生产进程状态、产品流转进展等内容。这里的关键是图形展现形式的设计,怎么能让人觉得更“好看”。
动作执行:工业应用的使用者,根据呈现的数据内容,做出策略执行动作,可以是手工或者自动的执行,不限于设备操作、告警提示、流程审批、报告发布等。关键是对呈现数据进行判断的算法规则设计,类比If…then…、While…do…这种。
由于工业的子行业划分和细分场景众多,工业数据应用的类型数量也多如繁星,例如就一个设备告警应用,按照行业可区分为轻工、重工、化工、白电等,按照用途可区分为生产、装配、物流、包装等,按照设备类型可以分为机床、铣床、叉车等。场景不同应用要呈现的数据和策略算法自然不同,组合起来成千上万。因此工业数据应用的市场前景广阔,可容纳玩家众多。
从工业应用对数据的使用情况来看,目前还处于初级阶段,主要是因为数据的使用者大多局限于数据生产者企业自身,没有能形成数据在整个生态产业链的流转。就像篮球比赛中,只有一个人带球,相互不传球,团队肯定就不会有太多的进攻手段。这也是后文数据价值化的突破方向所在。
现在工业互联网里面时髦的技术概念名词太多,什么边缘计算、工业大脑、AI智能,估计大家也都审美疲劳了。包装嘛,大家都能理解。但工业企业真正要做落地实施的时候,一定要能区分哪些是空中楼阁、镜中水月,不然被忽悠了一通概念,最终啥也没做出来就,投资可就打了水漂。
如何分辨一套高大上的技术架构能否落地?最简单的方式就是拉出一条工业数据来,在这个架构中走一遭,看看数据旅程是否完整清晰。是骡子是马,拉出来溜溜。下面简单的做个数据旅程模拟示范,为了描述方便,给这条模拟数据起个名字Data_I。
基础环境数据项
生产商 | 设备类型 | 设备型号 | 生产日期 | 设备编号 | 本次启动运行时间 | 历史累积运行时间 | 环境温度 | 环境湿度 |
---|---|---|---|---|---|---|---|---|
西门子 | 冷轧机 | 300 | 2010.1.1 | 123456789 | 2d8h25m22s | 233d12h30m2s | 20 | 60% |
生产管理数据项
轧辊直径 | 轧辊长度 | 板带宽度 | 钢卷厚度 | 钢卷宽度 | 钢卷外形 | 钢卷内径 | 钢卷外径 | 入口卷号 |
---|---|---|---|---|---|---|---|---|
** | ** | ** | ** | ** | ** | ** | ** | ** |
工艺管理数据项
出门厚度 | 出门宽度 | 活套张力 | 拉绞机设定 | 轧制规范 | 版型规范 | 材料屈服强度 | 摩擦力数据 | 材料道次 |
---|---|---|---|---|---|---|---|---|
** | ** | ** | ** | ** | ** | ** | ** | ** |
上面模拟的这些都是一条采集数据中所包含的数据项,工业场景中,单条数据含几十上百个项是非常正常的。下面我们来看一下这条模拟数据的数据旅程:
没有无价值的数据,只有还没被发现价值的数据。
先明确两个概念,工业领域的数据主权与数据脱敏。
数据的价值化在于流转,球传起来进攻就活了。仍然以前面轧机数据Data_I进行价值化举例,来看看都有谁可以用这数据做什么。
单独从Data_I的数据内容来看,只要将设备拥有方的业主信息删掉,其他数据项单独拿出来都不存在多少敏感性,完全可以按表项内容,将脱敏后数据销售给上述外部机构企业使用。
对工业企业来说,信息化转型就是个投资过程,主要目标是对生产销售做改进,工业数据从采集到应用都是纯靠花钱才能建设起来的。那么如果此部分数据能够形成销售,就成为一笔计划外收入,相信低风险情况下的创收是每个企业主都喜闻乐见的。
在数据价值化的过程中,数据服务商的角色极为关键。目前国内还没有工业领域的数据服务商,关键原因是缺少能做多家企业数据统合的服务平台,单一企业的数据销售价值不大,只有形成行业性的综合数据仓库后,数据样本多了才会吸引购买者兴趣。数据服务商主要有以下四件事要做:
虽然我们经常乐见于“没有中间商赚差价”,但就工业数据的发展来看,数据中间服务商在较长时间内还是必不可少的,而且这个角色也是真正能快速搅活工业企业信息化进程的鲶鱼。在任何行业发展中,价值驱动常常是会强于政策驱动的。
未来5-10年,随着数字化技术的进步,工业领域将发生翻天覆地的变化,国家之间的竞争也正在回归基础工业能力的竞争。目前工业信息化在全球范围才刚刚起步,工业数据仍然是有待挖掘的金矿,谁能先掌握数据,必将成为新时代的领军者。