物联网与大数据

物联网的骨架——三层架构

物联网主要通过各种设备(比如RFID,传感器,二维码等)的接口,将现实世界的物体连接到互联网上,或者使它们互相连接,以实现信息的传递和处理。

物联网与大数据_第1张图片
物联网三层架构

在物联网三层架构中,主要有以下方面:

  • 应用层
  • 网络层
  • 感知层

概念上,物联网可连接大量不同的设备及装置,包括:家用电器和穿戴式设备等,嵌入在各个产品中的传感器(sensor)便会不断地将新数据上传至云端。这些新的数据以后可以通过大数据技术进行数据处理,再利用人工智能来分析数据背后的规律,以生成所需要的信息并继续积累知识。
互联网在现实的物理世界之外新建了一个虚拟世界,物联网将会把两个世界融为一体。

大数据作用——数据处理整合

如果把整个物联网比作一个人,那么感知层相当于人的五官和皮肤,其功能为 感知数据,而网络层则是这个人的神经中枢系统,负责传递数据,最后的应用层就是大脑,最复杂也是最多样的部分,不仅要处理及整合数据,还负责构建数据服务平台。
而大数据则是在应用层中关键的一环,因为“大脑”需要的所有数据,都需要经过大数据的处理,才能被理解和利用。

大数据主要完成的工作是:

  • 采集
  • 导入/预处理
  • 统计/分析
  • 挖掘

采集

这里的采集过程,和前面所说的感知层中的感知过程,是不同的。采集,是利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作,对于感知层的数据来说,这里是它们集中入库的地方,是感知层的下游。

导入/预处理

各种数据源的数据是异构,也就是表现形式不同,例如风速传感器的数据可能包含了采集时间 风速 风向等,二氧化碳传感器则有二氧化碳含量等,其中的数据格式可能包含了整数,浮点数以及字符串等形式,如何把这些异构的数据导入并处理为同构易处理的数据?这就需要大数据中常用到的ETL技术来处理。所谓的ETL,就是把原始的这些数据统一到同一类格式中,再导入到分布式文件系统(如HDFS),方便后期的业务应用提取使用。

统计/分析

经过ETL技术处理后的数据虽然有了统一的格式,方便整理及查看,但是动辄上亿的数据,仍然可以让人眼花缭乱,无从下手。因此我们需要把数据进行分析并统计,以一种俯视的角度,查看数据的整体概况。目前的分析系统主要由两种形式:离线计算以及实时计算。
离线计算就是指数据产生的时间和真正计算分析的时间有较大的时间差,例如今天产生的数据,统一在第二天的凌晨零时计算,得到一天的统计信息(如平均值,峰值等)。而实时计算则是在很小的时间差内产生分析数据,近似于实时得到结果。
以往的分析系统大部分是离线计算,由于技术更新,涌现了大量实时计算的技术,如storm,spark streaming等,现在越来越多有技术研发的公司有能力构建自己的实时计算系统,并在此基础上自研出适用于自身业务的实时计算系统,例如阿里巴巴最近宣布的Blink实时计算引擎。

挖掘

数据挖掘可谓是应用中的应用,它是基于之前ETL技术和统计分析之后的数据,进一步发现数据与数据之间的联系,从繁杂的数据中发现普遍性的规律。数据挖掘不是一种用来证明假说的方法,而是用来构建各种各样的假说的方法,就像数据挖掘最出名的那个啤酒和尿布的故事,它是一种从因到果的构建手段,通过数据挖掘发现关系。传统数据挖掘的工具如SAS EM和clementine,使得数据挖掘,入手非常快,较为简单,但是随着业务的复杂度上升以及机器学习技术的成熟,也有基于TensorFlow等引擎开发的挖掘工具。

契机

在快速产生数据、数据为王的今天,互联网着重于基于用户的数据挖掘,而物联网则看重更大量级的设备数据挖掘,从小小的智能手环,到功能丰富的汽车,都是数据的源泉,如何将这些数据转化为有利于人类生活及生产的工具,这也就是物联网与大数据结合的契机点。

你可能感兴趣的:(物联网与大数据)