大数据与云计算、物联网三者的区别和关联

大数据与云计算

  为解决互联网应用对大规模计算能力、数据存储能力的迫切需求,云计算的概念被提出。云计算是一种分布式计算平台,通过虚拟技术将海量的硬件资源和虚拟资源虚拟成虚拟资源池,并根据需求任务的大小,向虚拟资源池获取相应的计算和存储资源。

\
  在大数据处理的需求下,出现了许多优秀的云计算平台,例如Apache开源的Hadoop、 Google的MapReduce、微软的Dryad等。

  在处理格式多样的大数据时,云计算能协调组织众节点,提供廉价的资源和服务,具有较可靠的可扩展性和容错性。然而,对于大规模复杂的应用系统来说,云计算还有诸多的技术问题有待深入研究。

  为应对数据密集型服务,云计算提供分布式并行编程技术、分布式并行数据库技术,可通过开源的编程接口和工具来调用服务,其优势是能高效处理结构简单的大数据,但对关系复杂的大数据的处理,在效率和准确率方面还不能令人满意。

  大数据技术的目标是解决应用中多源、异构、海量数据的管理和使用问题,但其本身不具备处理大规模数据的存储资源和计算资源的能力,因此必须在已有成熟的技术基础上,引入新的与之相对应的大数据存储和计算平台。

  云计算以数据为中心,对大数据集进行处理,并向用户返回高效服务,具有并行化、虚拟化、按需服务等特点。从数据管理角度来说,大数据技术是对数据组织结构的描述,研究重点是数据的查询、更新、索引等操作技术;而云计算则是一种分而治之,按需索取的大数据分布式服务模式。

  这两个概念提出的背景都是为满足海量异构数据的组织和管理要求。从相互之间的影响来看,前者为后者提供了广阔的应用背景,后者为前者数据管理提供了存储和计算资源,两者相互促进,相互依存。

  大数据与物联网

  随着智能交通、智能家居、智能物流、智慧景区等应用的兴起,物联网已成为未来经济的新增长点。美国、德国、英国、意大利和丹麦等国家争先推出物联网相关发展策略,使物联网规模不断扩大。互联网到物联网的跨越,极大地推动了大数据的发展。

  物联网是指把所有物品通过信息传感设备与互联网连接起来,实现智能化识别和管理。它从结构上分为四层,即实体层、感知层、网络层和应用层。其每层都与数据的产生或者处理息息相关。大数据与物联网的结合是机遇与挑战并存。

  首先,产生数据的平台多样化。从原来的个人电脑扩展为传感器、智能手机、各种业务系统、平板电脑、监控录像等,这使得感知层需要感知的数据呈现多样化。目前主流的感知技术有视频文字采集技术、红外线技术、传感器技术和蓝牙技术等,但随着感知的数据数量级的不断增加,相应的感知技术也要不断地改进和完善。

  其次,物联网技术的局限性。事物的发展需要一个过程,处于发展初始阶段的物联网还受到一些技术的约束。在大数据的传输和处理方面,物联网技术还存在通信距离短、外部环境适应力不强、异构网络兼容性差等问题。传感器链接的距离范围是100米到1000米,不适合长距离的通信;当外部的环境发生变化,传感器的稳定性能大幅度下降,对具有高性能计算存储系统的安全带来风险;物联网的标准是建立在广电网、通信网和互联网等异构网的基础之上,还没有统一完善的标准体系。

  大数据与数据空间

  大数据来自不同组织,它的跨域、分布、异构性以及海量的特点给传统的数据库管理系统带来巨大挑战,目前,管理着世界上最大数据的谷歌、雅虎和微软等公司,都不使用传统的数据管理系统,而是另辟蹊径去寻找可以满足大数据管理需要的技术。

  M.Franklin等人提出了数据空间的概念。数据空间是M.Franklin等人为应对信息量不断增长以及数据信息管理需求而引入的一种信息管理新概念。

  目前关于数据空间技术的研究主要集中在个人数据空间方面,并取得了一定成果。国外的研究工作主要以iMeMex和SEMEx两个个人数据管理系统为代表。iMeMex由瑞士联邦理工学院开发,它推动了信息抽取和查询技术的进步,但缺点是不支持语义查询;SEMEx由华盛顿大学开发,成功把语义关联应用到实例中来高效提取信息。

  同时,麻省理工学院计算机科学系的David R.Karger等人研发了个人数据管理系统Haystaek,该系统采用了URF(Uniform Resource Identifier)半结构化数据模型统一表示用户数据,体现了数据空间“pay as you go”的数据集成思想。美国华盛顿大学数据库研究组的sharedviews项目实现了名为Homeview的原型系统,该系统能够支持个人动态数据的共享,但数据的类型和共享方式有限。

  在国内,数据空间技术已经开始受到广泛关注。中国人民大学孟小峰教授等人对数据空间的概念、实现数据空间支撑平台所需的关键技术进行了详细的阐述与分析,并带领中国人民大学网络与移动数据管理实验室研究团队研发了具代表性的个人数据空间原型系统orientsPac。

  在综合考虑数据的模型、组织形式和分类方法基础上,提出了与数据相关的eorespaee模型和与任务相关的TaskSPace模型,但该系统的不足之处是用户不能自己定义关联。

  综上所述,以物联网、云计算技术作为数据收集、数据管理手段,用数据空间技术来组织大数据,实现多层次、多粒度的大数据挖掘,是处理大规模数据行之有效的途径,也符合大数据管理和服务的需求。

你可能感兴趣的:(大数据,编程语言,hadoop,程序员)