大数据产业链
大数据产业是指一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合。
1.IT基础设施层
包括提供硬件、软件、网络等基础设施以及提供咨询、规划和系统集成服务的企业,比如,提供数据中心解决方案的IBM、惠普、戴尔,提供存储解决方案的EMC,提供虚拟化管理软件的微软、思杰、SUN、Redhat
2.数据源层
大数据生态圈中的数据提供者,生物、交通、医疗、正午、电商、社交网络、搜索引擎等。
3.数据管理层
包括数据的抽取、转换、存储和管理等服务的各类企业或产品,如分布式文件系统(Hadoop的HDFS,谷歌的GFS)、ETL工具(Informatica, Datastage、Kettle等)数据库和数据仓库(Oracle、mysql、sql server、HBase、GreenPlum)
4.数据分析层
包括提供分布式计算,数据挖掘、统计分析等服务的各类企业或产品,如分布式框架MapReduce、统计分析软件SPSS、SAS,数据挖掘工具Weka,数据可视化工具Tableau、BI工具(MicroStrategy、Cognos、BO)等。
5.数据平台层
包括提供数据分享平台、数据分析平台、数据租售平台等服务的企业或产品,如阿里、谷歌、电信、百度。
6.数据应用层
提供智能交通、智慧医疗、智能物流、智能电网等行业应用的企业、机构或政府部门。比如交通主管部门、各大医疗机构、菜鸟网络、国家电网等。
云计算
云计算实现了通过网络提供可伸缩的,廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。云计算代表了以虚拟化技术为核心、以低成本为目标的、动态可扩展的网络应用基础设施,是近年来最优代表性的网络计算技术与模式。
云计算包含了3种典型的服务模式:
- IaaS:基础设施即服务,将基础设施(计算资源和存储)作为服务出租。
- PaaS:平台即服务,将平台作为服务出租。
- SaaS:软件即服务,把软件作为服务出租。
云计算包括公有云、私有云、混合云三种类型。
公有云面向所有用户提供服务,只要是注册付费的用户都可以使用。比如Amazon AWS。
私有云只为特定用户提供服务,比如大型企业处于安全考虑率自建的云环境,只为企业内部提供服务。
混合云综合公有云和私有云的特点,因为对于一些企业而言,即希望获得公有云的计算资源,又想把数据存入私有云中,为了获得最佳的效果,就可以把公有云和私有云进行混合搭配使用。
OpenStack,是一种非常流行的构建云环境的开源软件。OpenStack管理的资源不是单机的而是一个分步的系统,它把分步的计算、存储、挖网络、设备、资源组织起来,形成一个完整的云计算系统,帮助服务商和企业内部实现类似于Amazon EC2和S3的云基础架构服务。
云计算关键技术
云计算的关键技术包括虚拟化、分布式存储、分布式计算、多租户等。
1.虚拟化
虚拟化技术是云计算的基石,是指将一台计算机虚拟为多台逻辑计算机,在一台计算机上同时运行多个逻辑计算机,每个逻辑计算机可运行不同的操作系统,并且应用程序都可以在相互独立的控件内运行而互不影响,从而显著提高计算机的工作效率。虚拟化的资源可以是硬件,也可以是软件。以服务器虚拟化为例,它将服务器物理资源抽象成逻辑资源,让一台服务器编程几台甚至上摆台相互隔离的虚拟服务器,不再受限于物理上的界限,而是让CPU、内存、磁盘、I/O等硬件变成可以动态管理的“资源池”,从而提高资源的利用率,简化系统管理,实现服务器整合,让IT对业务的变化更具适应力。
典型的虚拟化技术有,Hyper-V、VMware、KVM、VirtualBox、Xen、Qemu。
2.分布式存储
面对“数据爆炸”的时代,集中式存储已经无法满足海量数据的存储需求,分布式存储应运而生。
GFS是谷歌退出的一款分布式文件系统,满意满足大型、分布式、对大量数据进行访问的应用的需求。并具有很好的容错性,可以把数据存储到成百上千台服务器上面,并在硬件出错的情况下尽量保证数据的完整性。支持GB或者TB的大文件存储,一个大文件会被分割成许多块,分散存储在由数百台机器组成的集群中。
HDFS(Hadoop Distributed File System)是对GFS的开源实现,基于Java实现,只要JDK支持的平台都可以兼容。
谷歌后来又以GFS为基础开发了分布式数据管理系统BigTable,它是稀疏、分布、持续多维度的排序映射数组,适合于非结构化数据存储的数据库,具有高可靠性、高性能、可伸缩等特点,可在廉价PC服务器上搭建起大规模存储集群。
HBase是针对BigTable的开源实现。
3.分布式计算
面对海量的数据,传统的单指令但数据流顺序执行的方式已经无法满足快速数据处理的请求。同时,我们也不能寄希望于通过硬件性能的不断提升来满足这种需求,因为晶体管电路已经逐渐接近其物理上的性能极限,摩尔定律已经开始慢慢失效,CPU处理能力再也不会每隔18月翻一番。
在这样的大背景下,谷歌公司提出了并行编程模型MapReduce,让任何人都可以在短时间内迅速获得海量计算能力,它允许开发者在不具备并行编程开发经验的前提下,也能够开发出分布式的并行程序,让其同时运行在数百台机器上,在短时间内完成海量数据的计算。
MapReduce将复杂的、运行于大规模集群上的并行计算过程抽象成两个函数——Map和Reduce。并把一个大数据集切分成多个小的数据集,分不到不同的机器上进行并行处理,极大提高了数据处理速度。Hadoop开源实现了MapReduce编程框架,被广泛应用于分布式计算。
4.多租户
多租户技术目的在于使大量胡勇能够共享同一堆栈的软硬件资源,每个用户按需使用资源,能够对软件服务进行客户化配置,而不影响其他用户的使用。多租户技术的核心包括数据隔离、客户化配置、架构扩展和性能订制。
物联网
物联网的概念
互联网是物物相连的互联网,是互联网的延伸,它利用局域网络或互联网通信技术吧传感器、控制器、机器、人员和物体等通过新的方式连在一起,形成人与物、物与物相连,实现信息化和远程管理控制。
物联网技术架构
物联网可以分为四层:感知层、网络层、处理层、应用层。
感知层:
如果把物体比喻成一个人,那么感知层就好比人体的神经末梢,用来感知物理世界,采集来自物理世界的各种信息。这个层包含了大量的传感器,如温度传感器、湿度传感器、应力传感器、加速度传感器、重力传感器、气体浓度传感器、土壤盐分传感器、二维码标签、RFID(Radio Frequency Identification)标签和读写器、摄像头、GPS设备等。
网络层:
相当于人体的神经中枢,起到信息传输的作用。网络层包含各种类型的网络,如互联网、移动通信网络、卫星通信网络等。
处理层:
相当于人体的大脑,起到才能出和处理的作用,包括数据存储、管理和分析。
应用层:
直接面向用户,满足各种应用需求,如智能交通、智慧农业、智慧医疗、智能工业等等。
物联网关键技术
涉及到了:识别和感知技术、网络与通信技术、数据挖掘和融合技术。
太复杂了,不做记录了。
大数据、云计算、物联网的关系
区别
大数据侧重于对海量数据的存储、处理和分析,从海量数据中发现价值,服务于生产和生活。
云计算本质上旨在整合和优化各种IT资源,并通过网络以服务的方式链家第提供给用户。
物联网的发展目标是实现物物相连,应用创新是物联网发展的核心。