大数据与云计算

​通俗讲解:未来云计算

下面读两个故事一定弄懂“云计算”

 故事一

  公共电网抛弃了爱迪生

  爱迪生的牛气无法言说,这辈子有2000多项发明,在科学界他吃的盐比普通人吃的饭还多。但就是这么一个牛人,也曾被拍打在沙滩上:公共电网狠狠地抛弃了他。

  1878年,爱迪生决定开发一种新产品——电灯泡,为了持续地给它供电,他紧跟着又发明了电流表、发电机等,这是一套完整的供电系统:爱迪生灯具公司制造灯泡,爱迪生电器公司制造发电机,爱迪生电线公司生产电线。

  然而,他的产品只支持直流电厂。直流电有一个很大的缺陷,那就是不能进行长距离运输。于是,越来越多的个人和企业开始独立发电,来点亮爱迪生的直流灯泡。独立发电使得小型私人电厂遍地开花。由于长期为这些电厂提供设备,爱迪生成立的通用电气公司趁机发了大财。

  然而,爱迪生是个伟大的发明家,却不是一个精明的企业家,它相信直流电才是未来。这个短板被他的崇拜者英萨尔意识到:他更推崇交流电。交流电可以长距离运输,有了这个基础,大量效率低的私人电厂,就能整合成一个“中央电厂”,通过一根电线,电能就能运输到各处使用。

  但爱迪生并不看好这种设想,因为这会断掉他的财路:他的商业兴趣在于,私人电厂越多,他的设备就会卖得越好。按照爱迪生的想法,每个企业或者个人都得自备一个小型发电厂。所以,在这场战役中,信赖交流电的英萨尔胜出了。通过“中央电厂”,英萨尔实现了大规模的公用电网。

  如此一来,原先建立私人电厂的企业或个人,就可以避免采购设备昂贵的发电设备。他们只需付上费用,墙面的插头就能提供源源不断的电力,而不必关心这些电力来自何方。故事中取代私人发电厂的“公共电网”,就是电气时代的“云计算”。

  故事二

  信息“公用电网”的诞生

  1971年,英特尔公司发明了微型电脑。由于价格低廉,且能够完成各种任务,微型电脑很快取代主计算机,成为公司电脑运算的中心。其后,原来的主计算机被改造成了私人服务器(私人发电站),这些服务器下面连接着许多个人电脑。

  爱迪生的灯泡只能搭配直流发电厂,这些个人电脑也只能使用服务器上的程序。这种模式(C/S模式)一直延续至今。正如电气时代每个企业都必须自建一个私人发电厂一样,现在每个企业必须配备一个私人数据中心。

  私人发电厂不能实现远距离传输,服务器内的信息也只能在局域网传播。私人电厂只供企业和个人使用,数据中心的信息也只供企业内部使用。2005年2月,Google在俄勒冈州北部买下三十亩地准备建立一个庞大的服务器技术中心。于是,信息的“公用电网”出现了,这就是“云计算”。

  在这里,包含着数万、甚至数十万廉价CPU和硬盘组成的服务器,这就是信息时代的“中央电厂”,它把原来企业内部的服务器(私人电厂)整合为一台机器集中处理。自此,企业再不用采购昂贵的设备,不必再培养一支庞大的技术队伍。他们只要相信,手里有一台连接网络的计算机就行,而不必担心数据存储在什么地方。

  “云计算”随后迅速地进入到我们的生活。YouTube每月8亿独立访问用户,但运营这些网站的,往往只有几个人,他们租用亚马逊的服务器提供服务,节省了大批资本投资。

  这两个故事关联性很大:电线相当于宽带,电灯泡相当于电脑,私人电厂相当于私人服务器,公用电网就相当于现在的“云计算”。

  手记

  让99%读者不懂的“云计算”

  “云”正在与我们的生活越飘越近,然而,它的概念却离我们越来越远。笔者日前在网上看到一组调查数据,有90%以上的读者不知道“云计算”为何物。当我拿着这组数据,跟一位业内人士诉说时,他却不屑地回答:“不止90%吧,真正懂的估计不到1%。”

  他也纠结于“云计算”的理解障碍,“太抽象了,没有具体可感的东西,所以理解起来费劲。”龙真也告诉笔者,“这个概念本身就是一个很扯淡的事。”基于此,笔者四处向专业人士“取经”,直到有人推荐了这本《IT不再重要》。

  “云计算”是个浮躁的概念,被商业化的速度远超过我们想象。由于“云计算”的应用,一大批“云产品”被问世,这其中有真货,也有水货。但是,只要我们理解了“云计算”概念的本质,就自然能清晰地辨别,所谓的他们口中“云产品”,究竟是个什么东东。

  探索

  “云计算”的双重含义

  信息“公用电网”之说只属于“云计算”含义中的一方面,来源于尼古拉斯·卡尔的《IT不再重要》。还有一种更通俗的理解,“把所有的本地的事,都可以放到云端来完成就是云计算了。”

  未来的电脑将不需要主机,只需要一个显示器。原来机箱里的东西哪去了?它们将全部存储在“云计算”中。一些游戏玩家渴望追求带劲的显卡、CPU,未来这些统统不需要,你只需要一套键盘鼠标和显示器,就能实现“发烧友”的愿望,而这背后的支撑者,就是“云计算”。

  信息“公用电网”,只属于“云计算”含义中的一方面。通信观察家项立刚认为,“‘云计算’的概念也可以这么说,原来大家私人发电,现在有中央电厂集中发电。”他表示,这个概念还可以理解为“把大量计算机的计算、存储能力聚合起来”。

  它还有着更丰富的意义。“信息‘公用电网’是个伪概念,”i黑马联合发起人龙真表示。“它主要说的是大家之后都不要用自己的服务器了,直接租用别人的服务器更好。”他认为,“云计算就是我们原来用硬盘来存储的数据,现在直接存储在网络上。”

  当然,“云储存”只是“云计算”中的一个基本功能。比如,“云计算”存储着许多网络游戏,但这些游戏能够直接被用户运行,且不需要CPU。还有一种更通俗的理解,“把所有的本地的事,都可以放到云端来完成就是云计算了。”龙真表示。

  其实,信息“公用电网”并不是卡尔的唯一观点。在书中他还提到,未来装在电脑机箱的各个配件,通过“云计算”能够全部集成于互联网,供每一位用户分享。这句话的含义,就是机箱内的CPU、硬盘等都挂在“云端”,未来的电脑仅需要一个显示器加鼠键。

  笔者认为,“云计算”的这层含义同样能用信息“公用电网”理论来解释,可以将个人电脑机箱内的配件看成是私人发电站,当未来用“中央电厂”(云计算)时,电脑将无需主机,所有的数据将存储于“中央电厂”。

  “云计算”就是一台超级计算机,里面不仅存储着无数数据和软件,还能提供“计算”功能。它可以是企业的“中央服务器”,也可以是个人电脑的“中央大主机”。两种含义结合起来理解,或许才能更好地阐释“云计算”。

其实我希望大家不要被“计算”这两个字给蒙蔽了,我觉得叫“云电脑”更合适,云计算给用户提供的是一台台虚拟机,是一个运营的平台,什么是虚拟机呢?大家都会在电脑上装软件,软件运行时,操作系统会给软件分配CPU、内存、磁盘等资源,那么现在把操作系统也看成是一种软件,在电脑上安装这个软件时,也需要原来的操作系统给这个软件分配各种硬件资源,新安装的运行在原有操作系统之上的操作系统加上分配给它的硬件资源就构成了一台虚拟机。云计算就是提供一台虚拟机给用户,用户通过网络连上它,就跟我们用账号登录qq是一样的,区别是登上qq你看到的是好友列表,而登上虚拟机,你看到是像windows或linux那样的操作系统界面。然后可以在这台虚拟机上安装自己的服务或者用来干其他事,是不是用来做复杂的数学计算底层就不管了。

先姑且假设你没有技术背景,以下是个类比。

我家里的做饭条件不好,用的是电磁炉,下班买菜也麻烦,所以一半时间自己做,一半时间点外卖。自己做的优点是安全卫生想吃什么做什么,缺点是厨具不给力,麻烦。外卖的优点是方便快捷,缺点是自由度低,只能按菜单点,且有食品安全隐患。

后来家附近开了家新饭馆,老板是很有想法的一个年轻人,他提供了一种量身定做的外卖。

首先,你可以买好食材先放在他那儿,或者网络下单送到他那儿(云储存)

其次,他承诺用最好的冷藏设备保证你食材的新鲜,厨房卫生条件基本达到无菌。(云安全)

最后,他们家的厨具都是业内一流水准,燃灶的温度瞬间可以达到上千度,快炒爆炒比普通家庭强太多了。(云计算)

所以,其实你看,这些东西原本就存在,只是有人肯琢磨把它们进化而已。初期可能你会觉得它们只是被包装,换个说法而已。但实质上它是一种思维方式的转变,慢慢你就会发现它让旧行业焕发新活力。

所以,简而言之,云,是网络资源配置的一种方式。

举几个简单的例子:

1a。电子邮件服务器,如果服务器提供存储,你每次把邮件收到本地,在本地阅读,查看回复,然后发邮件时才提交到服务器,这就是本地计算。

1b。电子邮件服务器,你在服务器上读邮件,在服务器上回复邮件,在服务器上转发邮件,这就是云计算。

2a。输入法,你把服务器上一个巨大的词库下载到本地,然后在本地查询这个词库,然后生成你要输入的词组列表,这是本地计算。

2b。输入法,你把你输入的字母直接提交到服务器,服务器查询后生成你要输入的词组列表,然后直接把查询结果返回给你,这是云计算。

3a。十年前的 icq,好友列表在本地,当消息到达本地的时候,才根据本地的好友列表判断是否接收该好友的消息。一旦你本地换了PC,这个人就不再是你的好友了。这是本地计算。

3b。十年前的 qq,好友列表在服务器端,当消息到达服务器的时候,服务器就知道这个是不是你的好友,就知道这个消息是否该发到你机器。无论你用多少台PC,你的好友列表都不变,这就是云计算。。。

云计算与是否收费没有直接联系。云计算其实是对早期互联网的一种升级,早期互联网主要是存储功能,我们从互联网上主要读写的是数据本身,然后本地的应用程序对这些数据进行处理。现在的互联网提供的并不仅仅是存储功能,而是直接提供你对特定信息的操作。

广义的来讲,google,腾讯,提供的都是一种云计算。现在的很多互联网公司提供的都是云计算。云是无处不在的,十年前就已经开始渗透互联网。而不是什么新概念。

云计算的定义和基本特征大家谈的都比较多了,但是云计算的发展和演进,云计算的一些基本特征还需要用一个比喻来进一步细说下。

从去年想到这个比喻到现在,比喻本身也在不断完善和补充中。 

 在社会经济不发达的时候,一个农户想吃鸡蛋,所以他自己养了一只鸡,那么他为了自己养这只鸡,就需要给鸡建一个简单的鸡窝,还需要平时去管理和饲养这只鸡。

这是一个基本场景,这个场景要说明下: 农户要得是鸡蛋而不是鸡,鸡蛋即我们说的服务能力提供,而产生这个能力的鸡比喻各种IT基础设施 鸡是本身的IT硬件,包括计算机,存储和网络都可以属于这个范围 鸡窝可以理解为数据中心物理环境,包括机房,机房配套的各种物理基础设施 对鸡的管理和饲养,即日常的IT运维投入和成本。 

在这个过程中,农户发现了些问题,首先他们并不是每天都需要吃鸡蛋,但是鸡每天都会产蛋,则他们需要把多余的蛋拿都市场去卖或交换其它产品。其次他们需要的是鸡蛋,但是却需要为鸡蛋付出购买鸡,建立鸡窝,饲养鸡的一系列成本和人力的投入。那么我们要先讨论经济没有发展到一定阶段的时候,为什么没有出现专业的养鸡场生产鸡蛋。具体原因包括:  没有形成规模效益,即时建立养鸡场也无法体现规模效应下带来的成本节余。而要达到这个目标往往需要现代化和自动化的养鸡场的出现。其它外围条件不具备,如市场交换体现,交通设施,物流配送体系等。

如果集中化后,农户并不能有方便快速的手段能够吃到他们需要的鸡蛋。  而随着社会经济的发展,出现了专门的养鸡场,快捷的物流体系可以保证向市场大量提供鸡蛋,而农户也不再养鸡,而转变为到市场上去按需要采购鸡蛋。而专门的养鸡场即类似于云计算中的数据中心,它是一个能力提供中心。而快捷的物流体系即对应高速发展的互联网带宽(这个其实也是云计算出现的一个必要条件)。在这个过程演变过程中我们看到几个变化。 

用户不再关心鸡或鸡窝,以及鸡的饲养问题。他们只关系鸡蛋,具体那只鸡生的蛋不关心。 

用户可以按需购买鸡蛋和按需要付费,不存在资源浪费的情况。 

农户自己的鸡,鸡窝可能都不再需要了,剩下的只是大型养鸡场,所有的原来农户自己建立的鸡窝都集中都了大型的养鸡场。

对应域IT基础设置全部云化。 为何专门的养鸡场出现成为可能,首先养鸡场本身规模化和自动化,大大降低了单位鸡蛋的成本,其次发达的配送网络和营销体系方便了鸡蛋的消费。对应于云计算则是,作为计算能力和存储能力提供的中心,必须具有大规模和集约性的特点,对应配送网络和营销体系则对应于高速的互联网。  对应大型养鸡场,它是一个能力提供中心,对应饲养的鸡本身并不是顾客要得产品,而是需要鸡下的蛋。

一个大型的养鸡场可能对应多个客户,在这里我们先假设为不对应终端消费者,而对应多年大型的超市即终端零售中心。为了方便对所有产能进行有效的管理,可以将养鸡场本身划分为多个标准的饲养单元,分配给不同的饲养人员进行管理。这样就能够比较准确的指导每个饲养单元每天能够生产的鸡蛋数量。在这里注意: 饲养单元类似于云计算中的能力提供单元,而能力提供单元在云计算中可以通过虚拟化技术实现。 饲养单元本身划分的大小很重要,太大不利于管理,太小管理工作量又太大。 对应大型的超市,往往由于他们所处的区域和人群的不同,对鸡蛋的需求量往往也存在差异,有得超市可能是月底需要的供货量大,而有的可能是月末需要的供货量大。

那么现在的集中化得优势在哪里?如果有10家超市,每家需要的最大供货能力都是1000只鸡蛋,那么是否需要提供能够有10000只产能的养鸡场呢?显然答案不是,因为由于大家需求的时间段不同,往往有5000只鸡蛋提供能力的养鸡场即可满足需求,对应养鸡场可以根据时间段灵活的调配每天产生的鸡蛋。

具体如下:     饲养单元和超市之间是一种松耦合的关系,一个超市可能需要1个或多个饲养单元。     

饲养场可以根据需求灵活的调配饲养单元给不同的超市使用。     

超市完全按需求量和使用量收费,不会为需求量降低的时候为富裕的饲养单元成本买单。     如果引入新的超市客户,养鸡场比较容易的增加新的饲养单元来满足市场需求发展。   

  最优化能力设计,满足资源利用率的最大化,而降低成本。  

这这里即是我们所说的云计算里面另一个关键特征,这个关键特征有多种说法,可以叫弹性计算,无限伸缩扩展,动态资源调度等都是一个意思。关键的就是能够灵活按需进行资源的调度和分配,能力本身可以灵活的进行伸缩扩展。

这是网友的一个帖子,技术人员怎么也讲不清楚的云计算,你一直也搞不明白的云计算,听完下面的解释,想必心里能明白个七七八八:

  你娶了一个老婆,这叫传统IT架构。

  你觉得一个老婆不够,这叫传统企业CIO的困境。

  你又娶了一个老婆,这叫双活数据中心。

  你在外地又娶了一个小老婆,这叫两地三中心容灾。

  你娶了很多风格气质各异的小老婆,以至于形成了后宫,这叫私有云。你的后宫就叫计算资源池。

  你从后宫里选出懂事有能的管理其他小老婆,这叫私有云管理方案。管事的那个就是HYPERV或VMWARE。

  你不娶小老婆,改成包养很多情人,这叫托管云。

  你是穷人,没有钱包养任何人也没钱娶小老婆,你选择去洗浴中心解决问题,这叫面向中小企业的公有云服务。

  你在享受公有云服务的同时还得交公粮,这叫中小企业的混合IT架构。

  你是富人,但也喜欢去高级夜总会,这叫面向大企业用户的公有云服务。

  你有钱,同时包养小老婆和情人,还去洗浴中心,这叫混合云。但是在混合云里,最关键的业务还是会谨慎地采用传统IT架构。

  你有钱,包养小老婆,但有一天所有小老婆都来大姨妈,你还得去洗浴中心,这叫CLOUD BURST。

  洗浴中心就是云服务提供商。本地最大的洗浴中心是AWS。高端那个比如****是18M。打出商务**的名头的是SALESFORCE。在****上发帖“我们的技师服务态度超过对面家9倍”的是O记。

  不开洗浴中心,但是专门卖水床卖情趣床的是等灯等灯。不开洗浴中心,但是做陌陌类应用开发运营的是C记。

  本地的洗浴中心都是两个有背景的大老板开的,他们是OPENSTACK和CLOUDSTACK。

  场子小且只用本地或附近技师的是本土中小云服务商。如果上头没人罩,本土中小云服务商很难开得长。

  开洗浴中心的老板有政府背景,这是城市云。开洗浴中心的老板有黑社会背景,这是电信云。洗浴中心要VIP卡才让进,这是行业云。洗浴中心只面向本小区业主服务,这是园区云。

  你的小老婆们和情人们可能因为矛盾而让你的经济问题败露,这叫私有云安全问题。

  你去洗浴中心可能染上病,这是公有云安全问题。

  由此可见公有云和私有云的安全问题是两种不同性质的问题。

  只提供场所,需要你自己去找技师的洗浴中心叫IAAS。

  提供场所和技师的洗浴中心叫PAAS。

  做到东莞ISO的程度就叫SAAS。

  下载AV录像自己打飞机叫VAAS。

  一个有很多人分享心得的洗浴中心信息网站,这是开放数据中心联盟。洗浴中心的行业协会叫CLOUD BUILDER。下榻一家五星级宾馆,你习惯性地用你用微信陌陌定个位,这叫CLOUD FINDER。良家妇女下海,这叫传统IT应用的云化。

  你去洗浴中心的经验很多,看见门脸就知道洗浴中心提不提供服务,看见新技师就能推测出服务质量,这叫数据分析和挖掘。你把这些信息和心得有偿分享给其他人,你是大数据服务商。 一个地方不严打洗浴中心,这是智慧城市。

认知云计算+数据专业知识

云计算是一种基于互联网的超级计算方式,是对并行处理、分布式处理和网格计算的延伸。可以认为,云计算不仅是一种新的计算模型,同时是一种新的共享基础架构的方式。云计算面向超大规模的分布式用户环境,其主要功能是提供快捷安全的云端数据存储和网络服务。

大数据是指超出传统数据库软件工具提取、储存、管理和分析能力的大量的、复杂的数据集合,这些数据集合在新型数据处理技术和处理模式下,能够生成有价值的信息资源,从而更有效地支撑组织决策。大数据的特征可概括为“4V”,即大容量(Volume)多样性(Variety)高速率(Velocity)和高价值(Value)。

最近很火的云计算遇上了新潮的大数据,于是关于云计算与大数据直接的关系大家是众说纷纭,现在云端互通对于云计算和大数据关系做以下三点认识。

第一,云计算与大数据之间是相辅相成,相得益彰的关系。大数据挖掘处理需要云计算作为平台,而大数据涵盖的价值和规律则能够使云计算更好的与行业应用结合并发挥更大的作用。云计算将计算资源作为服务支撑大数据的挖掘,而大数据的发展趋势是对实时交互的海量数据查询、分析提供了各自需要的价值信息。

第二,云计算与大数据的结合将可能成为人类认识事物的新的工具。实践证明人类对客观世界的认识是随着技术的进步以及认识世界的工具更新而逐步深入。过去人类首先认识的是事物的表面,通过因果关系由表及里,由对个体认识进而找到共性规律。现在将云计算和大数据的结合,人们就可以利用高效、低成本的计算资源分析海量数据的相关性,快速找到共性规律,加速人们对于客观世界有关规律的认识。

第三,大数据的信息隐私保护是云计算大数据快速发展和运用的重要前提。没有信息安全也就没有云服务的安全。产业及服务要健康、快速的发展就需要得到用户的信赖,就需要科技界和产业界更加重视云计算的安全问题,更加注意大数据挖掘中的隐私保护问题。从技术层面进行深度的研发,严防和打击病毒和黑客的攻击。同时加快立法的进度,维护良好的信息服务的环境。

在计算机世界里,大数据被定义为一种使用非传统的数据过滤工具,对大量有序或无序数据集合进行的挖掘过程,它包括但不仅限于分布式计算(Hadoop)。

大数据技术一旦进入超级计算时代,很快便可应用于普通企业,在遍地开花的过程中,它将改变许多行业业务经营的模式。

大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。 大数据的4V特点:Volume、Velocity、Variety、Veracity。大的数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。

关于大数据和云计算的关系人们通常会有误解。而且也会把它们混起来说,分别做一句话直白解释就是:云计算就是硬件资源的虚拟化;大数据就是海量数据的高效处理。

虽然上面的一句话解释不是非常的贴切,但是可以帮助你简单的理解二者的区别。另外,如果做一个更形象的解释,云计算相当于我们的计算机和操作系统,将大量的硬件资源虚拟化之后再进行分配使用,在云计算领域目前的老大应该算是Amazon,可以说为云计算提供了商业化的标准,另外值得关注的还有VMware(其实从这一点可以帮助你理解云计算和虚拟化的关系),开源的云平台最有活力的就是Openstack了;

大数据相当于海量数据的“数据库”,而且通观大数据领域的发展也能看出,当前的大数据处理一直在向着近似于传统数据库体验的方向发展,Hadoop的产生使我们能够用普通机器建立稳定的处理TB级数据的集群,把传统而昂贵的并行计算等概念一下就拉到了我们的面前,但是其不适合数据分析人员使用(因为MapReduce开发复杂),所以PigLatin和Hive出现了(分别是Yahoo!和facebook发起的项目,说到这补充一下,在大数据领域Google、facebook、twitter等前沿的互联网公司作出了很积极和强大的贡献),为我们带来了类SQL的操作,到这里操作方式像SQL了,但是处理效率很慢,绝对和传统的数据库的处理效率有天壤之别,所以人们又在想怎样在大数据处理上不只是操作方式类SQL,而处理速度也能“类SQL”,Google为我们带来了Dremel/PowerDrill等技术,Cloudera(Hadoop商业化最强的公司,Hadoop之父cutting就在这里负责技术领导)的Impala也出现了。

整体来看,未来的趋势是,云计算作为计算资源的底层,支撑着上层的大数据处理,而大数据的发展趋势是,实时交互式的查询效率和分析能力,借用Google一篇技术论文中的话,“动一下鼠标就可以在秒级操作PB级别的数据”难道不让人兴奋吗?

大数据本身除了要有数据、采集、汇聚一定量的数据之外,更重要的是数据的处理、挖掘、分析、可视化、应用这样一整套的过程。


  关于大数据的话题,基本围绕三个问题展开:一是数据从哪里来,二是数据如何进行分析,三是数据如何进行商品化。任何大数据都是以应用为主的,在未来,通过多维度、多复合的大数据的精准挖掘,最终提供出优质的商务解决方案才是最关键的。



  数据的三个来源分别是政府、企业行业和个人消费。政府数据做了授权,但由于法律和其他方面的不健全,政府数据被滥用。消费者数据来源于电信、金融或类似BAT大企业,流量入口处的数据将被自动抓取,数据提供商可以提供所有维度的数据,但每一个都是局部。


  数据优化商在大数据产业链里要想长久发展,必须精通大数据的模型、算法以及数据特征,同时对行业及生态要有明显的敏感性。而算法提供商如果仅仅依赖单纯算法,未来将成为成长软肋。应用提供商最贴近客户、最熟悉客户需求,同时做的是最后的数据整合,在产业链上可能发展空间更大。


  IDC行业未来具有很大的发展潜力


  中国具有高达6.3亿的大规模网民群体,目前国内仅有3万个机柜,对比美国的3亿群体2.4万个机柜可以看出,中国的数据市场规模还远未达到平衡点,未来将保持高速增长的态势。另一个方面,由于企业客户运营模式的改革,企业的云化增加了对大数据及专业数据中心的需求。

  未来云计算产业和大数据产业将呈现规模化发展趋势,市场红利可观,创新、服务、合作、技术将推动互联网科技企业走得更高、更远。

简单点说就是在互联网上提供大家都使用的服务,而服务本身只在互联网上运算,我们的电脑只要去连接互联网上的服务就行。所谓的云计算,就是指这些运算过程只要在互联网上,本身电脑只需使用云端推算出来的结果。

就像你要用电,不用自己建电站、输电线,插上插座就能用。

要用水,不用自己建水厂,打开水龙头就能用。

你要建网站、用各种应用,不用自己架服务器、自己装软件,拿来就能用。

一个最实际的例子,webqq,web.qq.com,上面的各种应用都在云端,不用装在你自己的计算机上,你可以用各种终端来使用这些应用,计算机、平板、智能手机等。

这是个实在悬乎的概念,自提出6年以来,无数的文字在解释它,却有90%以上的读者不知“云”为何物。这些文字都带着一种腔调:云计算吗,简单来说就是……然而不幸的是,“简单来说”后面的文字,读者依然看不懂,智商严重受挫。请读完下面的故事,笔者将确信您能找回智商的自信:云计算就是这么个东西。

云计算的五个基本特性

按需分配的自助服务

消费者可以在需要的时候, 不必与服务提供商人员接触, 单方面的自动提供计算能力, 比如服务器时间, 网络和存储.

宽带网络访问

用户通过基于网络的标准机制访问计算能力, 这些标准机制提倡使用各种异构的胖/瘦客户端(移动电话, 平板电脑, 笔记本和个人工作站).

资源池化

服务提供商的资源使用多租户模式, 服务多个消费者, 依据用户的需求, 不同的物理和虚拟资源被动态的分配和再分配. 同时还有位置无关的特性, 用户通常不能掌控或者了解资源的具体物理位置, 不过用户可以再更高层次的抽象层指定位置(国家, 州,或者数据中心). 典型的资源包括存储, 处理, 内存和网络带宽.

快速弹性

弹性的提供和释放计算能力以快速伸缩匹配等量的需求, 在某些情况下, 这种伸缩式自动的. 对消费者来说, 这种可分配的计算能力通常显得几乎无限, 并且可以在任何时候自助任何数量.

可评测的服务

通过利用与服务匹配的抽象层次的计量能力(比如存储, 处理, 带宽和活跃用户账号数), 云系统自动控制和优化资源的使用.  资源使用可以被监控, 控制盒报告, 提供透明度给服务提供商和服务使用者.

大数据的本质是什么?

 从本质上讲,大数据是指按照一定的组织结构连接起来的数据,是非常简单而且直接的事物,但是从现象上分析,大数据所呈现出来的状态复杂多样,这是因为现象是由观察角度决定的,正如苏轼在诗里所描述的,“横看成岭侧成峰,远近高低各不同。不识庐山真面目,只缘身在此山中”。

  由此可见,大数据的核心关键是组织结构,而不是构成大数据的数据本身,这个特征类似人工生命之父克里斯· 兰顿(Chris Langton)对生命的描述,“生命的本质在于物质的组织形式,而不在于物质的本身”,事实上,宇宙模型里的全部事物似乎都遵循这样的构成规则,结构和节点上的物质。

  大数据的结构是一个多层次、交织关联的复杂系 统结构,数据是分布在节点上的构成物质,数据之间的关联关系是由节点的位置决定的,而不是由数据本身来决定。也就是说,不同的数据位于同一个节点时,就可 以获得相同的关联关系。比如张三在某个县里政府政权结构的局长位置,他就获得了这个节点位置上的所有关联关系,如果李四替换了张三,那么李四就获得了这个 位置上的关联关系,而张三就会失去这个位置上的关联关系,获得他新的节点位置上的关联关系。

虽然大数据已经说了两三年,也听了两三年,但是阿里云大数据事业部资深总监徐常亮认为,2016年,才是万亿大数据产业元年。

 “束缚大数据的技术瓶颈已经被完全打破,数据将从企业的成本中心转变为价值中心,2016年我们将迎来大数据应用的全面落地。”徐常亮说。

应用落地

“人人都在谈论大数据,却只有极少数人才会应用大数据。”徐常亮吐槽。

大数据过去两三年面临的尴尬,就是不接地气,不过,2016年,这种窘境将彻底改变,大数据从空洞的理论落地为各行各业都离不开的重要工具。这个结论可以从三个维度来论证:

第一,技术层面。Alliance Development Group分析师David Sullivan表示,以阿里巴巴为典型的中国互联网公司正在自己的商业场景中大规模使用数据技术,技术上与硅谷几乎没有差距。

去年,阿里云曾经刷新了一项世界纪录。在由数据库之父Jim Gray创办的排序基准评估竞赛Sort Benchmark中,阿里云把100TB数据的排序时间缩短到了377秒,打破了此前由雅虎、微软、斯坦福大学等公司与机构保持的纪录。

第二,成本层面。

阿里云的大数据平台也把数据技术的使用成本拉到一个新的时代。“数据分析和预测的成本将降至原有的10%,数据技术将变成普惠的技术能力,企业可以跨过技术和资金的障碍,真正从数据中掘金。”阿里云大数据事业部资深总监徐常亮表示。

第三,广泛应用。

在1月20日的云栖大会上海峰会上,阿里云的奠基人、阿里巴巴集团首席技术官王坚博士说,互联网、数据和计算就像人类历史上三个非常重要的工具——望远镜、显微镜和雷达的发明,让人类看见了原来看不见的世界。“望远镜、显微镜、雷达是三百多年的时间里积累下来的,但是今天我们很幸运地同时拥有互联网、数据和计算。”

未来,数据就像土地、石油、煤一样,将成为DT时代的生产资料,所以,王坚号召在场的每一人学习小岗村的农民,做互联网时代地球村的“数据农民”。

仅以阿里云为例,其服务对象包括银行等金融机构、政府部门、气象部门,影视制作机构等等,覆盖了各行各业。

其中,对于数据安全性和精密度要求最高的莫过于银行等金融机构。截止到目前为止,阿里金融云作为国内金融领域的首个云服务平台,已经服务了超过1500家金融机构。

而技术含量较高的则是气象部门,目前阿里云的服务对象既包括中国气象局,也包括墨迹天气这样的移动端app。后者借助阿里云的大数据平台数加,满足4亿用户每天  5  亿次的个性化天气查询需求。  在试用了阿里云的服务后,墨迹天气的整体存储和计算成本降低了70%。

其实,阿里云的服务对象不仅仅有企业公司,甚至还有政府部门,比如浙江省交通运输厅,在阿里云的帮助下,能够预测出未来1小时内的路况,准确率稳定在91%以上。要知道,浙江全省的高速公路长达1300公里,但是阿里云强大的计算能力,可以在20分钟完成历史数据分析,10秒钟完成实时数据分析。

让人诧异的是,甚至马拉松也离不开云计算的服务。1月2日举行的2016厦门国际马拉松赛上,一款叫做“阿甘跑步”的运动社交APP联手深圳一家心电医疗设备供应商,借助阿里云大数据平台面向跑马爱好者推出”安心跑”服务,可以对跑步人员的心跳状况实时回传,可以及时识别,重点关注危险跑步者,在心脏出现问题时及时抢救。

大数据甚至能在各种自然灾害中发挥作用,比如弘泰水利在阿里云的帮助下,实现大数据治水。

弘泰水利为宁波市研发的城市动态洪水风险图,可以看到全市各个水库的运行情况;台风来临,城市各个区域的降雨量直观呈现,包括市内积水深度、淹没时间等。仅需要2分钟就可以计算出宁波主城区任意一100*100米地区的洪水淹没情况。在去年“灿鸿”台风期间,这一系统得到成功应用,洪水计算结果与实际对比误差在10%以下。

一个个鲜活的应用案例说明,大数据已经从空洞的概念,升级为了可以落地的服务能力。

总之,技术上的赶超、成本的不断降低,各行各业应用的逐渐落地,这三大条件齐备,标志着2016年成为了中国的大数据元年。

如何抢食万亿大蛋糕

那么,即将从2016年起航的大数据和云计算,到底有多大的想象空间?

从亚马逊、谷歌、阿里、腾讯等巨头齐齐加码来看,未来云计算和大数据的产业容量肯定非常可观,才会引来大佬抢食。

据IDC出版的研究报告显示,2013年人类产生、复制和消费的数据量达到4.4ZB。而到2020年,数据量将增长10倍,达到44ZB。大数据已经成为当下人类最宝贵的财富,但全球真正享受大数据红利的公司不足千分之一,人类已挖掘的数据财富更是不到百万分之一。

而大佬们对未来相当乐观。“未来3年,大数据市场规模将达到1万亿元。”阿里云总裁胡晓明在发布会上表示,基于阿里云大数据平台数加,将有千余家合作伙伴、万名首席数据官和5万数据科学家诞生,把中国大数据市场规模拓展至万亿规模。

就在1月20日的2016云栖大会上海峰会上,阿里云宣布开放阿里巴巴十年的大数据能力,发布全球首个一站式大数据平台“数加”,首批亮相20款产品。这一平台承载了阿里云“普惠大数据”的理想,即让全球任何一个企业、个人都能用上大数据。

在输出自身大数据能力的同时,“数加”还向有数据开发能力的团队开放。这些团队可入驻“数加”,借助数加上的工具为各行各业提供数据服务。“这就像在淘宝开店一样,只是他们售卖的是专业能力。”徐常亮表示,阿里云计划用3年时间吸引1000家合作伙伴入驻,共同分享1万亿的大数据蛋糕。

而阿里云的服务能力和创新能力,其实已经在阿里系内部得到了足够有说服力的验证。借助大数据技术,阿里巴巴取得了巨大的商业成功。通过对电子商务平台上的客户行为进行分析,诞生了蚂蚁小贷、花呗、借呗;菜鸟网络通过电子面单、物流云、菜鸟天地等数据产品,为快递行业的升级提供技术方法。总之,阿里系的内部产品其实是阿里云的第一个尝鲜者,现在阿里云希望能够输出这种能力,共享给更多的机构。

而大麦网成为了阿里云“数加”平台的尝鲜者。通过采用“数加”的推荐引擎,大麦网的研发成本从900人每天降低到了30人每天,效率提升了30倍。

而过去依靠各种定期报告决策的县长们,现在也有了执政利器。阿里云发布了一款针对中国县域经济的数据应用产品,能让每个县域的管理者实时的了解区域的经济态势、产业特点、内需消费等关键数据的走势,为政府决策提供支持,堪称师爷。

就在发布会上,王坚认为,当互联网变成基础设施、数据成为生产资料、计算成为公共服务的时候,所有的企业、所有的行业又站在同一条起跑线上:个人创业者的影响力可以和一万人的大公司影响力相比,而一万人的大公司又具备了小公司的灵活性。当所有的传统公司都有用了大数据的能力,他们就和互联网公司站在了同一起跑线上,从此就不再有互联网公司和传统公司之分。

总之,2016年大数据元年的起步,可以让个人、企业、政府、公益机构等,更为低价、平等、民主地尽享大数据的红利。

通俗讲解:大数据中的商业模式?

一般我都是用这个例子开始介绍大数据入门:

看下图:

大数据入门,我们做个思考,以前有个国王很高兴想奖赏他的宠臣,然后说让他来提任何奖励,这个大臣给国王看下面这个棋盘,是个8*8的方格,如果我在每个标号的格子内放米粒,第一个格子放1粒米,后面的格子总是前面格子的两倍。那么问题来了,如果我把整个棋盘放满,需要多少米粒?我们学过级数的话,可以快速做个演算,它的推演是 1 + 2 + 4 ... + 2^63 = 2^64 - 1 这个数字多大很多人没印象,反正如果真的要兑现的话,这个国家肯定是破产了。其实我把这个棋盘分成上下两半,在上一半总共需要的米粒是2^32, 这并不是个很大的数,其实前几年计算机的32位就是那么大,但下半场就完全不一样了,这是个平方级别的scale,宇宙中所有沙砾都标号也不需要这么大的数字。现在大家也经常听到什么手机64位处理器,其实并无实际意义。

对于迅速成长的中国市场,大公司也意味着大数据,BAT三家都是对大数据的投入也是不惜余力,我4年前在Baidu的的时候,就提出框计算的东东,最近两年成立了硅谷研究院,挖来Andrew Ng作为首席科学家,研究项目就是百度大脑,在语音,图片识别大幅提高精确度和召回率,最近还做了个无人自行车非常有趣。腾讯作为最大的社交应用对大数据也是情有独钟,自己研发了C++平台的海量存储系统。淘宝去年双十一主战场,2分钟突破10亿,交易额突破571亿,背后是有很多故事,当年在百度做Pyramid(按Google三辆马车打造的金字塔三层分布式系统)有志之士,继续在OceanBase创造神话。而阿里云当年备受争议,马云也怀疑是不是被王坚忽悠,最后经历了双十一的洗礼证明了OceanBase和阿里云的靠谱。小米的雷军对大数据也是寄托厚望,一方面这么多数据几何级数增长,另一方面存储带宽都是巨大成本,没价值就真破产。

通个人观点,最通俗的讲就是:现在的市场模式是商场一般是在人居住最多的附近开,这样大家会集中去一个地方购物消费,类似于淘宝建立了一个商店,大家都集中在一个地方购物。

而大叔据是恰恰相反的市场模式,通过互联网大家之间没有什么距离了,剩下的就是靠商家搜集大家平时的搜索关键词,对产品的不满意,以及想法搜集整理,然后做出产品在满足市场需求的一个模式,这个包含了市场调研的工作。大大节省开发成本和人们需求的判断。

以前公司是自己去调研,然后开发产品,再通过销售中用户的意见进一步改进

而大叔据的来临,我们可以通过互联网非常方便的搜集信息,然后进行调研,问答然后做出更加完善的产品,就是产品的更新周期将大大压缩,凡是一成不变的公司将全部死掉

大叔据时代是人人创业的时代,谁发现需求,谁去满足需求就可以盈利

所以也算是一个乱世,群雄四起。也是细分化市场的年代

大叔据说到底就是人们的行为习惯而已,商人利用的只是数据中的需求数据部分

大数据

什么叫大数据?

某必胜客店的电话铃响了,客服人员拿起电话。

客服:必胜客。您好,请问有什么需要我为您服务?

顾客:你好,我想要一份……

客服:先生,烦请先把您的会员卡号告诉我。

顾客:16846146***。

客服:陈先生,您好!您是住在泉州路一号12楼1205室,您家电话是2646****,您公司电话是4666****,您的手机是1391234****。请问您想用哪一个电话付费?

顾客:你为什么知道我所有的电话号码?

客服:陈先生,因为我们联机到CRM系统。

顾客:我想要一个海鲜比萨……

客服:陈先生,海鲜比萨不适合您。

顾客:为什么?

客服:根据您的医疗记录,你的血压和胆固醇都偏高。

顾客:那你们有什么可以推荐的?

客服:您可以试试我们的低脂健康比萨。

顾客:你怎么知道我会喜欢吃这种的?

客服:您上星期一在国家图书馆借了一本《低脂健康食谱》。

顾客:好。那我要一个家庭特大号比萨,要付多少钱?

客服:99元,这个足够您一家六口吃了。但您母亲应该少吃,她上个月刚刚做了心脏搭桥手术,还处在恢复期。

顾客:那可以刷卡吗?

客服:陈先生,对不起。请您付现款,因为您的信用卡已经刷爆了,您现在还欠银行4807元,而且还不包括房贷利息。

顾客:那我先去附近的提款机提款。

客服:陈先生,根据您的记录,您已经超过今日提款限额。

顾客:算了,你们直接把比萨送我家吧,家里有现金。你们多久会送到?

客服:大约30分钟。如果您不想等,可以自己骑车来。

顾客:为什么?

客服:根据我们CRM全球定位系统的车辆行驶自动跟踪系统记录。您登记有一辆车号为SB-748的摩托车,而目前您正在解放路东段华联商场右侧骑着这辆摩托车。

顾客:当即晕倒......

什么叫O2O?

A大款以每月20000的价格包养女大学生B,B女生竟每月从包养费中拿出10000包养适龄男学生C(B2C),C男觉得不平衡,每月花5000包养起o小女生,o小女生发现自己是这条生物链的最底端后,很不爽,直接微信了A大款,于是两人踢了B和C(砍掉中间),直接交易,每月8000。 (O2O模式互联网思维核心就是:干掉中介)

什么叫蓝海?

昨天在香格里拉门口停车,看见一个车位,这时有辆迈巴赫要停进车位。我走上前敲了敲他玻璃,甩出去一百块钱对他说:”这个车位我看中了,你去别的地方停!” 他觉得我小看他了,冲我脸上甩来十几张一百的叫我滚一边儿去。 后来,我又如法炮制…妈呀,一晚上我竟然赚了两万多。

什么叫红海?

我把自己的赚钱经历上网了,大家都在转发,一下子有许多人都想学习我,如法炮制。这时候,满大街都是手持一百元钱的人,他们都在找寻找车位的豪车。

什么叫互联网思维?

看到这么多人拿着一百元在街上转悠,我知道自己的机会来了:于是,我租一辆豪华迈巴赫车开到大街上,冲着这些手持一百元等豪车的人开过去。这时候,谁递过来一百元要我让车位,我就直接收下他的一百元.......不说了,又一个手拿一百的人过来了。

什么叫众筹?

天冷了,想吃火锅,又懒得出去,咋办呢?首先邀请5个人。给第1个电话:“顺路买点菜来,就差蔬菜了。”接着第2个:“顺路买点羊肉,就差肉了。” 然后第3个:“顺路买点冻豆腐各种丸子啥的,就差这个了。”之后第4个:“就差酒了。”最后第5个:“火锅底料不够了,带点来。”然后,挂电话烧锅水坐等……

农业时代的基本生产要素:土地、劳动力、气候、水;

工业时代的基本生产要素:机器、厂房、资本、劳动力、能源;

信息时代的基本生产要素:信息数据;

注意,信息数据已经成为基本生产要素。在新的时代,你占有信息数据,跟你在以前有粮食、有房产一样的。农业时代的地主,工业时代的企业家,信息时代的数据搜集师,具有一致的重要性。

数据不同于实体物质的一点是,它可以反复利用,且不损耗。就像我在《未来知识图谱》搜集很多数据,这些数据可以反复使用,不断发挥价值。

什么是大数据、什么是数据挖掘,通俗解释:

以山西开矿的煤老板为例:

开矿的前提是有矿,包括煤矿的储藏量,储藏深度,煤的成色。之后是挖矿,要把这些埋在地下的矿挖出来,需要挖矿工,挖矿机,运输机。

之后是加工,洗煤,炼丹,等等。最后才是转化为价值。

数据行业十分类似:

挖掘数据的前提是有数据,需要判断数据的储藏量,储藏深度,数据的成色。在这方面,现在的电子商务公司(阿里巴巴、亚马逊、京东),搜索引擎(谷歌、百度),社交网站(FB、腾讯、微博、LinkedIn),金融公司(蚂蚁金服,陆金所),这些公司占有海量数据,具有绝对优势。

如果有人将这些跨平台的海量数据整合,价值更是不可限量。2013年,麻省理工学院的德蒙鸠依发表过一篇论文,证明了只需要知道同一部手机的四个位置点和相应时间,就可以95%的准确率定位一个用户。你是谁,性别,年龄,喜好,消费习惯,社交关系,数据比你更懂你;甚至可以说,你在网络上活动频繁,等于在裸奔。

但占有数据不等于就有价值。还需要把这些埋藏的数据挖掘出来,把这些数据可视化输出,指导分析、商业实践。

直到这一步,才创造了价值。

如何准确应用大数据与价值

“很多人还没搞清楚什么是PC互联网,移动互联网来了,我们还没搞清楚移动互联的时候,大数据时代又来了。”

——马云卸任演讲  本文尝试从三大产业的角度解释大数据的应用及价值。   

我们知道:  第一次工业革命以煤炭为基础,蒸汽机和印刷术为标志, 

第二次工业革命以石油为基础,内燃机和电信技术为标志, 

第三次工业革命以核能基础,互联网技术为标志, 

第四次工业革命以可再生能源为基础,_______技术为标志。

 空白处你会填上什么?欢迎大家讨论。

目前可以预测的是,数据和内容作为互联网的核心,哪个行业首先与互联网融合成功,从海量的数据金矿中发现暗藏的规律,就能够抢占先机,先发制人。   

 一、大数据的应用  大数据时代已经到来,根据IDC和Mckinsey的大数据研究报告。大数据挖掘商业价值的方法主要分为四种:  顾客群体细分,然后对每个群体量体裁衣般地采取独特的行动。 模拟实际环境,发掘新的需求同时提高投入的回报率。 加强各部门联系,提高整个管理链条和产业链条的投入回报率。 发现隐藏线索,进行产品和服务的创新。

所以从理论上来看:所有产业都会从大数据的发展中受益。

而由于数据缺乏以及从业人员本身的原因,

第一、第二产业的发展速度相对于第三产业来说会迟缓一些。   1985年,我国国家统计局明确地把我国产业划分为三大产业:  农业(包括林业、牧业、渔业等)定为第一产业。

 工业(包括采掘业、制造业、自来水、电力、蒸汽、煤气)和建筑业定为第二产业。 

把第一、二产业以外的各行业定为第三产业。  第三产业即除第一、第二产业以外的向全社会提供各种各样劳务的服务性行业,主要是服务业。其中第三产业可具体分为两大部门:一是流通部门;二是服务部门。再细分又可分为四个层次:

 第一层次,流通部门。包括交通运输行业、邮电通讯行业、物资供销和仓储行业。 

第二层次,为生产和生活服务的部门。包括金融业、商业饮食业、保险业、地质普查业、房地产业、公用事业、技术服务业和生活服务修理业务; 

第三层次,为提高科学文化水平和居民素质服务的部门。包括教育文化、广播电视事业、科学研究事业、卫生、体育和社会福利事业; 第四层次,为社会公共需要服务的部门。包括国家机关、党政机关、社会团体、以及军队和警察公安司法机关等。  

我们可以看出,由于某些客观原因,相对于第一产业和第二产业来说,第三产业凭借自身的优势,大多汇聚了当前最海量的数据以及大批的科研中坚力量。接下来让我们看一些典型例子,当前新形势下与三大产业密切相关的大数据应用。

(1).第一产业  孟山都(Monsanto |   A Sustainable Agriculture Company),农业 孟山都是一家美国的跨国农业生物技术公司,其生产的旗舰产品抗农达,即年年春(Roundup)是全球知名的嘉磷塞除草剂,长期占据市场第一个位置。该公司目前也是基因改造(GE)种子的领先生产商,占据了多种农作物种子70%–100%的市场份额,而在美国本土,更占有整个市场的90%。已经统治了生物工程种子业务超过十年。  

孟山都首先发起“Green Data Revolution”运动,建立农业数据联盟(Open Ag Data Alliance)来统一数据标准,让农民不用懂“高科技”也能享受大数据的成果。典型的应用如农场设备制造商John Deere与DuPont Pioneer当前联合提供“决策服务(Decision Services)”,农民只需在驾驶室里拿出平板电脑,收集种子监视器传来的数据,然后将其上传给服务器,最终服务器返回化肥的配方到农场拖拉机上。  

天气意外保险公司(The Climate Corporation),农业 The Climate Corporation为农民提供Total Weather Insurance (TWI)——涵盖全年各季节的天气保险项目。

利用公司特有的数据采集与分析平台,每天从250万个采集点获取天气数据,并结合大量的天气模拟、海量的植物根部构造和土质分析等信息对意外天气风险做出综合判断,然后向农民提供农作物保险。前不久从Google Ventures、Founders Fund等多家公司获得超过5000万美元的风险投资。 2013年被孟山都收购。  土壤抽样分析服务商(Solum, Inc),农业 Solum目标是实现高效、精准的土壤抽样分析,以帮助种植者在正确的时间、正确的地点进行精确施肥。农户既可以通过公司开发的No Wait Nitrate系统在田间进行分析即时获取数据;也可以把土壤样本寄给该公司的实验室进行分析。

2012年获得Andreessen Horowitz 领投的1700万美元投资后,已累计融资近2000万美元。  了解更多: 大数据对于农业的发展会带来什么影响?或具体到对农场经营会有什么启示或者带来什么样的变化?  

(2).第二产业 2013年9月,工业和信息化部发布了《关于印发信息化和工业化深度融合专项行动计划(2013-2018年)》的通知。明确提出推动物联网在工业领域的集成创新和应用: 实施物联网发展专项,在重点行业组织开展试点示范,以传感器和传感器网络、RFID、工业大数据的应用为切入点,重点支持生产过程控制、生产环境检测、制造供应链跟踪、远程诊断管理等物联网应用,促进经济效益提升、安全生产和节能减排。  大数据的业务多是数据驱动型,具有数据量大、种类多、实时性高的特点。

工业企业对数据的记录以往看来主要分为两种方法:传统的纸笔和Excel电子表格记录。这些操作起来看似简单的数据管理方式为企业生产及质量监控埋下了巨大的隐患,也让数据挖掘无从谈起。  随着信息化与工业化的融合发展,信息技术渗透到了工业企业产业链的各个环节。例如Sensor、RFID、Barcode、物联网等技术已经在企业中得到初步应用,工业大数据也开始逐渐得到积累。企业中生产线高速运转时机器所产生的数据量不亚于计算机数据,而且数据类型多是非结构化数据,对数据的实时性要求也更高。因此工业大数据所面临的问题和挑战很多,所以通用电气公司(General Electric)的副总裁兼全球技术总监William Ruh认为相对于工业大数据来说,工业互联网(Industrial Internet)才是当前急需的,因为大数据本身并没有让信息的提取更加智能,业务比数据本身更加重要。

 又如在工业中,压力、温度等数据的特点是需要语境才能理解的。燃气轮机排气装置上的温度读数与一台机车的内部温度是完全不同的。燃气轮机改善热敷需要使用非常复杂的算法运行模型。在笔记本电脑上,一个典型的查询要获得答案一般需要三个星期。在基于大数据的分布式系统上发布同样的查询执行一种计算只需要不到一秒钟。

  第三方认证机构(TÜV NORD GROUP),工业 德国汉德技术监督服务有限公司的前身是德国锅炉检验协会(简称DÜV)早在1869年,德国锅炉检验协会就承担了德国国内所有锅炉运行安全的检验工作,保证了锅炉生产的安全。渐渐的,德国锅炉检验协会取得了德国政府的授权,开展对其他产品的检验工作,从采矿,电力系统开始,到压力容器,机动车辆,医疗设备,环境保护,宇航工业,医疗产品等等,现在的德国汉德技术监督服务有限公司已经成为了许许多多产品的安全代号。主要体系认证包括企业质量管理体系,生产环境体系,生产碳排放方案等。DÜV当前从建筑绿色标准体系方面提出了对于大数据能源管理的探索,以微软新总部,蒂森克虏伯电梯总部为例,在整个项目实施中引入大数据能源管理,在建筑的设计规划阶段、施工阶段、运营阶段等多个阶段通过数据化的能源管理系统,实现建筑的低碳、绿色、智能。  工业自动化软件商(Wonderware ),工业 Wonderware作为系统软件涉及的专业企业,对于大数据的计算和运用是从比较“IT”的角度出发的。Wonderware 的实时数据管理软件能够提供一个工厂所需要的从建立到报废的所有实时数据。目前已经退出移动版本,工程总监在手机上就能够随时随地监控设备的运行状况。

目前全球超过三分之一的工厂应用Wonderware公司的软件解决方案。  了解更多: 大数据在电力行业的应用前景有哪些? 

 (3).第三产业  健康与医疗:Fitbit® Official Site: Flex, One and Zip Wireless Activity and Sleep Trackers的健身腕带可以收集有关我们走路或者慢跑的数据,例如行走步数、卡路里消耗、睡眠时长等数据与健康记录来改善我们的健康状况。Early Detection of Patient Deterioration等公司正在开发床垫监测传感器,自动监测和记录心脏速率、呼吸速率、运动和睡眠活动。该传感器收集的数据以无线方式被发送到智能手机和平板电脑,进行进一步分析。美国公共卫生协会(APHA: American Public Health Association)开发Flu Near You用来的症状,通过大数据分析生成报告显示用户所在地区的流感活动。 房地产:针对建设、改造和翻新住宅的“一站式商店”Find Great Remodeling Contractors.  Home Improvement Begins with Buildzoom.拥有约250万承包商、5万以上客户意见信息,来帮助50万用户带来更多客观性和透明度的决策意见。智能电视和机顶盒能够追踪你正在看的内容,看了多长时间,甚至能够识别多少人坐在电视机前,来确定这个频道的流行度。 交通:每天坐公交,智能手机会为我们预测公共汽车到达的时间车来了;开车的时候发送位置信息以及速度,然后结合实时交通信息为我们提供最佳路线,从而避免堵车。WNYC开发的Transit Time NYC让纽约人可以点击纽约市的五个区域来获取地铁或火车的时间。

他们从开源行程平台OpentripPlanner获取数据,并将这些数据域公开下载的地铁时间表结合来创造400万虚拟旅程。实时车辆交通数据采集商INRIX速 Traffic可以帮助你避开堵车,每位用户在使用过程中会给服务器发送实时数据,比如走的多快,走到哪里,这样每个客户都是探测器。 购物:Decide帮助人们做购买决策,预测产品的价格趋势,告诉消费者什么时候买东西最便宜,做法是通过在全球各大网站上搜集数以十亿计的数据进行分析。

  政治:奥巴马在总统竞选中使用大数据分析来收集选民的数据,让他可以专注于最有可能投他的选民,谷歌执行董事长Eric Schmidt当时向奥巴马的大数据分析团队投资数百万美元并聚拢核心成员成立了Civis Analytics咨询公司,该公司将会将在奥巴马连任竞选中所获得的经验应用到企业和非营利行业中去。 金融:ZestFinance | Big Data Underwriting 是由是Google的前任 CIO—Douglas Merrill创立金融数据分析服务提供商,使用机器学习算法和大数据为放款者提供承保模式,旨在为那些个人信用不良或者不满足传统银行贷款资格的个人提供服务。公司使用分析模型对每位信贷申请人的上万条原始信息数据进行分析,只需几秒时间便可以得出超过十万个行为指标。这家公司经历了近 4年的成长,能够分析的数据量比有资格进行次级信贷的美国人的数量的 2 倍还多,其违约率也比行业平均水平低 60%左右。

另外不得不提到风险管理信用技术的先驱者FICO | Predictive Analytics, Big Data Analytics and FICO Credit Scores,通过大数据分析为银行和信用卡发卡机构、保险、医疗保健、政府和零售行业提供服务。

FICO 信用分计算的基本思想是:把借款人过去的信用历史资料与数据库中的全体借款人的信用习惯相比较,检查借款人的发展趋势跟经常违约、随意透支、甚至申请破产等各种陷入财务困境的借款人的发展趋势是否相似。FICO 已经为三分之二的世界 100 强银行提供服务,提高了客户忠诚度和盈利率、减少欺诈损失、管理信贷风险、满足监管与竞争要求并快速获取市场份额。

 电信: 美国T-mobiles采用Informatica - The Data Integration Company平台开展大数据工作,通过集成数据综合分析客户流失的原因,根据分析结果优化网络布局为客户提供了更好的体验,在一个季度内将流失率减半;韩国 SK telecom新成立一家公司SK Planet,通过大数据分析用户的使用行为,在用户做出决定之前推出符合用户兴趣的业务防止用户流失。美国AT&T - 4G LTE, 公司将记录用户在Wifi网络中的地理位置、网络浏览历史记录以及使用的应用等数据销售给广告客户。比如当用户距离商家很近时,就有可能收到该商家提供的折扣很大的电子优惠券。英国BT - Broadband公司发布了新的安全数据分析服务Assure Analytics—BT news releases,帮助企业收集、管理和评估大数据集,将这些数据通过可视化的方式呈现给企业,帮助企业改进决策。 以上只是冰山一角,欢迎大家补充。  

大数据的定义  大数据(Big Data)是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。”业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征。   数据体量巨大(Volume)。截至目前,人类生产的所有印刷材料的数据量是200PB(1PB=210TB),而历史上全人类说过的所有的话的数据量大约是5EB(1EB=210PB)。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。 数据类型繁多(Variety)。这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。 价值密度低(Value)。价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。 处理速度快(Velocity)。这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。  

大数定理告诉我们,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。“有规律的随机事件”在大量重复出现的条件下,往往呈现几乎必然的统计特性。 举个例子,我们向上抛一枚硬币,硬币落下后哪一面朝上本来是偶然的,但当我们上抛硬币的次数足够多后,达到上万次甚至几十万几百万次以后,我们就会发现,硬币每一面向上的次数约占总次数的二分之一。偶然中包含着某种必然。  实验的重复、数据的积累让预测未来不再是科幻电影里的读心术。  

你能获得的数据量越大,你能挖掘到的价值就越多。  如果银行能及时地了解风险,我们的经济将更加强大。 如果政府能够降低欺诈开支,我们的税收将更加合理。 如果医院能够更早发现疾病,我们的身体将更加健康。 如果电信公司能够降低成本,我们的话费将更加便宜。 如果交通动态天气能够掌握,我们的出行将更加方便。 如果商场能够动态调整库存,我们的商品将更加实惠。  

最终,我们都将从大数据分析中获益。 

祝每一个读者都挖掘到金矿和快乐

你可能感兴趣的:(大数据与云计算)