本篇从大数据架构的角度全面解析大数据技术及算法,探讨大数据的发展和趋势,全面介绍大数据的相关技术、算法和一些应用场景,帮助读者培养大数据的技术选型和系统架构能力。
不仅对大数据相关技术及算法做了系统性的分析和描述,梳理了大数据的技术分类,如基础架构支持、大数据采集、大数据存储、大数据处理、大数据展示及交互,还融合了大数据行业的最新技术进展和大型互联网公司的大数据架构实践,努力为读者提供一个大数据的全景画卷。
主要内容:
大型互联网公司的大数据架构实践:包括腾讯、淘宝、Facebook、 Twitter等。
目录为大家简单介绍一下:
大数据在过去几年得到了全社会的关注和快速的发展,几乎在每个行业都可以见到大数据应用的影子。大数据的应用范围越来越广,应用的行业也越来越多,我们几乎每天都可以看到大数据的- -些新奇应用,大数据的价值也已经体现在方方面面。大数据目前较多的应用领域主要有互联网、金融、医疗、教育、政府等行业,应用的环境也不尽相同,下面介绍几种大数据的典型应用场景。
1.分析用户行为,建立数据模型,并进行预测
大数据在用户行为分析和预测方面的应用是最突出的。企业通过对用户社交网站的行为数据、浏览器的日志信息、传感器的数据等进行收集和分析,就可以得到用户的行为习惯,通过建立出数据模型,可以对用户的下一步行为进行预测。
在用户的行为分析方面,最经典的案例应该是美国沃尔玛公司(WalMart)将尿不湿和啤酒摆放在一一起的销售策略。沃尔玛对颐客的购物习惯进行关联规则分析,从中得出顾客会经常-起购买哪些商品。沃尔玛利用数据挖掘工具对其保存在数据仓厍里面的所有门店的交易数据进行分析,得出了和尿不湿一起购买最 多的商品是啤酒的结论。沃尔玛在所有的门店里将尿不湿与啤酒并排摆放在一起,结果是尿不湿与啤酒的销售量双双增长。
另外一个比较著名的例子就是Target怀孕预测的案例。他们对商品数据库里的数万类商品和女性顾客的商品购买记录进行分析,挖掘出与怀孕高度相关的25项商品,制作“怀孕预测”指数,可以精确地预测到客户在什么时候想要小孩,推算出孕妇的预产期等,从而抢先一步给女性推荐相关的产品。
在用户行为预测方面,也有不少成功案例。例如美国统计学家内特西尔弗建立统计模型,成功预测了2012年美国大选的结果。通过他的预测,看到奥巴马有431种胜利途径,对比罗姆尼仅有76种,奥巴马总统连任的机会是86.3%。在其他行业,电信可以通过大数据预测用户的流失,从而可以提前采取相应的手段留住客户:汽车保险行业可以了解客户的驾驶水平和需求,来为顾客推荐合适的保险等。大数据对于当代企业能够更好地运营所体现出的价值已经不言而喻。
2.提升企业的资产管理,优化企业的业务流程
大数据也可以帮助企业提升资产管理和优化业务流程。企业利用实时数据能够实现预测性的维护并减少故障,推动产品和服务开发。比如在交通和物流领域,大数据最广泛的应用就是供应链以及配送路线的优化。通过结合传感器数据,以及社交媒体、网络搜索以及天气预报数据,可以挖掘出有价值的信息。利用地理定位和无线电频率的识别追踪货物和送货车,利用实时交通路线数据制定更加优化的路线。
UPS快递高效地利用了地理定位数据。为了使总部能在车辆出现晚点的时候跟踪到车辆的位置和预防引擎故障,它的货车上装有传感器、无线适配器和GPS.同时,这些设备也方便了公司监督、管理员工并优化行车线路。UPS 为货车定制的最佳行车路径是根据过去的行车经验总结而来的。2011 年,UPS 的驾驶员少跑了近4828万千米的路程。
DHL是全球知名的邮递和物流公司。它是一家传统行业的企业,然而在移动互联网和大数据浪潮中却并不落后,在瑞典推出了众包模式送货的移动应用MyWays,人们可以通过移动应用报名投递自己行动路线附近的包裹,并获取报酬。此外,DHL还把大数据应用于管理物流风险,从而为客户提供更好的服务。
3.大数据服务智慧城市、智慧交通
智慧城市是当前我国城镇化改革的建设重点,大数据技术是实现智慧城市的核心支撑技术。智慧城市就是运用信息和通信技术手段感测、分析、整合城市运行核心系统的各项关键信息,从而对包括政务、民生、社会化管理、企业发展在内的各种需求做出智能响应。
其实质是利用先进的信息技术,实现城市智慧式管理和运行,进而为城市中的人创造更美好的生活,促进城市的和谐、可持续成长。目前,在国内外,每天都会涌现出新的大数据智慧城市的应用案例。我们选取几个有代表性的案例。
随着智能电网的提出,智能电表得到了极大的普及,目前全国范围内至少有1亿块智能电表在使用,不仅极大地方便了普通用电用户,而且电力公司也因此收集了大量的用电数据。这些海量数据在日积月累的过程中逐渐给用电信息采集系统带来了存储和计算的压力,而且随着业务的不断深化,智能电表历经多次升级换代,采集项数翻了几倍,采集频率也逐步从一天一-次向15分钟一次(96次天)升级。
以一个用电用户超过2000万户的省公司来说,一天的数据入库 量接近20亿次,再加上实时统计分析的要求,原有系统基于传统关系型数据库的架构已无力支撑。在这种情况下,该省公司基于清华大数据处理中心的以Hadoop为基础的HBase解决方案进行用电数据的存储和结果查询,使用Hive进行相关的统计分析。经过业务梳理,选择了3个计算场景和一-个查询场景进行尝试。通过实际业务数据的计算对比,3个计算场景用时比现有系统快10~20倍,查询场景的响应时间则缩短了两个数量级,而整体集群的硬件造价仅为现有系统的1/6,并且还具备极佳的横向扩展能力。
法国里昂市与IBM的研究者合作开发出能够缓解道路拥堵的系统方案。IBM为里昂开发的系统名为Decision Support System Optimizer (决策支持系统优化器),可以基于实时的交通情况报告来侦测和预测交通拥堵。当交管人员发现某地即将发生交通拥堵,可以及时调整信号灯让车流以最高效率运行。这个系统对于突发事件也很有用,例如帮助救护车尽快到达医院。而且随着运行时间的积累,这套系统还能够“学习”过去的成功处置方案,并运用到未来预测中。
SpotHero是预订停车位的一个移动应用,它的网站和移动应用可以较好地解决司机找不到停车位的问题。SpotHero 能够实时跟踪停车位数据变化,打开SpotHero,将会显示附近可用的停车位的公交车和价格,同时提供导航服务,并且可以使用预付费来占领未被使用的停车位。目前,已经能够实时监控包括华盛顿、纽约、芝加哥、巴尔的摩、波士顿、密尔沃基和纽瓦克七个城市的停车位。
总共8大典型应用场景,上面为大家介绍了3大应用场景。
大数据技术正在改变目前计算机的运行模式,正在改变着这个世界。它能处理几乎各种类型的海量数据,无论是微博、文章、电子邮件、文档、音频、视频,还是其他形态的数据。它工作的速度非常快,可以达到实时。而为大数据提供核心基础支撑的是数据中心的大规模计算、存储及网络资源,以及负责管理、调度、监控这些资源的云计算平台。云计算让用户能够按照他们的业务需求获取相应的计算力、存储空间和信息服务,将计算任务分布到大量服务器构成的资源池上。云计算及其技术给了人们廉价获取巨量计算和存储的能力,云计算分布式架构则能够很好地支持大数据存储和处理需求。这样的低成本硬件+低成本软件+低成本运维,更加经济和实用,为大数据处理和利用提供强力支撑。
在本章中,我们将重点介绍数据中心和云计算的概念、大数据和云计算的关系、云资源调度与管理、开放云计算平台OpenStack 等内容。
云存储不是一个设备,而是- - .种服务,具体来说,它是把数据存储和访问作为一种服务,并通过网络提供给用户。云计算是提供计算能力,相应地,云存储是提供存储能力。
云存储专注于向用户提供以网络为基础的在线存储服务,通过规模化来降低用户使用存储的成本。用户无须考虑存储容量、存储设备的类型、数据存储的位置以及数据完整性保护和容灾备份等烦琐的底层技术细节,按需付费就可以从云存储供应商那里获得近乎无限大的存储空间和企业级的服务质量。本章主要介绍云存储系统,从云存储的基础概念出发,介绍云存储涉及的关键技术,并对云存储系统按分类进行描述。
本章将简要介绍Hadoop分布式生态系统的各组成部分,首先从Hadoop的底层文件系统HDFS开始,接着介绍了Hadoop的结构化存储系统HBase,重点讲解Hadoop的任务调度框架MapReduce的原理,并给出了一个具体的编程实例,对MapReduce 2.0做简单的介绍和对比。由于篇幅有限,在6.3节简要介绍Hadoop生态圈的几个重要组成部分的功能。
最后介绍Hadoop平台的应用案例。
Hadoop等大数据解决方案解决了当今大部分对于海量数据的处理需求,如网页检索、机器翻译、分布式计算、广告投放等;但对于某些实时性要求很高的数据处理系统,Hadoop则无能为力。对实时交互处理的需求催生了一大批实时计算系统,根据其数据流的特点,我们可以称之为流计算系统。本节主要介绍流计算的基本概念,以典型的流计算系统Storm为例深入分析流计算系统的特性。
一直以来数据是基础也是核心,存储数据是前提,处理好数据是基础。之前企业一直用传统关系型数据库来存储数据,随着大数据时代的来临,需要存储的数据的量和数据的结构和种类都发生了很大的变化,人们已经不满足于传统关系型数据库带来的稳定性,对数据库支持的数据种类、伸缩性、可扩展性的需求越来越高,随着数据库技术的发展,NoSQL应运而生,发展的时间虽然不长,但已经成为大数据技术生态圈里不可或缺的- -员, NoSQL的广泛应用也带动了新型数据库技术-一NewSQL 的发展。本章由传统SQL数据库引出NoSQL,重点介绍NoSQL的基本原理及其应用,最后概要介绍NewSQL。
本章内容比较多,而且和当前互联网最赚钱的行业关系密切。无论是电子商务、计算广告还是社会化网络都是很复杂的。针对每个领域,本章主要介绍如下内容:
①介绍在该领域做得比较好的互联网公司,以及这些公司的哪些产品中使用了与大数据相关的技术。②介绍相关的算法。③介绍应用实例。
针对电子商务这一部分, 将介绍常用的推荐算法并模拟一些测试数据。关于计算广告部分,将介绍目前的主流RTB ( Real Time Bidding), RTB即实时竞价,是目前主流的广告交易模式,国内外做得比较好的有百度、阿里妈妈、Google 等;此外还将介绍需求方平台(Demand-Side Platform, DSP),通过模拟RTB程序让读者知道实时竞价相关的流程,并重点讲解广告排序相关的技术点。最后关于社交网络,将主要介绍关系挖掘,比如二度人脉的挖掘、语言流行度等。
一幅图胜过千言万语。人类从外界获得的信息约有80%以上来自视觉系统。当大数据以直观的可视化的图形形式展示在分析者面前时,分析者往往能够-一眼洞悉数据背后隐藏的信息并将其转化为知识以及智慧。所以说,在大数据技术体系中,数据展示与交互虽不.是核心,但也至关重要。数据处理的最终目的是使人们更好地利用数据,选择恰当的、生动直观的展示方式能够帮助人们更好地理解数据的内涵和关联关系,也能够更有效地解释和运用数据,从而为生产、运营、规划提供决策支持,发挥出大数据的作用。随着技术的发展,大数据的展现方式也发生了巨大变化,除了传统的报表、图形之外,结合现代化的可视化工具及人机交互手段,智能化、实时化、多维度的数据展示与交互时代已经来临。
腾讯是目前中国最大的互联网综合服务提供商之一,也是中国服务用户最多的互联网企业之- -。首先,即时通信软件QQ,最高同时在线账户数达到2.06亿,月活跃账户数更是高达8.29亿,QQ智能终端月活跃账户数达到5.21亿。其次,“微信和WeChat”合并月活跃账户数达到4.38亿,QQ空间月活跃账户数达到6.45亿,QQ空间智能终端月活跃账户数达到4.97亿。从这些数据可以看到,腾讯每天的数据量是异常庞大的,目前最高日接入消息数为10000 亿条,日接入数据量为200TB,并发分拣业务接口为10000个。
腾讯在设计架构时主要考虑了3个主要的需求。
①数据开放:使得公司数据集中形成数据开放,在保障数据安全性的前提下,提供自助化服务平台,满足快速增长的需求。
②专业化:从提供大量独立的系统/工具转变为提供集成、一体化、自动化数据开发平台服务。对来源于各个业务块的数据进行整合和深入挖掘产生用户画像,为业务提供有价值的服务,并且快速孵化更多的数据应用。
③成本与性能:优化平台存储和计算方案,优化数据模型和算法,去除重复计算和存储:通过建设大规模集群,形成规模效应,提升平台能力并降低成本;随着平台上的数据量、用户数、任务数不断增长,每个新用户/新任务带来的新增成本不断降低,成本优势可以不断放大。
整体架构
从图可以看出,腾讯大数据平台主要由4个核心模块构成: TDW、TRC、TDBank和Gaia。从下至上,Gaia负责腾讯大数据平台.上所有集群资源的调度和管理工作,为上层的业务和数据服务提供必要的计算资源。构建于Gaia之上的两个部分TDW和TRC分别负责批量的离线计算和流式的实时计算。TDBank 则作为统一-的数据采集入口。
腾讯大数据平台的整体架构
淘宝网( taobao.com)目前拥有近5亿的注册用户数,每天有超过6000万名的固定访客,同时每天的在线商品数已经超过了8亿件,平均每分钟售出4.8 万件商品。截至2011年年底,淘宝网单日交易额峰值达到43.8亿元,创造了270.8 万个直接且充分的就业机会。随着淘宝网规模的扩大和用户数量的增加,淘宝也从单一的C2C网络集市变成了包括C2C、团购、分销、拍卖等多种电子商务模式在内的综合性零售商圈。目前它已经成为世界范围的电子商务交易平台之一,因此在其架构中面临着大量高性能问题。
整体架构
淘宝数据平台架构图如图所示。
基于云梯的淘宝数据平台架构图
后面还有Facebook、Twitter、Netflix等企业的大数据架构,由于篇幅过长小编这里就不一一为大家介绍了。需要【架构大数据——大数据技术及算法解析】可以三连支持一下
能成功的人一定不是偶然的,当你成功的时候就会有许多同阶层的人跟你打交道,打交道的人多了之后,你的知识面也会越来越广了。
不要为了读书而读书,要细嚼慢咽,体会知识带来的乐趣。
你还可以更成功!