本文整理自:http://gigaom2.wordpress.com/2012/06/05/10-ways-companies-are-using-hadoop-to-do-more-than-serve-ads/
中文版参考自:http://www.csdn.net/article/2012-09-03/2809491-12-ways-companies-are-using-hadoop
谈到Hadoop应用,如果仅将目光集中在为搜索引擎提供动力或者为广告服提供用户行为分析的平台上,那么显然有所局限。本文提供了搜索和广告分析以外的10个应用领域,和在这些领域中通过使用Hadoop而获得成功的多家创新型企业。也许相比互联网巨头并不知名,但却代表了Hadoop的生命力——在行业端商务领域的新拓展方向。
图1.1 Hadoop的12个应用领域
最近,在Hadoop最新版本的发布会上,Cloudera COO Kirk Dunn和业内一些专家指出了Hadoop在不同领域的应用案例。这与我近些年来关注的方向相同。为此,特别总结出在线旅游、移动数据、电子商务、能源发现、能源节省、基础设施管理、图像处理、欺诈检测、IT安全和医疗保健这十个领域,这其中,几乎每个领域都有我曾采访过的创新企业。当然,我也相信,在这些企业之外,还有更多的应用空间等待挖掘。
1. 在线旅游(Online travel)。Dunn表示,目前Cloudera的Hadoop架构正在为80%左右的全球在线旅游预定服务。尽管其并没有提及这些客户的名字,但是去年的时候我曾对应用了Hadoop的一家企业Orbitz Worldwide做了采访。Orbitz CEO Barney Harford当时表示,受益于Hadoop架构,他们极为轻松地实现了诸多的数据分析工作,并在其中得出“MAC用户比Windows用户愿意支付20美元的成本来预订酒店”,这样的影响范围很广的调查结论。当然,在他看来,Hadoop本身并不能带来如此的神奇效应,但是其可以帮助发现以前从来没有发现的数据点,进而使分析和挖掘成为了可能。
2. 移动数据(Mobile data)。这是Dunn的另一项“匿名”统计,Cloudera为“70%美国智能手机”提供服务。我认为他谈论的是通过无线方式存储和处理移动数据,以及有关市场份额的数学可以帮助他们锁定客户。
3. 电子商务(E-commerce)。Dunn所谈的Cloudera第三个市场是美国超过10,000,000家网上商店。Dunn说一家大型零售商(我认为说的是eBay,作为一个主要的Hadoop用户并且成功经营着大型零售卖场来帮助数百万商人销售)在使用了Hadoop后仅90天内就增加了3%的净利润。
4. 能源发现(Energy discovery)。在Cloudera的圆桌会议上,来自行业的一位代表Chevron解释了为什么他们选择了Hadoop:我们采用Hadoop来对数据进行排序和整理,而这些数据全部来自从海洋深处地震时产生的数据,而其背后有可能意味着石油储量。
5. 能源节省(Energy savings)。与 Chevron目标截然相反,Opower使用Hadoop来提升电力服务,尽量为用户节省在资源方面的投入。一个代表小组注意到,某些特定功能,如精确并长期的费用预测如果没有Hadoop几乎很难完成。据了解,Opower现在管理着30TB的信息,其中包括来自5000万用户(横跨60个公共事业部)能源数据,气象与人口方面的公共及私人数据,历史信息,地理数据及其他。这些都是通过超过20个MySQL数据库和一个Hadoop集群来存储和处理的。
6. 基础设施管理(Infrastructure management)。这是一个比较常见的应用方向,实际上,随着更多的公司(Esty,我最近采访过)从服务器、交换机及其他IT设备商收集并分析数据,Hadoop更有市场。在Cloudera发布会中,NetApp代表指出他们公司收集设备日志(现在已经超过1PB的容量了),并将它们存储在Hadoop中。事实上,Esty是专门从事国产与复古商品的电子商务网站,现在已经超过110万的用户,250万的独立访问量和11亿的页面浏览量。举个例子,通过Splunk管理和分析的集群数据已经到了每天1TB的量级。Esty每晚都要在以 Elastic MapReduce Hadoop service为基础的亚马逊云计算平台上运行数十种Hadoop工作流程。根据一些详细技术报告,其运行差不多5000 Hadoop job是在2011年5月份来分析来自内部运行数据和外部活动数据如用户行为变化。
7. 图像处理(Image processing)。一家创业型企业Skybox Imaging,利用Hadoop来存储和处理高来自卫星捕捉的高分辨率图像,并尝试将这些信息及图像与地理格局的变化相对应。延伸阅读:Skybox新投7000万美元在云中处理图像
8. 欺诈检测(Fraud detection)。这已经是老生常谈了,在金融服务机构和情报机构中,欺诈检测一直都是关注的重点。一家企业,Zions Bancorporation向我讲述了他们是如何利用Hadoop来存储所有数据,并对客户交易和现货异常进行判断,对可能存在欺诈行为提前预警的。
9. IT安全(IT security)。如基础设施管理一样,企业通过使用Hadoop来处理机器产生的数据,以识别恶意软件和网络攻击模式。去年,ipTrus通过使用Hadoop来指定IP地址的名誉得分(在0-1之间的得分,O等于没有防线或未知的风险),从而使其他安全产品可以判断是否接受来自这些来源的通信,IBM和HP都使用ipTrust的安全产品。
10. 医疗保健(Health care)。我认为有很多方法可使更多的医疗保健医生从Hadoop中受益。但是最常见的仍然在搜索领域。去年,我介绍的Apixio,利用Hadoop平台开发了语义分析服务,可以对病人的健康提供医生、护士、及其他相关人士的回答。Apixio试图通过对医疗记录进行先进的技术分析,与一个简单的基于云计算的搜索引擎来帮助医生迅速了解病人相关病史,挽救生命。
下面是一些全球著名企业应用案例(整理自http://www.oatos.com/5174.html)
美国国会图书馆是全球最大的图书馆,自1800年设立至今,收藏了超过1.5亿个实体对象,包括书籍、影音、老地图、胶卷等,数字数据量也达到了235TB,但美国eBay拍卖网站,8千万名用户每天产生的数据量就有50TB,5天就相当于1座美国国会图书馆的容量。
在国外,不只eBay这种跨国电子商务业者感受到巨量数据的冲击,其他如美国连锁超市龙头Wal-Mart、发行信用卡的Visa公司等,在台湾如台湾集成电路(台积电)、中华电信等手上拥有大量顾客资料的企业,都纷纷感受到这股如海啸般来袭的Big Data巨量资料浪潮。这样的巨量数据并非是没有价值的数据,其中潜藏了许多使用者亲身经验的第一手原始数据,不少企业更是从中嗅到了商机。
这些企业纷纷向最早面临Big Data挑战的搜索引擎业者Google、Yahoo取经,学习处理巨量数据的技术和经验,其中,最受这些企业青睐,用来解决巨量数据难题的技术就是Apache基金会的分布式计算技术Hadoop项目。
Hadoop应用案例1-全球最大超市业者Wal-Mart
Wal-Mart分析顾客商品搜索行为,找出超越竞争对手的商机
全球最大连锁超市Wal-Mart利用Hadoop来分析顾客搜寻商品的行为,以及用户透过搜索引擎寻找到Wal-Mart网站的关键词,利用这些关键词的分析结果发掘顾客需求,以规画下一季商品的促销策略,甚至打算分析顾客在Facebook、Twitter等社交网站上对商品的讨论,期望能比竞争对手提前一步发现顾客需求。
Wal-Mart虽然十年前就投入在线电子商务,但在线销售的营收远远落后于Amazon。后来,Wal-Mart决定采用Hadoop来分析顾客搜寻商品的行为,以及用户透过搜索引擎寻找到Wal-Mart网站的关键词,利用这些关键词的分析结果发掘顾客需求,以规画下一季商品的促销策略。他们并进一步打算要分析顾客在Facebook、Twitter等社交网站上对商品的讨论,甚至Wal-Mart能比父亲更快知道女儿怀孕的消息,并且主动寄送相关商品的促销邮件,可说是比竞争对手提前一步发现顾客。
Hadoop应用案例2-全球最大拍卖网站eBay
eBay用Hadoop拆解非结构性巨量数据,降低数据仓储负载
经营拍卖业务的eBay则是用Hadoop来分析买卖双方在网站上的行为。eBay拥有全世界最大的数据仓储系统,每天增加的数据量有50TB,光是储存就是一大挑战,更遑论要分析这些数据,而且更困难的挑战是这些数据报括了结构化的数据和非结构化的数据,如照片、影片、电子邮件、用户的网站浏览Log记录等。
eBay是全球最大的拍卖网站,8千万名用户每天产生的数据量就达到50TB,相当于五天就增加了1座美国国会图书馆的数据量。这些数据报括了结构化的数据,和非结构化的数据如照片、影片、电子邮件、用户的网站浏览Log记录等。eBay正是用Hadoop来解决同时要分析大量结构化数据和非结构化的难题。
eBay分析平台高级总监Oliver Ratzesberger也坦言,数据分析最大的挑战就是要同时处理结构化以及非结构化的数据。
eBay在5年多前就另外建置了一个软硬件整合的平台Singularity,搭配压缩技术来解决结构化数据和半结构化数据的分析问题,3年前更在这个平台整合了Hadoop来处理非结构化数据,透过Hadoop来进行数据预先处理,将大块结构的非结构化数据拆解成小型数据,再放入数据仓储系统的数据模型中分析,来加快分析速度,也减轻对数据仓储系统的分析负载。
Hadoop应用案例3-全球最大信用卡公司Visa
Visa快速发现可疑交易,1个月分析时间缩短成13分钟
Visa公司则是拥有一个全球最大的付费网络系统VisaNet,作为信用卡付款验证之用。2009年时,每天就要处理1.3亿次授权交易和140万台ATM的联机存取。为了降低信用卡各种诈骗、盗领事件的损失,Visa公司得分析每一笔事务数据,来找出可疑的交易。虽然每笔交易的数据记录只有短短200位,但每天VisaNet要处理全球上亿笔交易,2年累积的资料多达36TB,过去光是要分析5亿个用户账号之间的关联,得等1个月才能得到结果,所以,Visa也在2009年时导入了Hadoop,建置了2套Hadoop丛集(每套不到50个节点),让分析时间从1个月缩短到13分钟,更快速地找出了可疑交易,也能更快对银行提出预警,甚至能及时阻止诈骗交易。
这套被众多企业赖以解决大数据难题的分布式计算技术,并不是一项全新的技术,早在2006年就出现了,而且Hadoop的核心技术原理,更是源自Google打造搜索引擎的关键技术,后来由Yahoo支持的开源开发团队发展成一套Hadoop分布式计算平台,也成为Yahoo内部打造搜索引擎的关键技术。