源地址:http://cloud.csdn.net/a/20110610/299479.html
从Yahoo的 Web搜索研究,到Facebook的数据分析,再到百度的搜索日志分析、淘宝的数据魔方服务,Hadoop的身影都已经到处闪现。简单来讲,社会化数据时代的企业需要像八爪鱼一样,能够发现并拿到他需要的数据,而Hadoop技术的好处就是,不但可以方便地嵌入到各种实际应用中以实现全文搜索/索引,而且可以进行数据抓取。比如雅虎,通过应用这一技术,几乎可以实时分析每一个页面点击并优化内容的排名,每7分钟就能更新一次结果。
“PB级别的企业数据仓库已经可以大规模并行处理数据并且可以对海量数据的分析数据进行高效的管理”,Forrester的分析师James Kobielus表示。
以Hadoop为代表的海量数据处理开源工具无疑是吸引人的,“开源工具可以查看代码,这样开发者可以找到他们整合时里面是什么。在几乎所有的案例中,开源分析都更具性价比和灵活性。”Revolution Analytics的Minelli表示。
毫无疑问,Hadoop在企业级数据仓库应用上有许多优势,比如:
Hadoop是开源的。它能带来较低的成本,无需支付高昂的授权许可费。
其次是其灵活性,允许用户自己修改代码。
最后是可以获得具有领先且创新性的Hadoop社区的支持。
更长远的来看,开源Hadoop使企业有了新的分析技术,能够更好的处理非结构化的语言,比如图片等。而不需要完全寄托于传统数据仓库厂商的分析技术,开源的Hadoop给了企业创新的机会。
Kobielus指出,Hadoop核心之所以成为企业数据仓库最佳解决方案,原因在于其数据库分析方式与供应商无关。再加上MapReduce框架的强大支持,将使其成为完美的企业级云数据仓库。
Hadoop最佳实践案例
企业使用Hadoop在云计算中能够做什么?Kobielus列举出三个受欢迎的案例。
1、结构化与非结构化数据
现在我们在听到海量数据的时候,主要的关注点通常会在一些互联网巨头上,像谷歌和Twitter都在使用,但互联网其实并没有创造大数据,也不会仅仅因为Hadoop就得到广泛应用。
在CSDN之前对1446个数据库管理人员的调查中,有78%的被调查者表示,非结构化数据是他们当前面临的最大问题,超过一半的人认为,在未来的三年中,非结构化数据将超过过去10年的结构化数据总和。
实际上,金融服务企业已经处理大型数据负载相当长的时间了,尽管到目前为止,其数据处理的效果不一定是最杰出的。企业最初时常创建并得到少量松散的数据。现在他们开始通过私有云进行试验,而且通过Hadoop和MapReduce技术关联数据方法,通过计算集群完成高速数据分析。
2、通过Hadoop日志对事件进行分析,主要应用是Web搜索
Hadoop的最常见用法之一是Web搜索。虽然它不是惟一的软件框架应用程序,但作为一个并行数据处理引擎,它的表现非常突出。Hadoop最有趣的方面之一是Map and Reduce流程,它受到Google开发的启发。这个流程称为创建索引,它将Web爬行器检索到的文本Web页面作为输入,并且将这些页面上的单词的频率报告作为结果。然后可以在整个Web搜索过程中使用这个结果从已定义的搜索参数中识别内容。
3、内容层分析
借助Hadoop,我们可以线性扩展运行在硬件上的集群来集成更大更丰富的数据集。能够在之前没有整合的异构数据源上运行分析,然后在同样的数据上有规模地运行分析。
实际上,对于专业的数据分析人员而言,这个功能无疑会让他们喜欢,因为基于Mapreduce建模的Hadoop所提供的数据挖掘功能,这极大他们了解到客户的最新行为分析。如Flip Kromer(InfoChimps 创办人之一)所描述的:“web从一个对每件事都了解一点的场所发展成为对一件事了解其全部的场所”。
Hadoop的未来
可以预见的是,Hadoop作为企业级数据仓库体系结构核心技术,在未来的10年中它将会保持增长。
尽管从技术上而言,Hadoop的MapReduce在性能上仍然有一定局限性的:比如MapReduce没有索引,只有靠强大的运算能力来处理;此外,MapReduce本身存在一些lower-level实现的问题, 特别是skew和数据交换等等。
Cloudscale创始人和首席执行官Bill McColl也曾指出,从性能上而言,下一代的架构需要在MapReduce/Hadoop的基础上有10——10000倍的性能提高。
“但这些都不是问题”,Kobielus表示,“在这些问题解决之前,Hadoop会有广泛的采用。因为相对于传统的企业级数据仓库体系结构,Hadoop是最好的。”