【译】mahout in action 1.4 扩展性Scaling up

当提供大量的优良的输入数据时,这些技术中的那一个才可以最好的操作。有时候,这些技术不仅必须在大量的输入数据上操作,而且必须很快的产生结果。可扩展性,很快成为这些因素的一个主要问题。

根据粗略的估计,Picasa甚至在三年前可能已经服务器托管了5亿的图片。这意味着每日成千上万的新的图片必须被分析。通过它自己来分析一张图片没有很大的问题,虽然它重复成千上万次。但是,学习阶段需要同时地数以亿计的每张图片的信息,一定规模的计算对于单一的机器来说是显然是行不通的。

根据类似的分析,谷歌新闻中心每天查询大约3.5百万的新的新闻文章。虽然就其本身来说这不是很大的量,但考虑到这些文章必须与近来的文章一起被聚集,并且需要在短时间内完成。

Netflix发行的Nerflix奖,额定数据的子集包含了一亿个等级。大概这是因为竞争的目的而发布的,所以Netflix实际拥有并必须处理,用来创造推荐的数据的总额扩大了很多倍。

这些技术在上下文中是有必要的展开,在上下文里输入的数据总额是非常巨大的。如此巨大的数据量,在一台电脑上,甚至在一个强大的电脑上处理它,都是行不通的。因此,实施这些技术的人,没有人能够忽视这个规模问题。这就是为什么Mahout使可扩展性成为头等重要的事情,以及为什么这本书会集中有效的处理大型的数据集合,而其他技术则不会采用这种方式。

1.5.1 MapReduce 和 Hadoop

Mahout利用Apache Hadoop 项目,这个项目是一个基于java的开源实现mapreduce(http://labs.google.com/papers/mapreduce.html) 。mapreduce是一个分布式计算框架,并且在谷歌内部普遍使用。Mapreduce是一个设计范式,它起先听起来可能有些古怪,或者太简单而不能强有力。Mapreduce框架适用于这些问题,它的输入数据是一套键值对。一个“map”的作用是把这些键值对,变成其他中间结果的键值对。一个“reduce”的作用是以某种方式,将每个中间结果的键合并所有的值来产生结果。

事实上,很多难题可以被MapReduce实现,或者解决它们。这个框架本身有很好的并发性:所有的处理都是独立的,并且可以被分割到很多的机器上。请参考这里了解关于hadoop的更多知识(http://hadoop.apache.org/common/docs/current/mapred_tutorial.html).

你可能感兴趣的:(apache,mapreduce,hadoop,框架,UP)