Hadoop&Spark

Hadoop

Hadoop简介

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。

Hadoop与我们的项目有什么关系

Hadoop提供HDFS的分布式数据存储功能和MapReduce的数据处理功能。使用Hadoop原因是我可以使用更多的廉价计算机实现分布式计算和数据存储。试想一下,我们既然做的是一个新闻推荐,那么海量的新闻必须有,没有海量的数据,如何进行大数据分析?

Hadoop的部署

我第一次使用的是自己的windows系统做了一个单机版。后序会给出联机版Hadoop的脚本和构建Hadoop集群的详细过程。

网上关于windows部署hadoop的教程很多。我这里不再赘述。给出两个连接自己操作一下就可以了。

依封剑白关于单机Hadoop的操作实践

PCWen关于Hadoop单机版的操作实践

尚待补充hadoop集群构建和自动化脚本


                                                                                                                                                       第一次编辑      2019-12-25 

Spark

Spark简介

 Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。

Spark与我们的项目有什么关系

spark比MapReduce计算速度快,是我们所需要的。

Spark的部署

不介绍了。会补充集群自动化脚本。

尚待补充集群构建和自动化脚本


                                                                                                                                                       第一次编辑      2019-12-25 

 

你可能感兴趣的:(Recommend_News,hadoop,scala,spark)