Java内容的复习-大数据

Spark

Spark streamingstorm的区别是(两者都是分布式流处理框架)http://www.jdon.com/46591 

1.Spark支持保持状态

2.Spark有数据平滑窗口(sliding window),而后者需要自己去维护这个窗口

3.Spark是需要到一个duration才开始处理数据,storm是实时处理数据,有数据就处理。Storm只有秒内的延迟

4. Storm,每个单独的记录当它通过系统时必须被跟踪,所以Storm能够至少保证每个记录将被处理一次,但是在从错误中恢复过来时候允许出现重复记录。这意味着可变状态可能不正确地被更新两次。另一方面,Spark Streaming只需要在批级别进行跟踪处理,因此可以有效地保证每个mini-batch将完全被处理一次,即便一个节点发生故障。简而言之,如果你需要秒内的延迟,Storm是一个不错的选择,而且没有数据丢失。如果你需要有状态的计算,而且要完全保证每个事件只被处理一次,Spark Streaming则更好。Spark Streaming编程逻辑也可能更容易,因为它类似于批处理程序(Hadoop),特别是在你使用批次(尽管是很小的)

5.  Spark Streaming一个好的特性是其运行在Spark这样你能够你编写批处理的同样代码,这就不需要编写单独的代码来处理实时流数据和历史数据

 

Storm

storm框架 http://storm.incubator.apache.org/documentation/Concepts.html

storm保证消息不丢

http://xumingming.sinaapp.com/127/twitter-storm%E5%A6%82%E4%BD%95%E4%BF%9D%E8%AF%81%E6%B6%88%E6%81%AF%E4%B8%8D%E4%B8%A2%E5%A4%B1/

 

 

Storm分布式实时流计算框架相关技术总结

http://www.cr173.com/html/18637_1.html

Storm

http://www.blogjava.net/killme2008/archive/2011/11/17/364112.html

 

 

HBase

Hadoop是一个能够对大量数据进行分布式处理的软件框架 http://baike.baidu.com/view/908354.htm?fr=aladdin

Hadoop的优缺点介绍:

(一) 优点:

(一)高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖;

(二)高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。

(三)高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

(四)高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

   低成本。与一体机、商用数据仓库以及QlikViewYonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。

(二) 缺点:

(一)不适合低延迟数据访问。

(二)无法高效存储大量小文件。

(三)不支持多用户写入及任意修改文件(支持删除文件)

 

·Scribe

http://www.cnblogs.com/brucewoo/archive/2011/12/13/2285482.html

实时分布式日志收集系统的比较 http://www.kankanews.com/ICkengine/archives/89351.shtml

Scribe示例 http://blog.csdn.net/amuseme_lu/article/details/6328013

·Hive

·Pig

·Zookeeper

·Flume

你可能感兴趣的:(面试)