Hadoop精华问答 | 关于Hadoop核心技术的精华问答

戳蓝字“CSDN云计算”关注我们哦!


640?wx_fmt=png

随着科技时代的发展,大数据与云计算已势不可挡的架势席卷未来,不可否认,大数据时代已经来临,并将深刻地改变着我们的工作和生活。学习大数据技术,是时代的召唤,是社会对高薪技术人才的渴望,而想要了解大数据就一定要学习Hadoop。作为开发和运行处理大规模数据的软件平台,Hadoop是Appach中用java语言实现开源软件的框架,并实现在大量计算机组成的集群中对海量数据进行分布式计算。今天,我们就来看看关于Hadoop核心技术的问与答吧!


640?wx_fmt=gif1

Q:Hadoop与大数据有什么关系?


A:Hadoop,Spark和Storm是目前最重要的三大分布式计算系统,Hadoop常用于离线的复杂的大数据处理,Spark常用于离线的快速的大数据处理,而Storm常用于在线的实时的大数据处理。


单说,Hadoop或者说Hadoop生态圈,是为了解决大数据应用场景而出现的,它包含了文件系统、计算框架、调度系统等,Spark是Hadoop生态圈里的一种分布式计算引擎。


640?wx_fmt=gif2

Q:Hadoop在大数据中的作用?


A:Hadoop大数据处理的相关产品有很多,如Hive、HBase、Spark、Storm、Mahout等等,用户的需求也能够日益得到满足。相比于使用场景已基本固化的关系型数据库,Hadoop功能更加灵活。并且Hadoop是开源项目,有开源社区和大多技术者的支持,开发维护也较为方便。


640?wx_fmt=gif3

Q:大的文件拆分成很多小的文件后,怎样用Hadoop进行高效的处理这些小文件?以及怎样让各个节点尽可能的负载均衡?


A:Hadoop在处理大规模数据时是很高效的,但是处理大量的小文件时就会因为系统资源开销过大而导致效率较低,针对这样的问题,可以将小文件打包为大文件,例如使用SequcenFile文件格式,例如以文件签名为key,文件内容本身为value写成SequcenFile文件的一条记录,这样多个小文件就可以通过SequcenFile文件格式变为一个大文件,之前的每个小文件都会映射为SequcenFile文件的一条记录。


在Hadoop集群中负载均衡是非常关键的,这种情况的导致往往是因为用户的数据分布的并不均衡,而计算资源槽位数确实均衡分布在每个节点,这样在作业运行时非本地任务会有大量的数据传输,从而导致集群负载不均衡,因此解决不均衡的要点就是将用户的数据分布均衡,可以使用hadoop内置的balancer脚本命令。对于因为资源调度导致的不均衡则需要考虑具体的调度算法和作业分配机制。


640?wx_fmt=gif4

Q:Hadoop和Spark有哪些不同呢?


A:首先,Hadoop 和Spark 两者都是大数据框架,但解决问题的层面有所不同。Hadoop更多是一个分布式数据基础设施,将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,节省了硬件成本 ,而Spark,则是那么一个专门用来对那些分布式存储的大数据进行处理的工具,依赖于分布式数据存储。

其次, Spark要比Hadoop的MapReduce计算速度快很多。Spark,它会在内存中以接近“实时”的时间完成所有的数据分析,从集群中读取数据,完成所有必须的分析处理,将结果写回集群。对于动态数据实时分析而言,Spark要比Hadoop性能较为优越。比如实时的市场活动、网络安全分析等方面的应用。


640?wx_fmt=gif5

Q:之前碰到一个情况是在reduce阶段老是卡在最后阶段很长时间,在网上查的说是有可能是数据倾斜,这个有什么解决方法吗?


A:reduce分为3个子阶段:shuffle、sort和reduce,如果reduce整个过程耗时较长,建议先看一下监控界面是卡在哪个阶段,如果是卡在shuffle阶段往往是网络阻塞问题,还有就是某reduce数据量太大,也就是你所说的数据倾斜问题,这种问题往往因为某个key的value太多,解决方法是:第一,默认的partiiton可能不适合你的需求,你可以自定义partiiton;第二就是在map端截断,尽量让达到每个reduce端的数据分布均匀。


640?wx_fmt=png

小伙伴们冲鸭,后台留言区等着你!

关于Spring,今天你学到了什么?还有哪些不懂的?除此还对哪些话题感兴趣?快来留言区打卡啦!留言方式:打开第XX天,答:……

同时欢迎大家搜集更多问题,投稿给我们!风里雨里留言区里等你~


福利

1、扫描添加小编微信,备注“姓名+公司职位”,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!


Hadoop精华问答 | 关于Hadoop核心技术的精华问答_第1张图片

2、公众号后台回复:白皮书,获取IDC最新数据白皮书整理资料!


推荐阅读:

  • 云计算之基,一文带你速懂虚拟化KVM和XEN

  • OpenStack网络的下一步原来这么走 | 技术头条

  • 用一枚比特币环游世界? 他是不是疯了...

  • 程序员逆袭为美国最佳 CEO,他说因为爱情

  • 斯坦福区块链匪帮传奇,那些睡地毯、没日没夜写代码的编程少年

  • Erlang 之父去世,他留给程序员两点忠告

  • 开什么玩笑?股票价格如何经得起AI的推敲?| 技术头条


640?wx_fmt=png 真香,朕在看了!

你可能感兴趣的:(Hadoop精华问答 | 关于Hadoop核心技术的精华问答)