【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏(四)

持续分享有用、有价值、精选的优质大数据面试题

致力于打造全网最全的大数据面试专题题库

【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏(四)_第1张图片

31、如果发现现有集群出现数据倾斜,生产环境中 HBase 出现数据倾斜了该如何解决呢?出现数据倾斜的原因到底是什么,换句话说,导致数据倾斜的罪魁祸首到底时开发,运维还是软件自身缺陷呢?
 

参考答案:
       导致数据倾斜的原因是因为 rowkey 设计的不合理,跟 HBase 本身关系不大,这个我们在 HBase 组件运维的时候会讲解

32、最近大数据运维 JD 上写着"负责公司大数据平台和机器学习平台的运维工",这两个平台是否就是咱们的 CDH 集群呢?能介绍一下啊机器学习平台的日常运维都有哪些吗?
 

参考答案:
       按老师的理解都是 hadoop 平台的运维,不过还要具体看企业自身的情况。

33、请问一下,可以限制一个队列中 container 的数量吗?
 

参考答案:
       假如队列中有 1000 CPU, 那么该队列最多可以同时运行 1000 container,可以通过这个简单的转换进行限制。

34、老师您遇到 YARN 资源还剩很多(还剩下 50%左右),但是 MapReduce任务就是卡着不动的场景吗?我把 job 并发度降低就好了。但原因在哪我依旧不知道...
 

参考答案:
       这个要具体详细查看原因了,卡着不动不代表是整个集群资源的问题,可能是任务本身的数据倾斜,也可能是 GC 问题,也可能是任务所在的服务器负载过高,也可能是所在队列的资源问题

35、CDH 是开源的产品,但是 CM 是付费的呀,我们在生产环境中使用 CM 有向 cloudera 公司交钱是否会收到律师函呢?但是不用 CM 我们又不知道如何管理(搭建,扩容,监控等)CDH 集群了,如果公司不愿意交钱的话我们大数据运维该如何处理呢?
 

参考答案:
       以后都没有免费的了,不愿意交钱的话可以使用开源社区版,节点不多的话可以人肉运维,自搭建监控平台,节点多的话自己可以写脚本或借助自助化工具运维,比如 ansible 等。

36、老师,数据仓库到底是个什么东东呢?能给我们举个例子说明数仓的角色定位及功能吗?还有就是数据仓库是大数据运维工程师搭建还是大数据开发它们自建搭建呢?
 

参考答案:
       数据仓库主要是大数据开发搭建的,数据仓库主要是根据采集的数据进行清洗、加工、汇总生成多维度的报表数据,给高层领导看到,运维人员不参与数据清洗、加工等工作。

37、之前回复得知,线上集群规模是以集群为粒度划分业务线,跨集群间数据也是需要交互,这种业务是如何根据集群来划分?还是说,它们之前数据的交互实时性不高?跨了集群的数据具体是如何能打通的?DistCp跨集群间的数据迁移也觉得它慢。根本无法满足要求。它可配置的参数也配置了。

参考答案:

    实时性要求不好,我们机房有万兆带宽的专线,跨集群同步数据不会同步全量数据,在源端集群会先经过数据过滤,只传输需要的数据。

38、HDFS SHELL命令方式去监控HDFS文件信息这些,如前边就提问的查询文件数,Block块等,对于专业人士偶尔查询,还行,但对于一个外行的人,连如何登录服务器都不知道,但他就是想知道集群的使用情况,老师是如何将这种资讯汇报他们的,或者是收集方案?

参考答案:

    我们将收集的数据写入ES,可以使用kibana制作报表。

39、DataNode节点间数据均衡这个场景,大规模集群下必定会存在低配置节点,如:CPU/内存/数据盘,这里就仅聊数据盘这个,如:A节点100G,B节点500G,这种情况下,是怎样均衡节点数据的?5%值吗?这里怎么均衡都是无法达到预期的均衡值呀,是直接将A节点下线吗?又比如说同一节点C,挂载了3块数据盘,分别为, /mnt/a/10G,/mnt/b/100G,/mnt/c/500G,这种DataNode节点的均衡数据又应该如何解决的,1000+规模的HDFS应该也不会是3.x版本吧?对于不支持Disk Banancer的2.X版本,解决方案有吗?

参考答案:

    首先异构磁盘确实会带来问题,没有绝对的均衡,存储比率不超过5%算是均衡了;HDFS在写入时有两种选择卷(磁盘)的策略:

一是基于轮询的策(RoundRobinVolumeChoosingPolicy),

二是基于可用空间的策略(AvailableSpaceVolumeChoosingPolicy)将这个配置dfs.datanode.fsdataset.volume.choosing.policy为

org.apache.hadoop.hdfs.server.datanode.fsdataset.AvailableSpaceVolumeChoosingPolicy

40、NodeManager节点会将当前节点的DataNode实时上报给RescourceManager,但您之前说HDFS集群的唯一访问入口是NameNode,那是否每台NodeManager在收集本地的DataNode数据时都得访问NameNode获取呢?如果是的话也太浪费HDFS性能了吧,如果不是那是NodeManager是采用什么机制实现不经过NameNode就能获取一个DataNode的数据呢?

参考答案:

       “NodeManager节点会将当前节点的DataNode实时上报给RescourceManager”,这个说法是不对的,应该是DataNode上报自己的block给NameNode,RescourceManager和NodeManager管的是资源而不是数据。当作业要读取hdfs数据的时候仅仅从NameNode上获取数据的位置,而不会获取数据本身,得到数据的位置后作业再去找DataNode获取数据本身。

持续分享有用、有价值、精选的优质大数据面试题

致力于打造全网最全的大数据面试专题题库

你可能感兴趣的:(大数据运维,面试题,大数据实战精英+架构师,大数据,hadoop,运维,cdh,面试)