code学习社

hadoop面试问题

1当前你们公司使用的Hadoop版本是什么

Hadoopcdh-5.7.6/hadoop-2.6.0

2HDFS常见的数据压缩格式有哪些，介绍其中一种详细的实现方式

Gzip 优点是压缩率高，速度快。Hadoop支持与直接处理文本一样。

缺点不支持split，当文件压缩在128m内，都可以用gzip

Izo  优点压缩速度快 合理的压缩率；支持split，是最流行的压缩格式。支持native库；

缺点 比gzip压缩率低，hadoop本身不支持，需要安装；

在应用中对lzo格式文件需要处理如 指定inputformat为lzo格式

Snappy压缩 高速压缩率合理支持本地库。不支持split，hadoop不支持 要安装linux没有对应命令；当MR输出数据较大，作为到reduce数据压缩格式

Bzip2 支持split，很高的压缩率，比gzip高，hadoop支持但不支持native，linux自带命令使用方便。缺点压缩解压速度慢

3,HDFS垃圾回收的时间模式是多久，如何修改该时间

们知道linux是没有垃圾回收站的，而hdfs同样默认是没有的，但是hdfs是可以开启垃圾回收站的。

1、我们可以登录官网，选2.8.5版本， https://hadoop.apache.org/docs/r2.8.5/ 拉到页面最下面点击core-default.xml

2、然后在页面按ctrl + F 全局搜索"trash"，找到fs.trash.interval和fs.trash.checkpoint.interval

可以看看在其右边的注释，英文不好的可以用google的网页翻译一下哈

fs.trash.interval

0禁用。

该值一般设1440分钟，即1天，保留垃圾回收站的文件或文件夹1天超过就自动删除

fs.trash.checkpoint.interval

0, the value is set to the value of fs.trash.interval

即，如果为0，就跟fs.trash.interval设的值一样。默认设为0。

比如上面的fs.trash.interval值设为1440时，那fs.trash.checkpoint.interval的值就等于1440。

3、开始在core-site.xml设置、添加参数。见下图

4、重启一下hdfs

(1) 先停止 [hadoop@hadoop001 hadoop-2.6.0-cdh5.7.0]$ sbin/stop-dfs.sh

(2) 再启动 [hadoop@hadoop001 hadoop-2.6.0-cdh5.7.0]$ sbin/start-dfs.sh

5、尝试删除hdfs的文件

[hadoop@hadoop001 hadoop-2.6.0-cdh5.7.0]$ hdfs dfs -rm -f /user/hadoop/input

注意看抛出的一句话：18/10/16 00:10:52 INFO fs.TrashPolicyDefault: Moved: 'hdfs://hadoop001:9000/user/hadoop/input' to trash at: hdfs://hadoop001:9000/user/hadoop/.Trash/Current/user/hadoop/input

意思是将input里面的文件移动到另一个路径hdfs://hadoop001:9000/user/hadoop/.Trash/Current/user/hadoop/input，等于mv了。

可以验证一下回收站那里看看是否有数据，即用cat命令查看一下是否有被删的数据

[hadoop@hadoop001 hadoop-2.6.0-cdh5.7.0]$ hdfs dfs -cat hdfs://hadoop001:9000/user/hadoop/.Trash/Current/user/hadoop/input

数据还是有的。所以其实等于是mv到另一个路径了

最后，请注意：在生产上的hdfs垃圾回收必须开启，一般设7天或14天。

HDFS如何生效机架感知，取消机架感知有什么问题

一、背景介绍

Hadoop的设计目的：解决海量大文件的处理问题，主要指大数据的存储和计算问题，其中，HDFS解决数据的存储问题；MapReduce解决数据的计算问题

Hadoop的设计考虑：设计分布式的存储和计算解决方案架构在廉价的集群之上，所以，服务器节点出现宕机的情况是常态。数据的安全是重要考虑点。HDFS的核心设计思路就是对用户存进HDFS里的所有数据都做冗余备份，以此保证数据的安全

那么Hadoop在设计时考虑到数据的安全，数据文件默认在HDFS上存放三份。显然，这三份副本肯定不能存储在同一个服务器节点。那怎么样的存储策略能保证数据既安全也能保证数据的存取高效呢？

HDFS分布式文件系统的内部有一个副本存放策略：以默认的副本数=3为例：

1、第一个副本块存本机

2、第二个副本块存跟本机同机架内的其他服务器节点

3、第三个副本块存不同机架的一个服务器节点上

好处：

1、如果本机数据损坏或者丢失，那么客户端可以从同机架的相邻节点获取数据，速度肯定要比跨机架获取数据要快。

2、如果本机所在的机架出现问题，那么之前在存储的时候没有把所有副本都放在一个机架内，这就能保证数据的安全性，此种情况出现，就能保证客户端也能取到数据

HDFS为了降低整体的网络带宽消耗和数据读取延时，HDFS集群一定会让客户端尽量去读取近的副本，那么按照以上头解释的副本存放策略的结果：

1、如果在本机有数据，那么直接读取

2、如果在跟本机同机架的服务器节点中有该数据块，则直接读取

3、如果该HDFS集群跨多个数据中心，那么客户端也一定会优先读取本数据中心的数据

但是HDFS是如何确定两个节点是否是统一节点，如何确定的不同服务器跟客户端的远近呢？答案就是机架感知。！！！！

在默认情况下，HDFS集群是没有机架感知的，也就是说所有服务器节点在同一个默认机架中。那也就意味着客户端在上传数据的时候，HDFS集群是随机挑选服务器节点来存储数据块的三个副本的。

那么假如，datanode1和datanode3在同一个机架rack1，而datanode2在第二个机架rack2，那么客户端上传一个数据块block_001，HDFS将第一个副本存放在dfatanode1，第二个副本存放在datanode2，那么数据的传输已经跨机架一次（从rack1到rack2），然后HDFS把第三个副本存datanode3，此时数据的传输再跨机架一次（从rack2到rack1）。显然，当HDFS需要处理的数据量比较大的时候，那么没有配置机架感知就会造成整个集群的网络带宽的消耗非常严重。

下图是没有配置机架感知的HDFS集群拓扑：

二、配置机架感知

1、修改配置文件core-site.xml

给NameNode节点的core-site.xml配置文件增加一项配置：

#!/bin/bash

HADOOP_CONF=/home/hadoop/apps/hadoop-2.6.5/etc/hadoop

while [ $# -gt 0 ] ;

nodeArg=$1

exec<${HADOOP_CONF}/topology.data

result=""

while read line

ar=( $line )

if [ "${ar[0]}" = "$nodeArg" ]||[ "${ar[1]}" = "$nodeArg" ]

then

result="${ar[2]}"

done

shift

if [ -z "$result" ]

then

echo -n "/default-rack"

else

echo -n "$result"

done

那么通过阅读脚本内容知道，我们需要准备一个topology.data的文件。topology.data的内容如下：

192.168.123.102 hadoop02 /switch1/rack1

192.168.123.103 hadoop03 /switch1/rack1

192.168.123.104 hadoop04 /switch2/rack2

192.168.123.105 hadoop05 /switch2/rack2

其中switch表示交换机，rack表示机架

需要注意的是，在Namenode上，该文件中的节点必须使用IP，使用主机名无效，而ResourceManager上，该文件中的节点必须使用主机名，使用IP无效，所以，最好IP和主机名都配上。

2、验证

以上配置做好之后，启动集群，启动完集群之后，在使用命令：

hdfs dfsadmin -printTopology

查看整个集群的拓扑图：

三、补充

1、增加datanode节点

增加datanode节点，不需要重启namenode

非常简单的做法：在topology.data文件中加入新加datanode的信息，然后启动起来就OK

2、节点间距离计算

有了机架感知，NameNode就可以画出下图所示的datanode网络拓扑图。D1,R1都是交换机，最底层是datanode。则H1的rackid=/D1/R1/H1，H1的parent是R1，R1的是D1。这些rackid信息可以通过topology.script.file.name配置。有了这些rackid信息就可以计算出任意两台datanode之间的距离，得到最优的存放策略，优化整个集群的网络带宽均衡以及数据最优分配。

distance(/D1/R1/H1，/D1/R1/H1)=0 相同的datanode

distance(/D1/R1/H1，/D1/R1/H2)=2 同一rack下的不同datanode

distance(/D1/R1/H1，/D1/R2/H4)=4 同一IDC下的不同datanode

distance(/D1/R1/H1，/D2/R3/H7)=6 不同IDC下的datanode

HDFS常见的运维操作有哪些，哪些操作是高危的，如果高危操作出现问题，如何解决

6.HDFS常见的故障是什么，如何处理，是否可以给出三种预案来防范大部分常见故障

1、hadoop-root-datanode-master.log 中有如下错误：

ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Incompatible namespaceIDs in
导致datanode启动不了。
原因:每次namenode format会重新创建一个namenodeId,而dfs.data.dir参数配置的目录中包含的是上次format创建的id,和dfs.name.dir参数配置的目录中的id不一致。namenode format清空了namenode下的数据,但是没有清空datanode下的数据,导致启动时失败,所要做的就是每次fotmat前,清空dfs.data.dir参数配置的目录.
格式化hdfs的命令

Shell代码

hadoop namenode -format
2、如果datanode连接不上namenode，导致datanode无法启动。
ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Call to ... failed on local exception: java.net.NoRouteToHostException: No route to host
关闭防火墙

Shell代码

service iptables stop
机器重启后，防火墙还会开启。
3、从本地往hdfs文件系统上传文件，出现如下错误：
INFO hdfs.DFSClient: Exception in createBlockOutputStream java.io.IOException: Bad connect ack with firstBadLink
INFO hdfs.DFSClient: Abandoning block blk_-1300529705803292651_37023
WARN hdfs.DFSClient: DataStreamer Exception: java.io.IOException: Unable to create new block.
解决方法：
关闭防火墙：

Shell代码

service iptables stop
禁用selinux:
编辑 /etc/selinux/config文件，设置“SELINUX=disabled”
4、安全模式导致的错误
org.apache.hadoop.dfs.SafeModeException: Cannot delete ..., Name node is in safe mode
在分布式文件系统启动的时候，开始的时候会有安全模式，当分布式文件系统处于安全模式的情况下，文件系统中的内容不允许修改也不允许删除，直到安全模式结束。安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性，同时根据策略必要的复制或者删除部分数据块。运行期通过命令也可以进入安全模式。在实践过程中，系统启动的时候去修改和删除文件也会有安全模式不允许修改的出错提示，只需要等待一会儿即可。

Java代码

hadoop dfsadmin -safemode leave

关闭安全模式
5、以本地模式运行hadoop时，抛异常
ERROR security.UserGroupInformation: PriviledgedActionException as:hadoop cause:java.net.UnknownHostException: hadoop: hadoop: Name or service not known
Exception in thread "main" java.net.UnknownHostException: hadoop: hadoop: Name or service not known
把/etc/hostname文件中的主机名加入到/etc/hosts文件中，问题解决。
6、格式化hdfs文件系统时，出错：
Format aborted in /home/hadoop/dfs/name
/home/hadoop/dfs/name 是 dfs.name.dir 配置的本地路径，把这个目录删除，
再格式化就可以了。
7、datanode无法启动，datanode的日志中有error：
ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: All directories in dfs.data.dir are invalid
发现日志前一行有warn：WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Invalid directory in dfs.data.dir: Incorrect permissi on for /home/hadoop/dfs/data, expected: rwxr-xr-x, while actual: rwxrwxr-x

按照日志修改了目录的访问权限，问题解决。

7.你经历过哪些严重的Hadoop故障

8.HDFS常用的IO压力测试工具有哪些

LoadRunner：LoadRunner是一种预测系统行为和性能的负载测试工具，通过模拟实际用户的操作行为进行实时性能监测，来帮助测试人员更快的查找和发现问题。LoadRunner适用于各种体系架构，能支持广泛的协议和技术，为测试提供特殊的解决方案。企业通过LoadRunner能最大限度地缩短测试时间，优化性能并加速应用系统的发布周期。

LoadRunner提供了3大主要功能模块：VirtualUser Generator（用于录制性能测试脚本），LoadRunner Controller（用于创建、运行和监控场景），LoadRunner Analysis（用于分析性能测试结果）既可以作为独立的工具完成各自的功能，又可以作为LoadRunner的一部分彼此衔接，与其他模块共同完成软件性能的整体测试。

Apache JMeter

JMeter作为一款广为流传的开源压测产品，最初被设计用于Web应用测试，如今JMeter可以用于测试静态和动态资源，例如静态文件、Java 小服务程序、CGI 脚本、Java 对象、数据库、FTP服务器等等，还能对服务器、网络或对象模拟巨大的负载，通过不同压力类别测试它们的强度和分析整体性能。另外，JMeter能够对应用程序做功能测试和回归测试，通过创建带有断言的脚本来验证你的程序返回了你期望的结果。为了最大限度的灵活性，JMeter允许使用正则表达式创建断言。

JMeter的特点包括对HTTP、FTP服务器、数据库进行压力测试和性能测试；完全的可移植性；完全 Swing和轻量组件支持包；完全多线程；缓存和离线分析/回放测试结果；可链接的取样器；具有提供动态输入到测试的功能；支持脚本编程的取样器等。在设计阶段，JMeter能够充当HTTP PROXY（代理）来记录浏览器的HTTP请求，也可以记录Apache等WebServer的log文件来重现HTTP流量，并在测试运行时以此为依据设置重复次数和并发度（线程数）来进行压测。

NeoLoad

NeoLoad是Neotys出品的一种负载和性能测试工具，可真实地模拟用户活动并监视基础架构运行状态，从而消除所有Web和移动应用程序中的瓶颈。NeoLoad通过使用无脚本GUI和一系列自动化功能，可让测试设计速度提高5-10倍，并将维护的脚本维持在原始设计时间的10％，同时帮助用户使用持续集成系统自动进行测试。

NeoLoad支持WebSocket、HTTP1/ 2、GWT、HTML5、AngularJS、Oracle Forms等技术协议，能够监控包括操作系统，应用服务器，Web服务器，数据库和网络设备在内的各种IT基础设施，同时可以通过Neotys云平台发起外部压力。

Hadoop哪些地方依赖于主机名，是否可以全部替换为IP呢（HDFS/YARN/SPARK）

NameNode、DataNode和SecondaryNameNode都是以hostname启动的了。

Hadoop 最底部是HDFS文件系统，它存储Hadoop集群中所有存储节点上的文件。HDFS的上一层是MapReduce引擎，该引擎由JobTrackers和TaskTrackers组成。HDFS默认的最基本的存储单位是64M的数据块。在最上层有 4 个独立的实体，即客户端、JobTracker、TaskTracker 和分布式文件系统。客户端提交 MapReduce 作业；JobTracker 协调作业的运行；JobTracker 是一个 Java 应用程序，它的主类是 JobTracker；TaskTracker 运行作业划分后的任务，TaskTracker 也是一个 Java 应用程序，它的主类是 TaskTracker。Hadoop 运行 MapReduce 作业的步骤主要包括提交作业、初始化作业、分配任务、执行任务、更新进度和状态、完成作业等 6 个步骤。 1.对于一个整体的分布式系统来说，HDFS包含两个重要角色，一个是中心节点Namenode，一个是数据节点Datanode。其中Namenode用来记录文件目录结构树，即元数据fsimag，和各种修改操作信息，即editlog。而Datanode则是数据真正存放的地方，Namenode获得RPC请求后会将这些请求根据特定算法分发到一些Datanode上。 2. 由于存在单点结构，因此Namenode机器的性能必须远超Datanode机器，因为其负载了所有RPC访问请求，每个RPC请求引起的查询、IO、audit等动作都会消耗系统资源，Namenode的性能将会极大影响HDFS文件系统的整体性能。而相对来说Datanode的性能就不是那么重要了，当然这也区分具体的应用，例如对于HBase来说，由于Regionserver和Datanode同处于一台机器，彼此之间存在数据的交换，因此与Datanode的IO性能是有关联的，性能好坏成正比关系。（二）HDFS性能测试常用工具例如Terasort，Slive，DFSIO从文件系统角度出发的性能测试工具，大多不离吞吐率这个指标。转化到HDFS这边，则是rpc次数、opt次数、sync时长这样的指标信息，然而Terasort是个异类。这个工具不仅考验文件系统的性能，更是对MR自动排序能力的一种检测。

10HDFS有哪些核心的指标需要采集和监控，最重要的三个指标是什么

HDFS节点下线，如何提升其下线速度

在运行中的ambari hadoop集中中动态添加或删除节点

1. 下线节点
1) namenode节点上dfs.exclude文件，看配置文件怎么配置的，里每行添加一个服务器名，如我要下线server7,server8,server9,则如下：
server7
server8

resourcemanager节点上yarn.exclude文件里每行添加一个服务器名，如我要下线server7,server8,server9,则如下：
server7
server8
2) 选择任意一台节点执行：
hdfs dfsadmin -refreshNodes
yarn rmadmin -refreshNodes
yarn node -list

3) 这时可以通过hdfs dfsadmin -report或者web界面查看该datanode状态转为Decommission In Progress。
如果节点上数据比较多，下线会比较慢，等待。
当datanode完成数据迁移时，姿态会变为Decommissioned，继续下面操作

4) 删除dfs.exclude中下线节点的hosts，重新刷新:
hdfs dfsadmin -refreshNodes

5) 删除slaves中下线节点的hosts
2. 上线节点
上线节点基本与下线相同
1) slaves文件里每行添加一个上线服务器名，同时保证dfs.exclude文件为空。
2) ./hdfs dfsadmin -refreshNodes

3) 在要上线的节点上启动datanode：
./hadoop-daemon.sh start datanode

4) 如需要启动nodemanager,则执行：
./yarn-daemon.sh start nodemanager

5) 修改slaves，添加上线节点的hosts

12.HDFS常见的误删除数据场景，以及如何防止数据被误删除

HDFS集群对外提供的访问方式有几种，哪种最为常见，每种方式各自的优缺点和使用场景

14HDFS你做过哪些性能调优，哪些是通用的，哪些是针对特定场景的

15Hadoop日常的运维操作有什么管理工具，已经搭建的集群如何使用ambari

16Hadoop各类角色如何进行扩容，缩容，节点迁移（IP变更）

Hadoop各类角色的JVM参数配置如何设定

18.HDFS的block大小如何设置，取决于哪些因素

HDFS中块（block）的大小为什么设置为128M？

二、 HDFS中块（block）的大小为什么设置为128M？
1. HDFS中平均寻址时间大概为10ms；

2. 经过前人的大量测试发现，寻址时间为传输时间的1%时，为最佳状态；

    所以最佳传输时间为10ms/0.01=1000ms=1s

3. 目前磁盘的传输速率普遍为100MB/s；

    计算出最佳block大小：100MB/s x 1s = 100MB

    所以我们设定block大小为128MB。

我们在HDFS中存储数据是以块（block）的形式存放在DataNode中的，块（block）的大小可以通过设置dfs.blocksize来实现；

在Hadoop2.x的版本中，文件块的默认大小是128M，老版本中默认是64M；

目录

一、为什么HDFS中块（block）不能设置太大，也不能设置太小？

二、 HDFS中块（block）的大小为什么设置为128M？

寻址时间：HDFS中找到目标文件块（block）所需要的时间。

原理：

文件块越大，寻址时间越短，但磁盘传输时间越长；

文件块越小，寻址时间越长，但磁盘传输时间越短。



一、为什么HDFS中块（block）不能设置太大，也不能设置太小？
1. 如果块设置过大，

    一方面，从磁盘传输数据的时间会明显大于寻址时间，导致程序在处理这块数据时，变得非常慢；

    另一方面，mapreduce中的map任务通常一次只处理一个块中的数据，如果块过大运行速度也会很慢。

2. 如果块设置过小，

    一方面存放大量小文件会占用NameNode中大量内存来存储元数据，而NameNode的内存是有限的，不可取；

   另一方面文件块过小，寻址时间增大，导致程序一直在找block的开始位置。

因而，块适当设置大一些，减少寻址时间，那么传输一个由多个块组成的文件的时间主要取决于磁盘的传输速率。

ps：实际在工业生产中，磁盘传输速率为200MB/s时，一般设定block大小为256MB

       磁盘传输速率为400MB/s时，一般设定block大小为512MB
--------------------- 
作者：攻城狮Kevin 
原文：https://blog.csdn.net/wx1528159409/article/details/84260023

19.YARN的nodemanager上跑任务的时候，有时候会将磁盘全部打满，如何解
决

今天在集群和调试之前开发的spark算法时，我提交的算法一直处于accpected状态，而且无法一直没有分配到nodemanager，怀疑是集群上的资源都被占用了 一直无法分配到资源导致的。查看了下historyserver，看见同事的一个算法正在running，他分配了5g的内存来执行。可是每台集群都又24g内存，不能他的任务用了5g我的就跑不了啊。。应该是yarn设置的内存太小，随后就查了相关配置，确实都是用的默认值，下面给出具体的配置信息，在yarn-site.xml 中 ：


yarn.nodemanager.resource.memory-mb
18432
每个节点可用内存,单位MB，默认是8g，spark需要大量内存，这里调整为18g

 
yarn.scheduler.minimum-allocation-mb
1500
单个任务可申请最少内存，默认1024MB，稍微大一点，避免小的计算浪费资源



 yarn.scheduler.maximum-allocation-mb
16384
单个任务可申请最大内存，默认8192MB，改为16g，大任务充分利用资源

20.HDFS集群多个业务方使用时如何提前做好运维规划，如权限，配额，流量突增，数据安全，目录结构

21.HDFS中，小文件的定义是什么，如何对小文件进行统计分析，如何优化该问题

22.HDFS的namenode如何进行主备切换

23.YARN的nodemanager导致机器死机，如何解决

24.如何下线YARN的nodemanager节点，假如该节点持续在运行计算任务

25.YARN的nodemanager节点，从Active Nodes转为Lost Nodes，有哪些原因，在哪里设置

26.YARN的nodemanager节点如果转为Lost Nodes后，该节点上的计算任务是否还会正常继续

27.HDFS的快照原理简要介绍一下，为什么可以确保数据的安全性

Hdfs的快照（snapshot）是在某一时间点对指定文件系统拷贝，快照采用只读模式，可以对重要数据进行恢复、防止用户错误性的操作。

快照分两种：一种是建立文件系统的索引，每次更新文件不会真正的改变文件，而是新开辟一个空间用来保存更改的文件，一种是拷贝所有的文件系统。Hdfs属于前者。

Hdfs的快照的特征如下：

1. 快照的创建是瞬间的，代价为O(1)，取决于子节点扫描文件目录的时间。

2. 当且仅当做快照的文件目录下有文件更新时才会占用小部分内存，占用内存的大小为O(M)，其中M为更改文件或者目录的数量；

3. 新建快照的时候，Datanode中的block不会被复制，快照中只是记录了文件块的列表和大小信息。

快照不会影响正常的hdfs的操作。对做快照之后的数据进行的更改将会按照时间顺序逆序的记录下来，用户访问的还是当前最新的数据，快照里的内容为快照创建的时间点时文件的内容减去当前文件的内容。

YARN的yarn.nodemanager.local-dirs和yarn.nodemanager.log-dirs参数应该如何设置，有哪些常见的问题

29.distcp拷贝数据的时候，出现了java.lang.outofmemoryerror:java heap space，如何处理

有两个hadoop集群，机器相同，磁盘占用相同，一个集群磁盘的使用率比较均匀，另一个集群磁盘使用率起伏较大（很多写满的，很多使用率很低的），那么第二个集群会有哪些问题

hdfs namenode启动慢，常见的原因有哪些？如何优化？

对于生产集群，含有上千万文件，每次启动时间将会长达几十分钟，缩小启动时间将大大提高生产力。所以对启动时的各个环节进行分析并提出相应的解决方案用于减少启动时间。
1. NameNode启动中对fsimage加载过程解析
Hadoop在对NameNode进行启动时，首先会从映像文件(fsimage)中读取HDFS的状态，即系统目录树，同时将日志文件(edits)与fsimage进行合并，这样保证了内存中目录树是最新的，随后系统会将最新的目录树持久化到映像文件(fsimage)中，并使用一个空的edits文件开始正常操作。
    因为NameNode只有在启动阶段才会合并fsimage和edits,所以久而久之edits文件将会十分庞大，尤其是对于大型的集群，这样将导致下一次NameNode启动会花很长时间。为此，secondary NameNode根据相应条件来合并fsimage和edits，在合并结束后也将最新的目录树持久化写入到fsimage。
    对NameNode进行持久化存储的路径是由dfs.name.dir参数控制的。
l dfs.name.dir, NameNode持久存储映像文件(fsimage)及日志文件(edits)的本地文件系统路径，当这个值是一个逗号分隔的目录列表时，系统实时目录树会被复制到所有目录中做冗余备份。
    在Hadoop的版本中，持久化fsimage调用的函数为FSImage类中的saveFSImage()函数，在函数内部首先读取dfs.name.dir中设置的多个目录列表，随后按照目录列表按顺序存储。
以下是NameNode加载fsimage过程的流程图:

2. 加载过程优化
    如果NameSpace 存在大量文件，那么fsimage文件将会十分巨大,fsimage会达到上百兆甚至上G,如果在dfs.name.dir中定义了多个目录，那么采用按顺序存储势必会消耗一定时间。
为解决这一问题，对fsimage的持久化操作采用多线程技术，为目录列表中的每个目录存储开辟一个线程，用来存储fsimage文件。主线程等待所有存储的子线程完毕后完成对fsimage加载。这样，存储时间将取决于存储最慢的那个线程，达到了提高fsimage加载速度的目的，从而在一定程度上提升了NameNode启动速度。
    其流程图如下：

3. 测试结果
    测试采用利用hadoop 自带的nnbench，向NameNode写入大量小文件，写入文件总数为 200万；相关的命令为 hadoop jar hadoop-test.jar nnbench –operation create_write –maps 24 –bytesToWrite 1 –numberOfFiles 2000000 –baseDir /test/nnbench1。
目前测试集群有12个节点，总共200万文件,约200万块，dfs.name.dir设置了3个本地路径,其中两个本地路径用来模拟远程文件路径，fsimage大小为240M。
测试结果如下：
FSImage存储时间顺序存储多线程存储
第一次测试 22142msec 12709msec
第二次测试 17043msec 15813msec
第三次测试 20587msec 12286msec
平均时间 19924msec 13602msec
改动后时间缩短了1-13602/19924=32%
4. 结论
    采用多线程写入fsimage，能够有效的提升fsimage加载速度，从而缩短NameNode启动速度。如果NameSpace存在大量文件，使得fsimage文件巨大，则这种时间缩短会更加明显

31.hadoop的hdfs、yarn配置的zookeeper，是否可以分开

Zookeeper帮助Hadoop解决的问题

在Hadoop中，无论是HDFS,还是YARN,都存在一个问题，因为HDFS使用NameNode管理众多的DataNode节点，YARN使用ResourceManager管理系统的资源分配。所以假设NN节点或者是RM节点出现故障，都会导致整个集群不能正常使用，为了解决问题Hadoop针对NN以及RM引入了支持Active/StandBy 模式的HA架构。

正常情况下对于NN以及RM,分别仅仅会有一个Active节点,其它节点为Standby,Active节点负责对外提供服务,当Active的节点因为异常不能对外提供服务时，standby节点会转化为Active节点，继续提供服务

创建锁节点
全部的ResourceManager在启动的时候会竞争写一个/yarn-leader-election/pseudo-yarn-rm-cluster节点(暂时节点)。创建成功的ResourceManager节点变成Active节点，其它的切换为StandBy

注冊Watcher节点
全部的standby的ResourceManager节点会向/yarn-leader-election/pseudo-yarn-rm-cluster节点注冊一个Watcher

主备切换
当Active的ResourceManager节点出现异常或挂掉时。起在zookeeper上创建的暂时节点也会被删除。standy的ResourceManager节点检測到该节点发生变化时，会又一次发起竞争，直到产生一个Active节点

假设集群中存在两个ResourceManager节点RM1,RM2,在通过竞争操作后。RM1变成了Active后。假设某个时间段RM1因为资源损耗比較严重。产生了假死的现象。此时的zookeeper会以为RM1这台机器出现了故障。于是发起新一轮的竞选，选了RM2作为Active,在RM2变成Active后，RM1恢复了服务可是它任然以为自己是Active的，此时就出现了两个Active的情况。这样的情况又称为“脑裂”，为了解决这样的问题能够在创建根节点的时候引入ACL控制，这样的话当RM1恢复后尝试更新数据时，会发现相应的节点必须提供RM2的ACL信息才干够更新相应的数据

在Hadoop中负责解决该问题的组件是Hadoop-common 中的ActiveStandElector组件

yarn执行流程

1.client向yarn提交job，首先找ResourceManager分配资源，

2.ResourceManager开启一个Container,在Container中运行一个Application manager

3.Application manager找一台nodemanager启动Application master，计算任务所需的计算

4.Application master向Application manager（Yarn）申请运行任务所需的资源

5.Resource scheduler将资源封装发给Application master

6.Application master将获取到的资源分配给各个nodemanager

7.各个nodemanager得到任务和资源开始执行map task

8.map task执行结束后，开始执行reduce task

9.map task和 reduce task将执行结果反馈给Application master

10.Application master将任务执行的结果反馈pplication manager

你可能感兴趣的:(hadoop面试问题)

Hadoop、Spark、Flink 三大大数据处理框架的能力与应用场景
一、技术能力与应用场景对比产品能力特点应用场景Hadoop-基于MapReduce的批处理框架-HDFS分布式存储-容错性强、适合离线分析-作业调度使用YARN-日志离线分析-数据仓库存储-T+1报表分析-海量数据处理Spark-基于内存计算，速度快-支持批处理、流处理（StructuredStreaming）-支持SQL、ML、图计算等-支持多语言（Scala、Java、Python）-近实时处
Hadoop WordCount 程序实现与执行指南
HadoopWordCount程序实现与执行指南下面是使用Python实现的HadoopWordCount程序，包含完整的Mapper和Reducer部分。这个程序可以在PyCharm中本地测试，也可以部署到远程Hadoop集群上运行。mapper.pyimportsys#从标准输入读取数据forlineinsys.stdin:#移除行首行尾的空白字符line=line.strip()#将行分割为
centos 7+hadoop 2.7.3 mozhw c/c++linu/unix java
安装JDK版本:jdk-8u131-linux-x64.tar.gz需要先删除系统自带的openjdk先查找java再移除[hadoop@localhost~]$rpm-qa|grepjavajava-1.7.0-openjdk-1.7.0.111-2.6.7.8.el7.x86_64python-javapackages-3.4.1-11.el7.noarchtzdata-java-2016g-
uni-app的生命周期 weixin_42339193 uni-app
目录一、整体的架构概述二、核心生命周期1、应用生命周期（App.vue）2、页面生命周期（页面的组件）3、组件生命周期（与vue一致）三、高频面试问题解答1.应用生命周期vs页面生命周期2.onReady和mounted的区别3.如何优化生命周期中的性能？四、结合项目的最佳实践在uni-app中的也存在着生命周期，vue和react的生命周期一样。理解uni-app的生命周期，可以帮助我们更好的书
Go项目限流全攻略：超越中间件的全方位解决方案码农老gou golang 中间件开发语言
引言：限流在分布式系统中的重要性在当今高并发的互联网应用中，流量控制已成为保障系统稳定性的关键手段。一次突发的流量洪峰可能导致整个系统崩溃，造成不可估量的损失。作为Go开发者，我们常常会面临这样的面试问题：Go项目中如何实现限流？仅仅使用中间件就足够了吗？本文将深入探讨Go项目中的限流策略，分析中间件的局限性，并介绍超越中间件的全方位解决方案。一、常见限流算法解析1.令牌桶算法（TokenBuck
MapReduce概述 Tate小白大数据学习 mapreduce
1、MapReduce概述1.1MapReduce定义MapReduce是一个分布式运算程序的编程框架，是用户开发“Hadoop的数据分析应用”的核心框架。MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。Reduc
【笔记-软考】大数据架构-Lambda与Kappa架构对比我叫白小猿软考软考架构大数据 Kappa Lambda
Author：赵志乾Date：2024-07-28Declaration：AllRightReserved！！！1.简介大数据系统架构的设计思想很大程度受技术条件和思维模式的限制；Lambda架构在提出初期面向小范围业务，直接将成熟离线处理技术(Hadoop)和实时处理技术(Storm)相结合，用View模型将二者处理后得到的输出结果结合起来，在服务层进行统一后，再开放给上层服务，是相当可行且高效
特斯拉及新能源车企笔试面试题型解析上-21期启芯硬件笔记经验分享 PCB EMI 硬件工程面试职场和发展
本专栏预计更新90期左右。当前第21期-特斯拉硬件.特斯拉作为全球领先的电动汽车、能源存储和人工智能公司，其硬件工程师岗位的招聘通常包括笔试和多轮技术面试，考察领域涵盖数字电路设计、模拟电路、嵌入式系统、电动车技术和自动驾驶等。由于特斯拉的创新性和技术领先地位，其面试问题可能更加注重实际应用和问题解决能力。笔试通常旨在考察候选人的基础理论知识、问题分析能力、电路设计与调试经验、以及对相关工具和方法
HDFS（Hadoop分布式文件系统）总结 Cachel wood 大数据开发 hadoop hdfs 大数据散列表算法哈希算法 spark
文章目录一、HDFS概述1.定义与定位2.核心特点二、HDFS架构核心组件1.NameNode（名称节点）2.DataNode（数据节点）3.Client（客户端）4.SecondaryNameNode（辅助名称节点）三、数据存储机制1.数据块（Block）设计2.复制策略（默认复制因子=3）3.数据完整性校验四、文件读写流程1.写入流程2.读取流程五、高可用性（HA）机制1.单点故障解决方案2.
Spark教程1：Spark基础介绍 Cachel wood 大数据开发 spark 大数据分布式计算机网络数据库数据仓库
文章目录一、Spark是什么？二、Spark的核心优势三、Spark的核心概念四、Spark的主要组件五、Spark的部署模式六、Spark与Hadoop的关系七、Spark应用开发流程八、Spark的应用场景九、Spark版本更新与社区一、Spark是什么？ApacheSpark是一个开源的分布式大数据处理引擎，最初由加州大学伯克利分校AMPLab开发，2013年捐赠给Apache软件基金会，如
Hadoop的部分用法覃炳文20230322027 hadoop hive 大数据分布式
前言Hadoop是一个由Apache基金会开发的开源框架，它允许跨多个机器使用分布式处理大数据集。Hadoop的核心是HDFS（HadoopDistributedFileSystem）和MapReduce编程模型。1.Hadoop环境搭建在开始使用Hadoop之前，你需要搭建Hadoop环境。这通常包括安装Java、配置Hadoop环境变量、配置Hadoop的配置文件等步骤。1.1环境准备在开始安
Netty4.1 - TCP粘包拆包解决方案及案例代码 wwyh520 IO编程 netty
Netty是目前业界最流行的NIO框架之一，它的健壮性、高性能、可定制和可扩展性在同类框架中都是首屈一指。它已经得到了成百上千的商业项目的验证，例如Hadoop的RPC框架Avro就使用了Netty作为底层通信框架，其他的业界主流RPC框架，例如：Dubbo、Google开源的gRPC、新浪微博开源的Motan、Twitter开源的finagle也使用Netty来构建高性能的异步通信能力。另外，阿
Storm核心概念与实战详解 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2010年Hadoop项目开源后，Storm项目也随之走向人气爆棚。在如此火热的当下，给我们带来的好处不仅仅是增强对Hadoop平台的掌控能力，更重要的是让我们感受到了快速发展、海量数据处理能力、低延迟的优势。在这一系列文章中，我将深入浅出地介绍Storm项目，并从实际案例出发，带领大家全面理解Storm中的关键概念及其运作方式，让您轻松掌握Storm的高效率、
基于Hadoop大数据分析应用场景与实战跨过山河大海
一、Hadoop的应用业务分析大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具，而是涉及的业务和技术的许多领域。目前主流的三大分布式计算系统分别为:Hadoop、Spark和Strom：Hadoop当前大数据管理标准之一，运用在当前很多商业应用系统。可以轻松地集成结构化、半结构化甚至非结构化数据集。Spark采用了内存计算。从多迭代批处理出发，允许将数据载入内存作反复
Hadoop 发展过程是怎样的？ AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2003年，美国加州大学洛杉矶分校教授李彦宏博士发明了一种分布式文件系统——GFS（GoogleFileSystem）。由于该文件系统设计得足够简单，可以适应大规模数据集存储需求，在此基础上演化出多种应用，包括MapReduce、BigTable、PageRank等，并成为当时互联网公司的标配技术之一。2004年，Google发布了第一版Hadoop项目，定位是
通过CDH安装Spark的详细指南暴躁哥大数据技术 spark 大数据分布式
通过CDH安装Spark的详细指南简介ClouderaDistributionofHadoop(CDH)是一个企业级的大数据平台，它集成了多个开源组件，包括Hadoop、Spark、Hive等。本文将详细介绍如何通过CDH安装和配置Spark。前提条件在开始安装之前，请确保满足以下条件：已安装CDH集群具有管理员权限所有节点之间网络互通系统时间同步足够的磁盘空间（建议至少预留20GB）安装步骤1.
Hadoop 版本进化论：从 1.0 到 2.0，架构革命全解析拾光师大数据后端
Hadoop版本hadoop1.x版本由三部分组成Common(辅助工具)HDFS(数据存储)MapReduce(计算和资源调度)存在的问题JobTracker同时具备了资源管理和作业控制两个功能，成为了系统的最大瓶颈采用了master/slave结构，master存在单点问题，一旦master出现故障，会导致整个集群不可用采用了基于槽位的资源分配模型，将槽位分为了Mapslot和Reducesl
Hadoop RPC 分层设计的哲学：高内聚、低耦合的最佳实践拾光师大数据后端
HadoopRPCHadoopRPC主要分为四个部分，分别是序列化层、函数调用层、网络传输层和服务器端处理框架，实现机制为：序列化层：主要作用是将结构化对象转为字节流以便于通过网络进行传输或写入持久存储。函数调用层：主要作用是定位要调用的函数并执行该参数，采用了java反射机制和动态代理实现了函数调用网络传输层：描述了client和server之间消息传输的方式，基于TCP/IP的socket机制
基于pyspark的北京历史天气数据分析及可视化_离线大数据CLUB spark数据分析可视化数据分析数据挖掘 hadoop 大数据 spark
基于pyspark的北京历史天气数据分析及可视化项目概况[]点这里,查看所有项目[]数据类型北京历史天气数据开发环境centos7软件版本python3.8.18、hadoop3.2.0、spark3.1.2、mysql5.7.38、scala2.12.18、jdk8开发语言python开发流程数据上传(hdfs)->数据分析(spark)->数据存储(mysql)->后端(flask)->前端(
Flutter开发者必备面试问题与答案04 独立开发者_猫哥 AI flutter 面试 javascript
Flutter开发者必备面试问题与答案04视频https://www.bilibili.com/video/BV1zqynY5E1g/https://youtu.be/GztdZKomCDs前言原文Flutter完整面试问题及答案04本文是flutter面试问题的第四讲，高频问答10题。正文31.as、show和hide在import语句中的区别是什么？在Flutter（以及Dart）中，as、s
Hadoop RPC 分层设计的哲学：高内聚、低耦合的最佳实践后端
HadoopRPCHadoopRPC主要分为四个部分，分别是序列化层、函数调用层、网络传输层和服务器端处理框架，实现机制为：序列化层：主要作用是将结构化对象转为字节流以便于通过网络进行传输或写入持久存储。函数调用层：主要作用是定位要调用的函数并执行该参数，采用了java反射机制和动态代理实现了函数调用网络传输层：描述了client和server之间消息传输的方式，基于TCP/IP的socket机制
Java面试复习指南：基础、面向对象、多线程与框架 Nnbwbyhxy Java场景面试宝典 Java 面试并发编程 JVM Spring Java 8 面向对象
Java面试复习指南：基础、面向对象、多线程与框架1.Java基础概念解析Java是一种面向对象的编程语言，具有平台无关性和丰富的API。核心原理Java通过JVM实现平台无关性，使用JIT编译提升性能。高频面试问题Java的基本数据类型有哪些？Java有八种基本数据类型：byte,short,int,long,float,double,char,boolean。2.面向对象编程概念解析面向对象编
基于pyspark的北京历史天气数据分析及可视化_实时大数据CLUB spark数据分析可视化数据分析数据挖掘 spark hadoop 大数据
基于pyspark的北京历史天气数据分析及可视化项目概况[]点这里,查看所有项目[]数据类型北京历史天气数据开发环境centos7软件版本python3.8.18、hadoop3.2.0、spark3.1.2、mysql5.7.38、scala2.12.18、jdk8、kafka2.8.2开发语言python开发流程数据上传(hdfs)->数据分析(spark)->数据写kafka(python)
Java基础八股文 - 面试者心理历程与标准答案
Java基础八股文-面试者心理历程与标准答案前言：如何应对Java基础面试问题面试Java基础时，很多候选人会因为紧张而忘记平时熟悉的知识点。本文将从面试者的心理历程出发，教你如何在面试中用自己的思路组织答案，然后给出标准回答供参考。一、面向对象三大特性问题：请说说Java面向对象的三大特性面试者内心OS：“这个问题很基础，但是要说得有条理。我知道是封装、继承、多态，但怎么说得更有深度呢？要结合实
《从零开始：Hadoop 3.3.0 全分布式环境搭建与运行详解（含自动化配置）》李哈哈敲代码学习经验分布式 hadoop 自动化大数据 linux
Hadoop3.3.0全分布并环境搭建与运行部署详解一、准备工作1.1环境要求三台Linux主机，如node1、node2、node3配置推荐:内存大于4GB，CPU大于2核，磁盘空间大于40GB1.2软件列表JDK1.8（！！需要提前上传到software目录下，解压到server目录下）Hadoop3.3.01.3目录规划（注意在根目录下创建export）/export/server#安装目录
高级软件工程师的新面试问题
我在帮一位失业的朋友汇总一些面试练习问题。亲爱的读者，我想如果能从你们那里收集一些问题的话会比较有用。这些问题应该更多注重软件设计，而不太像我之前的两个面试问题列表那样关注技术细节。伟大的.NET开发人员应该知道些什么(更多面试问题)ASP.NET面试问题(你能相信吗？7年以前发表的)更新：我想我们都赞同假如你明天要去面试，看着桌子对面的面试官简单地将这份列表打印出来照着念，那么你就应该找个借口马
Hadoop等大数据处理框架的Java API 扬子鳄008 Java hadoop java 大数据
Hadoop是一个非常流行的大数据处理框架，主要用于存储和处理大规模数据集。Hadoop主要有两个核心组件：HDFS（HadoopDistributedFileSystem）和MapReduce。此外，还有许多其他组件，如YARN（YetAnotherResourceNegotiator）、HBase、Hive等。下面详细介绍Hadoop及其相关组件的JavaAPI及其使用方法。HadoopHad
Java面试复习：面向对象编程、JVM原理与Java 8新特性 Nnbwbyhxy Java场景面试宝典 Java 面试复习 Java 8 面向对象编程 JVM Spring 数据结构
Java面试复习：面向对象编程、JVM原理与Java8新特性1.面向对象编程概念解析：面向对象编程（OOP）是一种程序设计范式，使用对象来封装数据和行为。核心原则包括封装、继承和多态。核心原理：封装：通过访问修饰符控制对类成员的访问。继承：通过extends关键字实现类的继承，促进代码复用。多态：通过接口和抽象类实现多态性，允许不同类用统一接口调用。高频面试问题：什么是多态？如何实现？多态允许对象
python--将mysql建表语句转换成hive建表语句呆呆不呆～ spark python mysql hive spark
1.代码importjsonimportsysimportpymysqldefqueryDataBase(tablename):#连接数据库并查询列信息conn=pymysql.connect(user='root',password='123456',host='hadoop11')cursor=conn.cursor()cursor.execute("SELECTcolumn_name,dat
手把手教你玩转 Sqoop：从数据库到大数据的「数据搬运工」 AAA建材批发王师傅数据库 sqoop 大数据 hive hdfs
一、Sqoop是什么？——数据界的「超级搬运工」兄弟们，今天咱们聊个大数据圈的「搬运小能手」——Sqoop！可能有人会问：这玩意儿跟Flume啥区别？简单来说：Flume是专门搬日志数据的「快递员」而Sqoop是搬数据库数据的「搬家公司」它的名字咋来的？SQL+Hadoop，直接告诉你核心技能：在关系型数据库（比如MySQL）和Hadoop家族（HDFS、Hive、HBase）之间疯狂倒腾数据！核
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方

hadoop面试问题

1当前你们公司使用的Hadoop版本是什么

2HDFS常见的数据压缩格式有哪些，介绍其中一种详细的实现方式

3,HDFS垃圾回收的时间模式是多久，如何修改该时间

6.HDFS常见的故障是什么，如何处理，是否可以给出三种预案来防范大部分常见故障

7.你经历过哪些严重的Hadoop故障

8.HDFS常用的IO压力测试工具有哪些

10HDFS有哪些核心的指标需要采集和监控，最重要的三个指标是什么

12.HDFS常见的误删除数据场景，以及如何防止数据被误删除

14HDFS你做过哪些性能调优，哪些是通用的，哪些是针对特定场景的

15Hadoop日常的运维操作有什么管理工具，已经搭建的集群如何使用ambari

16Hadoop各类角色如何进行扩容，缩容，节点迁移（IP变更）

18.HDFS的block大小如何设置，取决于哪些因素

19.YARN的nodemanager上跑任务的时候，有时候会将磁盘全部打满，如何解 决

20.HDFS集群多个业务方使用时如何提前做好运维规划，如权限，配额，流量突增，数据安全，目录结构

21.HDFS中，小文件的定义是什么，如何对小文件进行统计分析，如何优化该问题

22.HDFS的namenode如何进行主备切换

23.YARN的nodemanager导致机器死机，如何解决

24.如何下线YARN的nodemanager节点，假如该节点持续在运行计算任务

25.YARN的nodemanager节点，从Active Nodes转为Lost Nodes，有哪些原因，在哪里设置

26.YARN的nodemanager节点如果转为Lost Nodes后，该节点上的计算任务是否还会正常继续

27.HDFS的快照原理简要介绍一下，为什么可以确保数据的安全性

29.distcp拷贝数据的时候，出现了java.lang.outofmemoryerror:java heap space，如何处理

有两个hadoop集群，机器相同，磁盘占用相同，一个集群磁盘的使用率比较均匀，另一个集群磁盘使用率起伏较大（很多写满的，很多使用率很低的），那么第二个集群会有哪些问题

31.hadoop的hdfs、yarn配置的zookeeper，是否可以分开

你可能感兴趣的:(hadoop面试问题)

19.YARN的nodemanager上跑任务的时候，有时候会将磁盘全部打满，如何解
决