烈火138

Hadoop

Hadoop 中常问的就三块，第一：分布式存储(HDFS)；第二：分布式计算框架(MapReduce)；第三：资源调度框架(YARN)。

1.请说下HDFS读写流程；

HDFS（Hadoop Distributed File System），它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。

适合一次写入，多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。

HDFS 写流程：

1、客户端发送上传请求，并通过RPC与NameNode建立通信NameNode检查用户是否有上传权限，上传的文件在HDFS对应的目录下是否同名如果其中任何一个不满足，就会直接报错如果两者都满足，将向客户端返回一个可以上传的消息；

2、客户端根据文件大小划分文件，默认为128M，向NameNode发送请求，请求将第一块上传到哪些服务器；

3、收到请求后，NameNode根据网络拓扑、机架感知和副本机制分配文件，并返回可用DataNode的地址；

4、接收到地址后，客户端与服务器地址列表中的一个节点进行通信，比如A，本质上是RPC调用建立管道a收到请求后会继续调用B，B会调用C来完成整个管道的建立，并逐步返回给客户端；

5、客户端开始向A发送第一个块(先从磁盘读取数据，然后放入本地内存缓存)，这个块是基于包的(64kb)，A收到一个包就会发送；

发送给B，然后B发送给c，A在发送完一个包后会将其放入一个响应队列中等待响应；

6、数据被分成数据包，依次在流水线上传输在管道反向传输中，逐个发送ack(命令回答正确)，最后管道中第一个DataNode节点A向客户端发送pipelineack；7.当一个块传输完成后，客户端请求NameNode再次上传第二个块，NameNode为客户端重新选择三个DataNode；

HDFS 读流程：

1、客户端向NameNode发送RPC请求请求文件块的位置；

2、 NameNode收到请求后会检查用户权限以及是否有这个文件如果它们都匹配，它将根据需要返回部分或全部阻止列表对于每个块，NameNode将返回包含该块副本的DataNode地址；这些返回的DataNode地址会根据集群拓扑得到DataNode到客户端的距离，然后按照两个规则进行排序:网络拓扑中离客户端最近的排在第一位；心跳机制中超上报的DataNode状态陈旧，较低；

3、客户端选择排名最高的DataNode来读取该块如果客户端本身是DataNode，则直接从本地获取数据(短路读取功能)；

4、在底层，本质是建立一个Socket流(FSDataInputStream)，反复调用父类DataInputStream的read方法，直到读取完这个块上的数据；

5、读取完列表的块后，如果文件读取还没有完成，客户端会继续从NameNode获取下一个块列表；

6、读取一个块后，将进行校验和验证如果读取DataNode时出现错误，客户端会通知NameNode，然后用块的副本从下一个DataNode继续读取；

7、读取方法是并行读取块信息，而不是逐个读取；NameNode只返回客户端请求中包含的块的DataNode地址，不返回请求块的数据；

8、所有读取的块将被合并成一个完整的最终文件；

视频讲解：

https://www.bilibili.com/video/BV1ge411s7UY?p=12

详细读写流程讲解：

https://www.bilibili.com/video/BV12h411t7jB?p=2

2. HDFS 在读取文件的时候，如果其中一个块突然损坏了怎么办

读取DataNode上的数据块后，客户端将验证校验和，即使用HDFS上的原始数据块检查客户端读取的本地数据块。如果检查结果不一致，客户端将通知NameNode，然后继续从下一个DataNode读取块的副本。

3. HDFS 在上传文件的时候，如果其中一个 DataNode 突然挂掉了怎么办

当客户端上传文件时，它与DataNode建立管道。流水线的正方向是客户端向DataNode发送数据包，流水线的反方向是DataNode向客户端发送ack确认，即正确接收数据包后发送确认。

当DataNode突然挂起，客户端无法收到这个DataNode发送的ack确认时，客户端会通知NameNode，NameNode会检查这个块的副本不符合规定，NameNode会通知DataNode复制副本，并会对挂起的DataNode进行离线处理，使其不再参与文件上传和下载。

4. NameNode 在启动的时候会做哪些操作

NameNode数据存储在内存和本地磁盘中，而本地磁盘数据存储在fsimage镜像文件和编辑日志文件中。

首次启动NameNode:

1、格式化文件系统，以生成fsimage映像文件；

2、开始命名节点:；

读取fsimage文件并将文件内容加载到内存中。

等待DataNade注册并发送阻止报告

3、启动DataNode:；

向NameNode注册

发送阻止报告

检查fsimage中记录的块数是否与块报告中的总块数相同。

4、操作文件系统(创建目录，上传文件，删除文件等):；

·此时内存中已经有文件系统改变的信息，但是磁盘中没有文件系统改变的信息，此时会将这些改变信息写入 edits 文件中，edits 文件中存储的是文件系统元数据改变的信息。

第二次启动NameNode:

1、读取fsimage并编辑文件；

2、将fsimage和编辑文件合并成一个新的fsimage文件；

3、创建一个新的编辑文件，内容最初是空的；

4、启动DataNode；

5. Secondary NameNode 了解吗，它的工作机制是怎样的

辅助NameNode将NameNode的编辑日志合并到fsimage文件中；其具体工作机制:

1、辅助NameNode询问NameNode是否需要检查点直接带回NameNode是否检查结果；

2、辅助NameNode请求执行检查点；；

3、 NameNode滚动正在写入的编辑日志；

4、在滚动到辅助NameNode之前，复制编辑日志和图像文件；；

5、次NameNode将编辑日志和图像文件加载到内存中，并将它们合并；

6、生成新的图像文件fsimage.chkpoint；；

7、将fsimage.chkpoint复制到NameNode；

8、 NameNode已重命名为fsimagechkpoint作为fsimage；

因此，如果NameNode中的元数据丢失，可以从辅助NameNode中恢复部分元数据信息，但不是全部，因为NameNode正在写入的编辑日志尚未复制到辅助NameNode，并且这部分信息无法恢复。

视频讲解：

https://www.bilibili.com/video/BV1ge411s7UY?p=13

6. Secondary NameNode 不能恢复 NameNode 的全部数据，那如何保证NameNode 数据存储安全

这个问题就要说 NameNode 的高可用了，即 NameNode HA。

如果一个NameNode有一个单点故障，那么配置双NameNode。配置中有两个关键点。一个是保证两个NameNode的元数据信息必须同步，另一个是在一个NameNode挂机后立即补上。

1、元数据信息同步采用HA方案中的“共享存储”每次写文件时，都需要将日志同步写入共享存储只有这一步成功了，才能决定写文件成功然后，备份节点定期同步来自共享存储的日志，以便在活动和备用之间切换；

1、 ![ ][nbsp3]；

img

监控 NameNode 状态采用 zookeeper，两个 NameNode 节点的状态存放在zookeeper 中，另外两个 NameNode 节点分别有一个进程监控程序，实施读取 zookeeper 中有 NameNode 的状态，来判断当前的 NameNode 是不是已经 down 机。如果 Standby 的 NameNode 节点的 ZKFC 发现主节点已经挂掉，那么就会强制给原本的 Active NameNode 节点发送强制关闭请求，之后将备用的 NameNode 设置为 Active。

7. 在 NameNode HA 中，会出现脑裂问题吗？怎么解决脑裂

精神分裂对于NameNode这种对数据一致性要求非常高的系统来说是灾难性的，数据会出现紊乱，不可恢复。zookeeper社区对这个问题的解决方案是fencing，中文翻译过来就是隔离，即试图隔离旧的活动NameNode，使其无法正常向外界提供服务。

在围栏期间，将执行以下操作:

1、首先尝试调用这个旧的活动NameNode的HAServiceProtocolRPC接口的transitionToStandby方法，看看是否可以转换到备用状态；

2、如果transitionToStandby方法调用失败，则实施Hadoop配置文件中预定义的隔离措施Hadoop目前提供了两种隔离措施，它们通常；

选择防护:

SSHFENCE:通过SSH登录目标机器，执行命令fuser杀死相应的进程；

Shell Fence:执行一个用户定义的Shell脚本来隔离相应的进程。

8. 小文件过多会有什么危害，如何避免

Hadoop上大量的HDFS元数据信息都存储在NameNode内存中，所以过多的小文件肯定会淹没NameNode内存。

每个元数据对象占用大约150字节，所以如果有1000万个小文件，每个文件占用一个块，那么NameNode需要大约2G空间。如果存储1亿个文件，NameNode需要20G空间。

解决这个问题的显而易见的方法是合并小文件。可以选择在客户端上传时实现一定的策略先合并，或者使用Hadoop的CombineFileInputFormat实现小文件的合并。

9. 请说下 HDFS 的组织架构

1、 Client:客户端；

拆分文档。当上传文件到HDFS时，客户端将文件一个一个地切割成块，然后存储它们。

与NameNode交互以获取文件的位置信息。

与DataNode交互，读取或写入数据

客户端提供一些命令来管理HDFS，如启动和关闭HDFS，访问HDFS目录和内容等。

2、 NameNode:名称节点，也称为主节点，存储数据的元数据信息，但不存储具体的数据；

管理HDFS的命名空间

管理块映射

配置副本策略

处理客户端读写请求

3、 DataNode:数据节点，也称为从节点NameNode给出命令，DataNode执行实际操作；

实际数据块的存储

执行数据块的读/写操作。

4、辅助NameNode:它不是NameNode的热备盘当NameNode挂掉时，它不能立即替换NameNode并提供服务；

协助NameNode分担工作量。

定期将Fsimage和Edits合并，并将其推送到NameNode。

在紧急情况下，它可以帮助恢复NameNode。

10. 请说下 MR 中 Map Task 的工作机制

简单概述:

通过split将InputFile切割成多个拆分文件，按记录逐行读取内容到map(自己写的处理逻辑的方法)。数据经过map处理后，交给OutputCollect收集器，对结果键进行分区(默认使用hashPartitioner)，然后写入buffer。每个map任务都有一个内存缓冲区(循环缓冲区)来存储map的输出结果。当缓冲区快满时，有必要将缓冲区中的数据作为临时文件闪存到磁盘。当整个map任务完成后，将这个map task在磁盘中生成的所有临时文件合并生成最终的正式输出文件，然后等待reduce任务拉取。

详细步骤:

1、读取数据组件InputFormat(默认为TextInputFormat)会通过getSplits方法对输入目录下的文件进行逻辑切片得到块，尽可能多的块，启动尽可能多的MapTask；

2、输入文件分块后，由RecordReader对象读取(默认为LineRecordReader)，以\n为分隔符，读取一行数据并返回；

，Key表示每行第一个字符的偏移值，Value表示该行的文本内容。

3、读取块并返回，进入用户继承的Mapper类，执行用户重写的map函数，在RecordReader读取一行时调用一次；

4、映射器逻辑完成后，通过context.write为映射器的每个结果收集数据，在collect中，会先进行分区，默认使用HashPartitioner；

5、接下来，数据将被写入内存内存中的这个区域称为循环缓冲区(默认为100M)缓冲区的作用是批量收集映射器结果，减少磁盘IO的影响我们的键/值对和分区的结果将被写入缓冲区当然，在写之前，键值都被序列化为字节数组；

6、当循环缓冲区中的数据达到溢出比列(默认为0.8)即80M时，溢出线程启动，需要对这80MB空间中的键进行排序排序是MapReduce模型的默认行为这里的排序也是序列化字节的排序；

7、合并覆盖的文件，每次覆盖都会在磁盘上生成一个临时文件(写之前判断是否有合并器)如果Mapper的输出结果真的很大，而且有很多次的重写，磁盘上会有几个临时文件当整个数据处理完成后，磁盘中的临时文件被合并，因为只有一个最终文件被写入磁盘，并且为该文件提供了一个索引文件来记录对应于每次减少的数据的偏移量；

11. 请说下 MR 中 Reduce Task 的工作机制

简单描述:

Reduce大致分为复制、排序、归约三个阶段，重点是前两个阶段。

复制阶段包括一个eventFetcher来获取完整的映射列表，Fetcher线程将复制数据。在这个过程中，将启动两个合并线程，inMemoryMerger和onDiskMerger，分别将内存中的数据合并到磁盘中，将磁盘中的数据合并到磁盘中。数据复制完成后，复制阶段也就完成了。

开始排序阶段，主要是执行finalMerge操作，一个纯粹的排序顺序。

段，即完成后的reduce阶段，调用用户定义的reduce函数进行处理。

详细步骤：

1、 Copy阶段：简单地拉取数据Reduce进程启动一些数据copy线程(Fetcher)，通过HTTP方式请求maptask获取属于自己的文件（maptask的分区会标识每个maptask属于哪个reducetask，默认reducetask的标识从0开始）；
2、 Merge阶段：在远程拷贝数据的同时，ReduceTask启动了两个后台线程对内存和磁盘上的文件进行合并，以防止内存使用过多或磁盘上文件过多merge有三种形式：内存到内存；内存到磁盘；磁盘到磁盘默认情况下第一种形式不启用当内存中的数据量到达一定阈值，就直接启动内存到磁盘的merge与map端类似，这也是溢写的过程，这个过程中如果你设置有Combiner，也是会启用的，然后在磁盘中生成了众多的溢写文件内存到磁盘的merge方式一直在运行，直到没有map端的数据时才结束，然后启动第三种磁盘到磁盘的merge方式生成最终的文件；
3、合并排序：把分散的数据合并成一个大的数据后，还会再对合并后的数据排序；
4、对排序后的键值对调用reduce方法：键相等的键值对调用一次reduce方法，每次调用会产生零个或者多个键值对，最后把这些输出的键值对写入到HDFS文件中；

12. 请说下 MR 中 Shuffle 阶段

Shuffle阶段依次分为划分、排序、规范、分组四个步骤，其中前三个步骤在map阶段完成，最后一个步骤在reduce阶段完成。

Shuffle是Mapreduce的核心，分布在Mapreduce的map阶段和reduce阶段。一般来说，从Map产生输出到Reduce将数据作为输入的过程称为shuffle。

1、 Collectstage:将MapTask的结果输出到一个默认大小为100M的循环缓冲区，存储key/value、分区信息等；

2、溢出阶段:当内存中的数据量达到一定阈值时，数据将被写入本地磁盘在将数据写入磁盘之前，需要对数据进行一次排序如果配置了合并器，具有相同分区号和键的数据也将被排序；

3、在MapTask阶段合并:将所有溢出的临时文件合并一次，以确保；

如果保证一个MapTask，将只生成一个中间数据文件。

4、复制阶段:ReduceTask启动Fetcher线程，将自身数据的副本复制到已经完成MapTask的节点默认情况下，数据会存储在内存的缓冲区中，当内存的缓冲区达到一定阈值时，数据会被写入磁盘；

5、在ReduceTask阶段合并:当reduce任务远程复制数据时，将在后台启动两个线程，将数据文件从内存合并到本地；

6、排序阶段:在合并数据的同时，进行排序操作由于数据在MapTask阶段已经进行了本地排序，ReduceTask只需要保证复制数据的最终整体有效性；

13. Shuffle 阶段的数据压缩机制了解吗

在shuffle 阶段，可以看到数据通过大量的拷贝，从 map 阶段输出的数据，都要通过网络拷贝，发送到 reduce 阶段，这一过程中，涉及到大量的网络 IO，如果数据能够进行压缩，那么数据的发送量就会少得多。

hadoop 当中支持的压缩算法：

gzip、bzip2、LZO、LZ4、Snappy，这几种压缩算法综合压缩和解压缩的速率，谷歌的 Snappy 是最优的，一般都选择 Snappy 压缩。谷歌出品，必属精品。

14. 在写 MR 时，什么情况下可以使用规约

规约（combiner）是不能够影响任务的运行结果的局部汇总，适用于求和类，不适用于求平均值，如果 reduce 的输入参数类型和输出参数的类型是一样的，则规约的类可以使用 reduce 类，只需要在驱动类中指明规约的类即可。

15. YARN 集群的架构和工作原理知道多少

YARN的基本设计思想是将MapReduce V1中的JobTracker拆分成两个独立的服务:ResourceManager和ApplicationMaster。

ResourceManager负责整个系统的资源管理和分配，ApplicationMaster负责各个应用的管理。

1、资源管理器:RM是全局资源管理器，负责整个系统的资源管理和分配它主要由两部分组成:调度器和应用管理器；

调度器根据容量、队列和其他约束将系统中的资源分配给正在运行的应用。在保证容量、公平性和服务水平的前提下，优化集群资源的利用率，使所有资源都能得到充分利用。应用管理器负责管理整个系统的所有应用，包括提交应用，与调度器协商资源启动ApplicationMaster，监控ApplicationMaster的运行状态，出现故障时重新启动。

2、 ApplicationMaster:用户提交的申请会对应一个申请主，其主要功能有:；

与RM调度器协商获取资源，以容器表示。

进一步将获得的任务分配给内部任务。

与NM通信以启动/停止任务。

监控所有内部任务的状态，并在任务运行失败时为任务重新申请资源以重启任务。

33、 NodeManager:NodeManager是每个节点的资源和任务管理器一方面，它会定期向RM汇报这个节点的资源使用情况和各个容器的运行状态另一方面，他接收并处理来自AM的容器启动和停止请求；

4、容器:容器是YARN中的资源抽象，封装了各种资源一个应用程序将被分配一个容器，这个应用程序只能使用这个容器中描述的资源与MapReduceV1中slot的资源封装不同，容器是一个动态的资源划分单元，可以充分利用资源；

16. YARN 的任务提交流程是怎样的

当jobclient向YARN提交应用程序时，YARN会分两个阶段运行应用程序:首先，启动ApplicationMaster第二阶段，ApplicationMaster创建应用程序，为其申请资源，并监控操作直到结束。具体步骤如下:

1、用户向YARN提交应用程序，并指定ApplicationMaster程序、启动ApplicationMaster的命令和用户程序；

2、 RM将第一个容器分配给这个应用程序，与相应的NM通信，并要求它启动这个容器中的应用程序ApplicationMaster；

3、应用程序主向RM注册，然后将其拆分为内部子任务，为内部任务申请资源，并监控这些任务的运行，直到结束；

4、 AM通过轮询向RM申请和接收资源；

5、 RM为AM分配资源，并以容器的形式返回；

6、 AM申请资源后，与对应的NM进行通信，要求NM启动任务；

7、 NodeManager为任务设置运行环境，将任务启动命令写入脚本，通过运行脚本启动任务；

8、每个任务向AM报告其状态和进度，以便在任务失败时可以重新启动；

9、应用程序完成后，ApplicationMaster退出ResourceManager并关闭自己；

17. YARN 的资源调度三种模型了解吗

在Yarn中有三种调度器可供选择:FIFO调度器、容量调度器和公平调度器。

默认情况下，hadoop的Apache版本使用容量调度程序调度方法。默认情况下，CDH版本使用公平调度程序调度方法。

FIFO调度程序(先来先服务):

FIFO调度程序根据提交的顺序将应用程序排列在一个队列中，这是一个先进先出的队列。在分配资源时，它首先将资源分配给队列中最靠前的应用，然后在最靠前的应用的需求得到满足后将资源分配给下一个应用，以此类推。

FIFO调度程序是最简单和最容易理解的调度程序。它不需要任何配置，但不适合共享集群。大型应用程序可能会占用所有群集资源，导致其他应用程序被阻塞。比如正在执行一个大任务，占用了所有资源，然后提交了一个小任务，这个小任务就会一直被阻塞。

容量调度程序

对于容量调度器，有专门的队列来运行小任务，但是为小任务设置专门的队列会提前占用一定的集群资源，导致大任务的执行时间滞后于FIFO调度器。

公平调度程序(Fair Scheduler):

在公平调度器中，我们不需要提前占用一定的系统资源。公平调度程序将为所有正在运行的作业动态调整系统资源。

例如，当提交第一个大型作业时，只有该作业正在运行。此时，它将获得所有集群资源。当第二个小任务提交后，公平调度器会将一半的资源分配给这个小任务，这样两个任务就可以公平地共享集群资源。

需要注意的是，在公平调度器中，从第二个任务提交到获取资源会有一定的延迟，因为它需要等待第一个任务释放被占用的容器。小任务完成后也会释放自己占用的资源，大任务会获得所有系统资源。最终的结果是，公平调度器既能实现较高的资源利用率，又能保证小任务能及时完成。

1.hdfs 写流程HDFS 读写流程

2.hdfs 读流程HDFS 读写流程

3.hdfs 的体系结构

hdfs 有 namenode、secondraynamenode、datanode 组成。为 n+1 模式

NameNode 负责管理和记录整个文件系统的元数据

DataNode 负责管理用户的文件数据块，文件会按照固定的大小（blocksize）切成若干块后分布式存储在若干台 datanode 上，每一个文件块可以有多个副本，并存放在不同的 datanode 上，Datanode 会定期向 Namenode 汇报自身所保存的文件 block 信息，而 namenode 则会负责保持文件的副本数量

HDFS 的内部工作机制对客户端保持透明，客户端请求访问 HDFS 都是通过向 namenode 申请来进行

secondraynamenode 负责合并日志

4. 一个 datanode 宕机,怎么一个流程恢复

Datanode 宕机了后，如果是短暂的宕机，可以实现写好脚本监控，将它启动起来。如果是长时间宕机了，那么 datanode 上的数据应该已经被备份到其他机器了，那这台 datanode 就是一台新的 datanode 了，删除他的所有数据文件和状态文件，重新启动。

5. hadoop 的 namenode 宕机,怎么解决

先分析宕机后的损失，宕机后直接导致 client 无法访问，内存中的元数据丢失，但是硬盘中的元数据应该还存在，如果只是节点挂了，重启即可，如果是机器挂了，重启机器后看节点是否能重启，不能重启就要找到原因修复了。但是最终的解决方案应该是在设计集群的初期就考虑到这个问题，做 namenode 的 HA。

6. namenode 对元数据的管理

namenode 对数据的管理采用了三种存储形式：内存元数据(NameSystem)

磁盘元数据镜像文件(fsimage 镜像)

数据操作日志文件（可通过日志运算出元数据）(edit 日志文件)

7. 元数据的 checkpoint

每隔一段时间，会由 secondary namenode 将 namenode 上积累的所有 edits 和一个最新的

img

fsimage 下载到本地，并加载到内存进行 merge（这个过程称为 checkpoint）

namenode 和 secondary namenode 的工作目录存储结构完全相同，所以，当 namenode 故障退出需要重新恢复时，可以从secondary namenode 的工作目录中将fsimage 拷贝到namenode 的工作目录，以恢复 namenode 的元数据

8. yarn 资源调度流程

Yarn 的资源调度流程

9. hadoop 中 combiner 和 partition 的作用

combiner 是发生在 map 的最后一个阶段，父类就是 Reducer，意义就是对每一个 maptask 的输出进行局部汇总，以减小网络传输量，缓解网络传输瓶颈，提高 reducer 的执行效率。partition 的主要作用将 map 阶段产生的所有 kv 对分配给不同的 reducer task 处理，可以将reduce 阶段的处理负载进行分摊

10. 用 mapreduce 怎么处理数据倾斜问题？

数据倾斜：map /reduce 程序执行时，reduce 节点大部分执行完毕，但是有一个或者几个reduce 节点运行很慢，导致整个程序的处理时间很长，这是因为某一个 key 的条数比其他key 多很多（有时是百倍或者千倍之多），这条 key 所在的 reduce 节点所处理的数据量比其他节点就大很多，从而导致某几个节点迟迟运行不完，此称之为数据倾斜。

（1）局部聚合加全局聚合。

第一次在 map 阶段对那些导致了数据倾斜的 key 加上 1 到 n 的随机前缀，这样本来相同的 key 也会被分到多个 Reducer 中进行局部聚合，数量就会大大降低。

第二次mapreduce，去掉 key 的随机前缀，进行全局聚合。

思想：二次 mr，第一次将 key 随机散列到不同 reducer 进行处理达到负载均衡目的。第二次再根据去掉 key 的随机前缀，按原 key 进行 reduce 处理。

这个方法进行两次 mapreduce，性能稍差。

（2）增加 Reducer，提升并行度

JobConf.setNumReduceTasks(int)

（3）实现自定义分区

根据数据分布情况，自定义散列函数，将 key 均匀分配到不同 Reducer

11. shuffle 阶段,你怎么理解的

详解MapReduce 执行流程

1、 Mapreduce的map数量和reduce数量是由什么决定的,怎么配置map的数量由输入切片的数量决定，128M切分一个切片，只要是文件也分为一个切片，有多少个切片就有多少个mapTask；

reduce 数量自己配置。

13. MapReduce 优化经验

设置合理的 map 和 reduce 的个数。合理设置 blocksize

避免出现数据倾斜

combine 函数对数据进行压缩

小文件处理优化：事先合并成大文件，combineTextInputformat，在 hdfs 上用 mapreduce 将小文件合并成 SequenceFile 大文件（key:文件名，value：文件内容）

参数优化

14. 分别举例什么情况要使用 combiner，什么情况不使用？

求平均数的时候就不需要用 combiner，因为不会减少 reduce 执行数量。在其他的时候，可以依据情况，使用 combiner，来减少 map 的输出数量，减少拷贝到 reduce 的文件，从而减轻 reduce 的压力，节省网络开销，提升执行效率

15. MR 运行流程解析

详解MapReduce 执行流程

16. 简单描述一下 HDFS 的系统架构，怎么保证数据安全?

img

HDFS 数据安全性如何保证？

存储在HDFS 系统上的文件，会分割成 128M 大小的 block 存储在不同的节点上，block 的副

本数默认 3 份，也可配置成更多份；

第一个副本一般放置在与 client（客户端）所在的同一节点上（若客户端无 datanode，则随机放），第二个副本放置到与第一个副本同一机架的不同节点，第三个副本放到不同机架的datanode 节点，当取用时遵循就近原则；

datanode 已 block 为单位，每 3s 报告心跳状态，做 10min 内不报告心跳状态则 namenode 认为 block 已死掉，namonode 会把其上面的数据备份到其他一个 datanode 节点上，保证数据的副本数量；

datanode 会默认每小时把自己节点上的所有块状态信息报告给 namenode；

采用safemode 模式：datanode 会周期性的报告 block 信息。Namenode 会计算 block 的损坏率，当阀值<0.999f 时系统会进入安全模式，HDFS 只读不写。HDFS 元数据采用 secondaryname备份或者 HA 备份

17. 在通过客户端向 hdfs 中写数据的时候，如果某一台机器宕机了，会怎么处理

在写入的时候不会重新重新分配 datanode。如果写入时，一个 datanode

挂掉，会将已经写入的数据放置到 queue 的顶部，并将挂掉的 datanode 移出pipline，将数据写入到剩余的 datanode，在写入结束后， namenode 会收集datanode 的信息，发现此文件的 replication 没有达到配置的要求（default=3）, 然后寻找一个 datanode 保存副本。

18. Hadoop 优化有哪些方面

0）HDFS 小文件影响

（1）影响 NameNode 的寿命，因为文件元数据存储在 NameNode 的内存中

（2）影响计算引擎的任务数量，比如每个小的文件都会生成一个 Map 任务

1）数据输入小文件处理：

（1））合并小文件：对小文件进行归档（ Har）、自定义 Inputformat 将小文件存储成

SequenceFile 文件。

（2）采用 ConbinFileInputFormat 来作为输入，解决输入端大量小文件场景。

（3）对于大量小文件 Job，可以开启 JVM 重用。

2）Map 阶段

（1）增大环形缓冲区大小。由 100m 扩大到 200m

（2）增大环形缓冲区溢写的比例。由 80%扩大到 90%

（3）减少对溢写文件的 merge 次数。（10 个文件，一次 20 个 merge）

（4）不影响实际业务的前提下，采用 Combiner 提前合并，减少 I/O。3）Reduce 阶段

（1）合理设置 Map 和 Reduce 数：两个都不能设置太少，也不能设置太多。太少，会导致 Task 等待，延长处理时间；太多，会导致 Map、Reduce 任务间竞争资源，造成处理超时等错误。

（2）设置 Map、Reduce 共存：调整 slowstart.completedmaps 参数，使 Map 运行到一定程度后，Reduce 也开始运行，减少 Reduce 的等待时间。

（3）规避使用 Reduce，因为 Reduce 在用于连接数据集的时候将会产生大量的网络消耗。

（4）增加每个 Reduce 去 Map 中拿数据的并行数

（5）集群性能可以的前提下，增大 Reduce 端存储数据内存的大小。

4）IO 传输

（1）采用数据压缩的方式，减少网络 IO 的的时间。安装 Snappy 和 LZOP 压缩编码器。

（2）使用 SequenceFile 二进制文件

5）整体

（1）MapTask 默认内存大小为 1G，可以增加 MapTask 内存大小为 4-5g

（2）ReduceTask 默认内存大小为 1G，可以增加 ReduceTask 内存大小为 4-5g

（3）可以增加 MapTask 的 cpu 核数，增加 ReduceTask 的 CPU 核数

（4）增加每个 Container 的 CPU 核数和内存大小

（5）调整每个 Map Task 和 Reduce Task 最大重试次数

19. 大量数据求 topN(写出 mapreduce 的实现思路）

20. 列出正常工作的hadoop 集群中hadoop 都分别启动哪些进程以及他们的作用

1、 NameNode它是hadoop中的主服务器，管理文件系统名称空间和对集群中存储的文件的；

访问，保存有 metadate。

1、 SecondaryNameNode它不是namenode的冗余守护进程，而是提供周期检查点和清理任务帮助NN合并editslog，减少NN启动时间；
2、 DataNode它负责管理连接到节点的存储（一个集群中可以有多个节点）每个存储数据的节点运行一个datanode守护进程；
3、 ResourceManager（JobTracker）JobTracker负责调度DataNode上的工作每个DataNode；

有一个TaskTracker，它们执行实际工作。5.NodeManager（TaskTracker）执行任务

1、 DFSZKFailoverController高可用时它负责监控NN的状态，并及时的把状态信息写入ZK它通过一个独立线程周期性的调用NN上的一个特定接口来获取NN的健康状态FC也有选择谁作为ActiveNN的权利，因为最多只有两个节点，目前选择策略还比较简单（先到先得，轮换）；
2、 JournalNode高可用情况下存放namenode的editlog文件.21.Hadoop总job和Tasks之间的区别是什么？Job是我们对一个完整的mapreduce程序的抽象封装；

Task 是 job 运行时，每一个处理阶段的具体实例，如 map task，reduce task，maptask 和 reduce

task 都会有多个并发运行的实例22.Hadoop 高可用 HA 模式HDFS 高可用原理：

Hadoop HA（High Available）通过同时配置两个处于 Active/Passive 模式的 Namenode 来解决

上述问题，状态分别是 Active 和 Standby. Standby Namenode 作为热备份，从而允许在机器发生故障时能够快速进行故障转移，同时在日常维护的时候使用优雅的方式进行 Namenode 切换。Namenode 只能配置一主一备，不能多于两个 Namenode。

主Namenode 处理所有的操作请求（读写），而 Standby 只是作为 slave，维护尽可能同步的状态，使得故障时能够快速切换到 Standby。为了使 Standby Namenode 与 Active Namenode 数据保持同步，两个 Namenode 都与一组 Journal Node 进行通信。当主 Namenode 进行任务

的namespace 操作时，都会确保持久会修改日志到 Journal Node 节点中。Standby Namenode

持续监控这些 edit，当监测到变化时，将这些修改同步到自己的 namespace。

当进行故障转移时，Standby 在成为 Active Namenode 之前，会确保自己已经读取了 Journal Node 中的所有 edit 日志，从而保持数据状态与故障发生前一致。

为了确保故障转移能够快速完成，Standby Namenode 需要维护最新的 Block 位置信息，即每个 Block 副本存放在集群中的哪些节点上。为了达到这一点，Datanode 同时配置主备两个Namenode，并同时发送 Block 报告和心跳到两台 Namenode。

确保任何时刻只有一个 Namenode 处于 Active 状态非常重要，否则可能出现数据丢失或者数据损坏。当两台 Namenode 都认为自己的 Active Namenode 时，会同时尝试写入数据（不会再去检测和同步数据）。为了防止这种脑裂现象，Journal Nodes 只允许一个 Namenode 写入数据，内部通过维护 epoch 数来控制，从而安全地进行故障转移。

23. 简要描述安装配置一个 hadoop 集群的步骤

l使用 root 账户登录。

l修改 IP。

l修改 Host 主机名。

l配置 SSH 免密码登录。

l关闭防火墙。

l安装 JDK。

l上传解压 Hadoop 安装包。

l配置 Hadoop 的核心配置文件 hadoop-evn.sh ， core-site.xml ， mapred-site.xml ，

hdfs-site.xml，yarn-site.xml

l配置 hadoop 环境变量

l 格式化 hdfs # bin/hadoop namenode -format

l启动节点 start-all.sh

24. fsimage 和 edit 的区别

fsimage：filesystem image 的简写，文件镜像。

客户端修改文件时候，先更新内存中的 metadata 信息,只有当对文件操作成功的时候，才会写到 editlog。

fsimage 是文件 meta 信息的持久化的检查点。secondary namenode 会定期的将 fsimage 和

editlog 合并 dump 成新的 fsimage

25. yarn 的三大调度策略

lFIFO Scheduler 把应用按提交的顺序排成一个队列，这是一个先进先出队列，在进行资源分配的时候，先给队列中最头上的应用进行分配资源，待最头上的应用需求满足后再给下一个分配，以此类推。

lCapacity（容量）调度器，有一个专门的队列用来运行小任务，但是为小任务专门设置一个队列会预先占用一定的集群资源，这就导致大任务的执行时间会落后于使用 FIFO 调度器时的时间。

l在Fair（公平）调度器中，我们不需要预先占用一定的系统资源，Fair 调度器会为所有运行的 job 动态的调整系统资源。当第一个大 job 提交时，只有这一个 job 在运行，此时它获得了所有集群资源；当第二个小任务提交后，Fair 调度器会分配一半资源给这个小任务，让这两个任务公平的共享集群资源。

26. hadoop 的 shell 命令用的多吗?,说出一些常用的

l-ls

l-put

l-get

l-getmerge

l-mkdir

l-rm

27. 用 mr 实现用户 pv 的 top10？

map输入数据，将数据转换成（用户，访问次数）的键值对，然后 reduce 端实现聚合，并且将结果写入用户、访问次数的实体类，并且实现排序，最后的结果做一个 top10 的筛选

28. 一个文件只有一行，但是这行有 100G 大小，mr 会不会切分，我们应该怎么解决

重写inputformat

29. hdfs HA 机制，一台 namenode 宕机了， joualnode ， namenode ， edit.log fsimage 的变化

HDFS HA 机制及 Secondary NameNode 详解

30、 Mapreduce执行流程说一下？；

详解MapReduce 执行流程

1、 Shulffle过程瓶颈在哪里，你会怎么解决？；
2、详解MapReduce执行流程；

1.2.1 Hadoop常用端口号

Ødfs.namenode.http-address:50070

Ødfs.datanode.http-address:50075

ØSecondaryNameNode辅助名称节点端口号：50090

Ødfs.datanode.address:50010

Øfs.defaultFS:8020 或者9000

Øyarn.resourcemanager.webapp.address:8088

Ø历史服务器web访问端口：19888

1.2.2 Hadoop配置文件以及简单的Hadoop集群搭建

（1）配置文件：

core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml

hadoop-env.sh、yarn-env.sh、mapred-env.sh、slaves

（2）简单的集群搭建过程：

JDK安装

配置SSH免密登录

配置hadoop核心文件:

格式化namenode

1.2.3 HDFS读流程和写流程

略

1.2.4 MapReduce的Shuffle过程及Hadoop优化（包括：压缩、小文件、集群优化）

一、Shuffle机制

1）Map方法之后Reduce方法之前这段处理过程叫Shuffle

2）Map方法之后，数据首先进入到分区方法，把数据标记好分区，然后把数据发送到环形缓冲区；环形缓冲区默认大小100m，环形缓冲区达到80%时，进行溢写；溢写前对数据进行排序，排序按照对key的索引进行字典顺序排序，排序的手段快排；溢写产生大量溢写文件，需要对溢写文件进行归并排序；对溢写的文件也可以进行Combiner操作，前提是汇总操作，求平均值不行。最后将文件按照分区存储到磁盘，等待Reduce端拉取。

3）每个Reduce拉取Map端对应分区的数据。拉取数据后先存储到内存中，内存不够了，再存储到磁盘。拉取完所有数据后，采用归并排序将内存和磁盘中的数据都进行排序。在进入Reduce方法前，可以对数据进行分组操作。

二、Hadoop优化

0）HDFS小文件影响

（1）影响NameNode的寿命，因为文件元数据存储在NameNode的内存中

（2）影响计算引擎的任务数量，比如每个小的文件都会生成一个Map任务

1）数据输入小文件处理：

（1）合并小文件：对小文件进行归档（Har）、自定义Inputformat将小文件存储成SequenceFile文件。

（2）采用ConbinFileInputFormat来作为输入，解决输入端大量小文件场景。

（3）对于大量小文件Job，可以开启JVM重用。

2）Map阶段

（1）增大环形缓冲区大小。由100m扩大到200m

（2）增大环形缓冲区溢写的比例。由80%扩大到90%

（3）减少对溢写文件的merge次数。（10个文件，一次20个merge）

（4）不影响实际业务的前提下，采用Combiner提前合并，减少 I/O。

3）Reduce阶段

（1）合理设置Map和Reduce数：两个都不能设置太少，也不能设置太多。太少，会导致Task等待，延长处理时间；太多，会导致 Map、Reduce任务间竞争资源，造成处理超时等错误。

（2）设置Map、Reduce共存：调整slowstart.completedmaps参数，使Map运行到一定程度后，Reduce也开始运行，减少Reduce的等待时间。

（3）规避使用Reduce，因为Reduce在用于连接数据集的时候将会产生大量的网络消耗。

（4）增加每个Reduce去Map中拿数据的并行数

（5）集群性能可以的前提下，增大Reduce端存储数据内存的大小。

4）IO传输

（1）采用数据压缩的方式，减少网络IO的的时间。安装Snappy和LZOP压缩编码器。

（2）使用SequenceFile二进制文件

5）整体

（1）MapTask默认内存大小为1G，可以增加MapTask内存大小为4-5g

（2）ReduceTask默认内存大小为1G，可以增加ReduceTask内存大小为4-5g

（3）可以增加MapTask的cpu核数，增加ReduceTask的CPU核数

（4）增加每个Container的CPU核数和内存大小

（5）调整每个Map Task和Reduce Task最大重试次数

三、压缩

压缩格式	Hadoop自带？	算法	文件扩展名	支持切分	换成压缩格式后，原来的程序是否需要修改
DEFLATE	是，直接使用	DEFLATE	.deflate	否	和文本处理一样，不需要修改
Gzip	是，直接使用	DEFLATE	.gz	否	和文本处理一样，不需要修改
bzip2	是，直接使用	bzip2	.bz2	是	和文本处理一样，不需要修改
LZO	否，需要安装	LZO	.lzo	是	需要建索引，还需要指定输入格式
Snappy	否，需要安装	Snappy	.snappy	否	和文本处理一样，不需要修改

提示：如果面试过程问起，我们一般回答压缩方式为Snappy，特点速度快，缺点无法切分（可以回答在链式MR中，Reduce端输出使用bzip2压缩，以便后续的map任务对数据进行split）

四、切片机制

1）简单地按照文件的内容长度进行切片

2）切片大小，默认等于Block大小

3）切片时不考虑数据集整体，而是逐个针对每一个文件单独切片

提示：切片大小公式：max(0,min(Long_max,blockSize))

1.2.5 Yarn的Job提交流程

略

1.2.6 Yarn的默认调度器、调度器分类、以及他们之间的区别

1）Hadoop调度器重要分为三类：

FIFO 、Capacity Scheduler（容量调度器）和Fair Sceduler（公平调度器）。

Hadoop2.7.2默认的资源调度器是容量调度器

2）区别：

FIFO调度器：先进先出，同一时间队列中只有一个任务在执行。

容量调度器：多队列；每个队列内部先进先出，同一时间队列中只有一个任务在执行。队列的并行度为队列的个数。

公平调度器：多队列；每个队列内部按照缺额大小分配资源启动任务，同一时间队列中有多个任务执行。队列的并行度大于等于队列的个数。

3）一定要强调生产环境中不是使用的FifoScheduler，面试的时侯会发现候选人大概了解这几种调度器的区别，但是问在生产环境用哪种，却说使用的FifoScheduler（企业生产环境一定不会用这个调度的）

1.2.7 项目经验之LZO压缩

Hadoop默认不支持LZO压缩，如果需要支持LZO压缩，需要添加jar包，并在hadoop的cores-site.xml文件中添加相关压缩配置。

1.2.8 Hadoop参数调优

1）在hdfs-site.xml文件中配置多目录，最好提前配置好，否则更改目录需要重新启动集群

2）NameNode有一个工作线程池，用来处理不同DataNode的并发心跳以及客户端并发的元数据操作。

dfs.namenode.handler.count=20 * log2(Cluster Size)，比如集群规模为10台时，此参数设置为60

3）服务器节点上YARN可使用的物理内存总量，默认是8192（MB），注意，如果你的节点内存资源不够8GB，则需要调减小这个值，而YARN不会智能的探测节点的物理内存总量。yarn.nodemanager.resource.memory-mb

4）单个任务可申请的最多物理内存量，默认是8192（MB）。yarn.scheduler.maximum-allocation-mb

1.2.9 项目经验之基准测试

搭建完Hadoop集群后需要对HDFS读写性能和MR计算能力测试。测试jar包在hadoop的share文件夹下。

1.2.10 Hadoop宕机

1）如果MR造成系统宕机。此时要控制Yarn同时运行的任务数，和每个任务申请的最大内存。调整参数：yarn.scheduler.maximum-allocation-mb（单个任务可申请的最多物理内存量，默认是8192MB）

2）如果写入文件过量造成NameNode宕机。那么调高Kafka的存储大小，控制从Kafka到HDFS的写入速度。高峰期的时候用Kafka进行缓存，高峰期过去数据同步会自动跟上。

1.2.11 Hadoop解决数据倾斜方法

*1\*）提前在map进行combine，减少传输的数据量\

在Mapper加上combiner相当于提前进行reduce，即把一个Mapper中的相同key进行了聚合，减少shuffle过程中传输的数据量，以及Reducer端的计算量。

如果导致数据倾斜的key 大量分布在不同的mapper的时候，这种方法就不是很有效了。

*2\*）导致数据倾斜的key 大量分布在不同的mapper\

（1）局部聚合加全局聚合。

第一次在map阶段对那些导致了数据倾斜的key 加上1到n的随机前缀，这样本来相同的key 也会被分到多个Reducer中进行局部聚合，数量就会大大降低。

第二次mapreduce，去掉key的随机前缀，进行全局聚合。

思想：二次mr，第一次将key随机散列到不同reducer进行处理达到负载均衡目的。第二次再根据去掉key的随机前缀，按原key进行reduce处理。

这个方法进行两次mapreduce，性能稍差。

（2）增加Reducer，提升并行度 JobConf.setNumReduceTasks(int)

（3）实现自定义分区

根据数据分布情况，自定义散列函数，将key均匀分配到不同Reducer

1.2.12 集群资源分配参数（项目中遇到的问题）

集群有30台机器，跑mr任务的时候发现5个map任务全都分配到了同一台机器上，这个可能是由于什么原因导致的吗？

解决方案：yarn.scheduler.fair.assignmultiple 这个参数默认是开的，需要关掉

https://blog.csdn.net/leone911/article/details/51605172

1.2.1 Hadoop常用端口号

	hadoop2.x	Hadoop3.x
访问HDFS端口	50070	9870
访问MR执行情况端口	8088	8088
历史服务器	19888	19888
客户端访问集群端口	9000	8020

1.2.2 Hadoop配置文件以及简单的Hadoop集群搭建

（1）配置文件：

Hadoop2.x core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml slaves

Hadoop3.x core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml workers

（2）简单的集群搭建过程：

JDK安装

配置SSH免密登录

配置hadoop核心文件

格式化namenode

1.2.3 HDFS读流程和写流程

img

1.2.4 HDFS小文件处理

1）会有什么影响

（1）存储层面：

1个文件块，占用namenode多大内存150字节

1亿个小文件*150字节

1个文件块 * 150字节

128G能存储多少文件块？ 128 * 102410241024byte/150字节 = 9亿文件块

（2）计算层面：

每个小文件都会起到一个MapTask，占用了大量计算资源

2）怎么解决

（1）采用har归档方式，将小文件归档

（2）采用CombineTextInputFormat

（3）有小文件场景开启JVM重用；如果没有小文件，不要开启JVM重用，因为会一直占用使用到的task卡槽，直到任务完成才释放。

JVM重用可以使得JVM实例在同一个job中重新使用N次，N的值可以在Hadoop的mapred-site.xml文件中进行配置。通常在10-20之间


  mapreduce.job.jvm.numtasks
  10
  How many tasks to run per jvm,if set to -1 ,there is  no limit

1.2.5 HDFS的NameNode内存

1）Hadoop2.x系列，配置NameNode默认2000m

2）Hadoop3.x系列，配置NameNode内存是动态分配的

NameNode内存最小值1G，每增加100万个block，增加1G内存。

1.2.6 NameNode心跳并发配置

img

企业经验：dfs.namenode.handler.count=

，比如集群规模（DataNode台数）为3台时，此参数设置为21。可通过简单的python代码计算该值，代码如下。

1.2.7 纠删码原理

CPU资源换存储空间。

img

1.2.8 异构存储（冷热数据分离）

img

1.2.9 Shuffle及优化

**1、Shuffle过程\

img

**2、优化\

1）Map阶段

（1）增大环形缓冲区大小。由100m扩大到200m

（2）增大环形缓冲区溢写的比例。由80%扩大到90%

（3）减少对溢写文件的merge次数。（10个文件，一次20个merge）

（4）不影响实际业务的前提下，采用Combiner提前合并，减少 I/O。

2）Reduce阶段

（1）合理设置Map和Reduce数：两个都不能设置太少，也不能设置太多。太少，会导致Task等待，延长处理时间；太多，会导致 Map、Reduce任务间竞争资源，造成处理超时等错误。

（2）设置Map、Reduce共存：调整slowstart.completedmaps参数，使Map运行到一定程度后，Reduce也开始运行，减少Reduce的等待时间。

（3）规避使用Reduce，因为Reduce在用于连接数据集的时候将会产生大量的网络消耗。

（4）增加每个Reduce去Map中拿数据的并行数

（5）集群性能可以的前提下，增大Reduce端存储数据内存的大小。

3）IO传输

采用数据压缩的方式，减少网络IO的的时间。安装Snappy和LZOP压缩编码器。

压缩：

（1）map输入端主要考虑数据量大小和切片，支持切片的有Bzip2、LZO。注意：LZO要想支持切片必须创建索引；

（2）map输出端主要考虑速度，速度快的snappy、LZO；

（3）reduce输出端主要看具体需求，例如作为下一个mr输入需要考虑切片，永久保存考虑压缩率比较大的gzip。

4）整体

（1）NodeManager默认内存8G，需要根据服务器实际配置灵活调整，例如128G内存，配置为100G内存左右，yarn.nodemanager.resource.memory-mb。

（2）单容器默认内存8G，需要根据该任务的数据量灵活调整，例如128m数据，配置1G内存，yarn.scheduler.maximum-allocation-mb。

（3）mapreduce.map.memory.mb ：控制分配给MapTask内存上限，如果超过会kill掉进程（报：Container is running beyond physical memory limits. Current usage:565MB of512MB physical memory used；Killing Container）。默认内存大小为1G，如果数据量是128m，正常不需要调整内存；如果数据量大于128m，可以增加MapTask内存，最大可以增加到4-5g。

（4）mapreduce.reduce.memory.mb：控制分配给ReduceTask内存上限。默认内存大小为1G，如果数据量是128m，正常不需要调整内存；如果数据量大于128m，可以增加ReduceTask内存大小为4-5g。

（5）mapreduce.map.java.opts：控制MapTask堆内存大小。（如果内存不够，报：java.lang.OutOfMemoryError）

（6）mapreduce.reduce.java.opts：控制ReduceTask堆内存大小。（如果内存不够，报：java.lang.OutOfMemoryError）

（7）可以增加MapTask的CPU核数，增加ReduceTask的CPU核数

（8）增加每个Container的CPU核数和内存大小

（9）在hdfs-site.xml文件中配置多目录（多磁盘）

1.2.10 Yarn工作机制

img

1.2.11 Yarn调度器

1）Hadoop调度器重要分为三类：

FIFO 、Capacity Scheduler（容量调度器）和Fair Sceduler（公平调度器）。

Apache默认的资源调度器是容量调度器；

CDH默认的资源调度器是公平调度器。

2）区别：

FIFO调度器支持单队列、先进先出生产环境不会用。

容量调度器支持多队列。队列资源分配，优先选择资源占用率最低的队列分配资源；作业资源分配，按照作业的优先级和提交时间顺序分配资源；容器资源分配，本地原则（同一节点/同一机架/不同节点不同机架）

公平调度器支持多队列，保证每个任务公平享有队列资源。资源不够时可以按照缺额分配。

3）在生产环境下怎么选择？

大厂：如果对并发度要求比较高，选择公平，要求服务器性能必须OK；

中小公司，集群服务器资源不太充裕选择容量。

4）在生产环境怎么创建队列？

（1）调度器默认就1个default队列，不能满足生产要求。

（2）按照框架：hive /spark/ flink 每个框架的任务放入指定的队列（企业用的不是特别多）

（3）按照业务模块：登录注册、购物车、下单、业务部门1、业务部门2

5）创建多队列的好处？

（1）因为担心员工不小心，写递归死循环代码，把所有资源全部耗尽。

（2）实现任务的**降级\使用，特殊时期保证重要的任务队列资源充足。

业务部门1（重要）=》业务部门2（比较重要）=》下单（一般）=》购物车（一般）=》登录注册（次要）

1.2.12 项目经验之基准测试

搭建完Hadoop集群后需要对HDFS读写性能和MR计算能力测试。测试jar包在hadoop的share文件夹下。

集群总吞吐量 = 带宽*集群节点个数/副本数

例如：100m/s * 10台/ 3= 333m/s

注意：如果测试数据在本地，那副本数-1。因为这个副本不占集群吞吐量。如果数据在集群外，向该集群上传，需要占用带宽。本公式就不用减1。

1.2.13 Hadoop宕机

2）如果写入文件过快造成NameNode宕机。那么调高Kafka的存储大小，控制从Kafka到HDFS的写入速度。例如，可以调整Flume每批次拉取数据量的大小参数batchsize。

1.2.14 Hadoop解决数据倾斜方法

1）提前在map进行combine，减少传输的数据量\

在Mapper加上combiner相当于提前进行reduce，即把一个Mapper中的相同key进行了聚合，减少shuffle过程中传输的数据量，以及Reducer端的计算量。

如果导致数据倾斜的key大量分布在不同的mapper的时候，这种方法就不是很有效了。

2）导致数据倾斜的key 大量分布在不同的mapper\

（1）局部聚合加全局聚合。

第一次在map阶段对那些导致了数据倾斜的key 加上1到n的随机前缀，这样本来相同的key 也会被分到多个Reducer中进行局部聚合，数量就会大大降低。

第二次mapreduce，去掉key的随机前缀，进行全局聚合。

思想：二次mr，第一次将key随机散列到不同reducer进行处理达到负载均衡目的。第二次再根据去掉key的随机前缀，按原key进行reduce处理。

这个方法进行两次mapreduce，性能稍差。

（2）增加Reducer，提升并行度 JobConf.setNumReduceTasks(int)

（3）实现自定义分区

根据数据分布情况，自定义散列函数，将key均匀分配到不同Reducer

你可能感兴趣的:(java,hadoop,大数据,分布式)

JSON 与 AJAX Auscy json ajax 前端
一、JSON（JavaScriptObjectNotation）1.数据类型与语法细节支持的数据类型：基本类型：字符串（需用双引号）、数字、布尔值（true/false）、null。复杂类型：数组（[]）、对象（{}）。严格语法规范：键名必须用双引号包裹（如"name":"张三"）。数组元素用逗号分隔，最后一个元素后不能有多余逗号。数字不能以0开头（如012会被解析为12），不支持八进制/十六进制
JavaScript 树形菜单总结 Auscy microsoft
树形菜单是前端开发中常见的交互组件，用于展示具有层级关系的数据（如文件目录、分类列表、组织架构等）。以下从核心概念、实现方式、常见功能及优化方向等方面进行总结。一、核心概念层级结构：数据以父子嵌套形式存在，如{id:1,children:[{id:2}]}。节点：树形结构的基本单元，包含自身信息及子节点（若有）。展开/折叠：子节点的显示与隐藏切换，是树形菜单的核心交互。递归渲染：因数据层级不固定，
精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
深入剖析OpenJDK 18 GA源码：Java平台最新发展想法臃肿
本文还有配套的精品资源，点击获取简介：OpenJDK18GA作为Java开发的关键里程碑，提供了诸多新特性和改进。本文章深入探讨了OpenJDK18GA源码，揭示其内部机制，帮助开发者更好地理解和利用这个版本。文章还涵盖了PatternMatching、SealedClasses、Records、JEP395、JEP406和JEP407等特性，以及HotSpot虚拟机、编译器、垃圾收集器、内存模型
Java大厂面试实录：谢飞机的电商场景技术问答（Spring Cloud、MyBatis、Redis、Kafka、AI等）
Java大厂面试实录：谢飞机的电商场景技术问答（SpringCloud、MyBatis、Redis、Kafka、AI等）本文模拟知名互联网大厂Java后端岗位面试流程，以电商业务为主线，由严肃面试官与“水货”程序员谢飞机展开有趣的对话，涵盖SpringCloud、MyBatis、Redis、Kafka、SpringSecurity、AI等热门技术栈，并附详细解析，助力求职者备战大厂面试。故事设定谢
【超硬核】JVM源码解读：Java方法main在虚拟机上解释执行 HeapDump性能社区 java 开发语言后端 jvm
本文由HeapDump性能社区首席讲师鸠摩（马智）授权整理发布第1篇-关于Java虚拟机HotSpot，开篇说的简单点开讲Java运行时，这一篇讲一些简单的内容。我们写的主类中的main()方法是如何被Java虚拟机调用到的？在Java类中的一些方法会被由C/C++编写的HotSpot虚拟机的C/C++函数调用，不过由于Java方法与C/C++函数的调用约定不同，所以并不能直接调用，需要JavaC
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（Spring Boot、MyBatis、Kafka、Redis、AI等）来旺 Java场景面试宝典 Java Spring Boot MyBatis Kafka Redis 微服务 AI
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（SpringBoot、MyBatis、Kafka、Redis、AI等）互联网大厂技术面试不仅考察技术深度，更注重业务场景与系统设计能力。本篇以严肃面试官与“水货”程序员谢飞机的对话，带你体验音视频业务场景下的Java面试全过程，涵盖主流技术栈，并附详细答案解析，助你面试无忧。故事场景设定谢飞机是一名有趣但技术基础略显薄弱的程序员，这次应
【前端】jQuery数组合并去重方法总结
在jQuery中合并多个数组并去重，推荐使用原生JavaScript的Set对象（高效简单）或$.unique()（仅适用于DOM元素，不适用于普通数组）。以下是完整解决方案：方法1：使用ES6Set（推荐）//定义多个数组constarr1=[1,2,3];constarr2=[2,3,4];constarr3=[3,4,5];//合并数组并用Set去重constmergedArray=[...
php 高并发下日志量巨大，如何高效采集、存储、分析贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.问题背景高并发系统每秒产生大量日志（如访问日志、错误日志、业务日志等）。单机写入、存储、分析能力有限，容易成为瓶颈。需要支持实时采集、分布式存储、快速检索与分析。2.主流架构方案一、分布式日志采集架构[应用服务器(PHP等)]|v[日志采集Agent（如Filebeat、Fluentd、Logstash）]|v[消息队列/缓冲（如Kafka、Redis、RabbitMQ）]|v[日志存储（如E
MySQL Explain 详解：从入门到精通，让你的 SQL 飞起来
引言：为什么Explain是SQL优化的“照妖镜”？在Java开发中，我们常常会遇到数据库性能瓶颈的问题。一条看似简单的SQL语句，在数据量增长到一定规模后，可能会从毫秒级响应变成秒级甚至分钟级响应，直接拖慢整个应用的性能。此时，你是否曾困惑于：为什么这条SQL突然变慢了？索引明明建了，为什么没生效？到底是哪里出了问题？答案就藏在MySQL的EXPLAIN命令里。EXPLAIN就像一面“照妖镜”，
Java特性之设计模式【责任链模式】 Naijia_OvO Java特性 java 设计模式责任链模式
一、责任链模式概述顾名思义，责任链模式（ChainofResponsibilityPattern）为请求创建了一个接收者对象的链。这种模式给予请求的类型，对请求的发送者和接收者进行解耦。这种类型的设计模式属于行为型模式在这种模式中，通常每个接收者都包含对另一个接收者的引用。如果一个对象不能处理该请求，那么它会把相同的请求传给下一个接收者，依此类推主要解决：职责链上的处理者负责处理请求，客户只需要将
日历插件-FullCalendar的详细使用老马聊技术 JavaScript 前端 javascript
一、介绍FullCalendar是一个功能强大、高度可定制的JavaScript日历组件，用于在网页中显示和管理日历事件。它支持多种视图（月、周、日等），可以轻松集成各种框架，并提供丰富的事件处理功能。二、实操案例具体代码如下：FullCalendar日期选择body{font-family:Arial,sans-serif;margin:20px;}#calendar{max-width:900
react-native android 环境搭建
环境：macjava版本：Java11最重要：一定要一定要一定要react涉及到很多的依赖下载，gradle和react相关的，第一次安装环境时有外网环境会快速很多。安装nodejs安装react-nativenpminstallreact-native-clinpminstallreact-native创建一个新项目react-nativeinitfirstReact替换gradle下载源rep
Java 调用 HTTP 接口的 7 种方式：全网最全指南
Java调用HTTP接口的7种方式：全网最全指南在开发过程中，调用HTTP接口是最常见的需求之一。本文将详细介绍Java中7种主流的调用HTTP接口的方式，包括每种工具的优缺点和完整代码实现。1.使用RestTemplateRestTemplate是Spring提供的同步HTTP客户端，适用于传统项目。尽管从Spring5开始被标记为过时，它仍然是许多开发者的首选。示例代码importorg.sp
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
RocketMQ 之死信队列 firepation RocketMQ rocketmq
在分布式消息系统中，消息的可靠传递和处理至关重要。然而，由于各种原因（如消息处理失败、消费超时等），一些消息可能无法被正常消费。这些无法被消费的消息如果不加以处理，会影响系统的稳定性和数据一致性。为了解决这一问题，RocketMQ提供了死信队列（DeadLetterQueue，DLQ）机制。本文将深入探讨RocketMQ的死信队列，包括其实现原理、应用场景以及使用示例。什么是死信队列？死信队列是一
javascript高级程序设计第3版——第12章 DOM2与DOM3 weixin_30687587 javascript 数据结构与算法 ViewUI
12章——DOM2与DOM3为了增强D0M1，DOM级规范定义了一些模块。DOM2核心：为不同的DOM类型引入了一些与XML命名空间有关的方法，还定义了以编程方式创建Document实例的方法；DOM2级样式：针对操作元素的样式而开发；其特性总结：1.每个元素都有一个关联的style对象，可用来确定和修改行内样式；2.要确定某个元素的计算样式，可使用getComgetComputedStyle（）
Java设计模式实战：高频场景解析与避坑指南 mckim_ 笔记学习 java 设计模式
引言设计模式是软件开发的基石，但许多开发者面对23种模式时容易陷入“学完就忘”或“滥用模式”的困境。本文从工业级项目视角出发，精选10种高频设计模式，结合真实代码案例与主流框架应用，帮你建立模式思维，拒绝纸上谈兵。一、创建型模式：告别new的暴力美学1.工厂方法模式（FactoryMethod）核心痛点：对象创建逻辑散落各处，难以统一管理。场景案例：电商平台需要支持多种支付方式（支付宝、微信、银联
JavaScript 基础09：Web APIs——日期对象、DOM节点梦想当全栈 JavaScript javascript 前端开发语言
JavaScript基础09：WebAPIs——日期对象、DOM节点进一步学习DOM相关知识，实现可交互的网页特效能够插入、删除和替换元素节点。能够依据元素节点关系查找节点。一、日期对象掌握Date日期对象的使用，动态获取当前计算机的时间。ECMAScript中内置了获取系统时间的对象Date，使用Date时与之前学习的内置对象console和Math不同，它需要借助new关键字才能使用。1.实例
《Java前端开发全栈指南：从Servlet到现代框架实战》
前言在当今Web开发领域，Java依然是后端开发的主力语言，而随着前后端分离架构的普及，Java开发者也需要掌握前端技术栈。本文将全面介绍JavaWeb前端开发的核心技术，包括传统Servlet/JSP体系、现代前端框架集成方案，以及全栈开发的最佳实践。通过本文，您将了解如何构建现代化的JavaWeb应用前端界面。一、JavaWeb前端技术演进1.1传统技术栈Servlet：JavaWeb基础，处
javaSE面试题---语法基础、面向对象、常用类、集合、多线程、文件和IO yang_xiao_wu_ java 面试开发语言 javase java基础多线程文件和IO
目录语法基础1.jdkjrejvm区别2.基本数据类型3.引用数据类型4.自动类型转换、强制类型转换5.常见的运算符6.&和&&区别7.++--在前和在后的区别8.+=有什么作用9.switch..case中switch支持哪些数据类型10.break和continue区别11.while和dowhile区别12.如何生成一个取值范围在[min,max]之间的随机数13.数组的长度如何获取？数组下
JAVA 高频八股文 Day03 Conqueror675 java 开发语言
12.TCP和Http的区别是什么TCP是传输层协议，负责建立可靠的点对点连接，确保数据有序、完整地传输（如铁路轨道）；HTTP是应用层协议，基于TCP构建，定义了Web服务交互的报文格式和规则（如货运订单）。TCP关注数据如何可靠送达，通过三次握手建立连接、流量控制等机制保证传输；HTTP关注传输内容的意义，提供请求/响应语义（GET/POST等）和无状态通信。补充：说一下什么是三次握手四次挥手
JVM字节码加载与存储中的细节
问题引出：为什么Java定义int型变量为32767时使用的是bipush32767，而定义int型变量为32768时使用的是ldc#4？在Java中，如果这样定义int型变量：publicclassTest{publicstaticvoidmain(String[]args){inti=0;intj=5;intk=6;intm=32768;intn=32767;}}变量对应的字节码文件内容是这样
JVM与Spring Boot核心解析 AIHacksCash Java场景面试宝典 Java JVM Spring Boot
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
HashMap的Get(),Put()源码解析 Ttang23 哈希算法散列表算法
1、什么是HashMap？HashMap是Java中用于存储键值对（Key-Value）的集合类，它实现了Map接口。其核心特点是：无序性：不保证元素的存储顺序，也不保证顺序恒定不变。唯一性：键（Key）不能重复，若插入重复键会覆盖原有值。允许null：允许一个null键和任意数量的null值。非线程安全：相比HashTable，HashMap不支持同步，性能更高。2.核心数据结构：哈希表（Has
Java中的Tomcat，开启Web应用腾飞【基础版】
目录一、Tomcat初登场：揭开神秘面纱（一）啥是Tomcat（二）为啥要有Tomcat二、Tomcat的安装与启动：开启第一步（一）下载Tomcat（二）启动Tomcat三、Tomcat的目录结构：探秘内部布局（一）核心目录介绍（二）目录间的协同工作四、部署JavaWeb应用到Tomcat：让应用上线（一）打包Web应用为WAR文件（二）部署WAR文件到Tomcat五、Tomcat的配置优化：让
Java Web 之 Session 详解艾伦~耶格尔 java 开发语言后端前端 session
在JavaWeb开发中，Session就像网站的专属记忆管家，为每个用户保管着重要的信息和状态，确保用户在网站的旅程顺畅无阻。场景一：想象你去一家大型超市购物，推着购物车挑选商品。这个购物车就如同Session，它记录了你的购物信息，方便你在结账时一次性结算。场景二：你在玩一个在线游戏，登录账号后，你的游戏进度、等级、装备等信息都会被保存在Session中，即使你中途关闭游戏，下次登录时依然可以继
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/

Hadoop

1.请说下HDFS读写流程；

2. HDFS 在读取文件的时候，如果其中一个块突然损坏了怎么办

3. HDFS 在上传文件的时候，如果其中一个 DataNode 突然挂掉了怎么办

4. NameNode 在启动的时候会做哪些操作

5. Secondary NameNode 了解吗，它的工作机制是怎样的

6. Secondary NameNode 不能恢复 NameNode 的全部数据，那如何保证NameNode 数据存储安全

7. 在 NameNode HA 中，会出现脑裂问题吗？怎么解决脑裂

8. 小文件过多会有什么危害，如何避免

9. 请说下 HDFS 的组织架构

10. 请说下 MR 中 Map Task 的工作机制

11. 请说下 MR 中 Reduce Task 的工作机制

12. 请说下 MR 中 Shuffle 阶段

13. Shuffle 阶段的数据压缩机制了解吗

14. 在写 MR 时，什么情况下可以使用规约

15. YARN 集群的架构和工作原理知道多少

16. YARN 的任务提交流程是怎样的

17. YARN 的资源调度三种模型了解吗

1.hdfs 写流程HDFS 读写流程

2.hdfs 读流程HDFS 读写流程

3.hdfs 的体系结构

4. 一个 datanode 宕机,怎么一个流程恢复

5. hadoop 的 namenode 宕机,怎么解决

6. namenode 对元数据的管理

7. 元数据的 checkpoint

8. yarn 资源调度流程

9. hadoop 中 combiner 和 partition 的作用

10. 用 mapreduce 怎么处理数据倾斜问题？

11. shuffle 阶段,你怎么理解的

13. MapReduce 优化经验

14. 分别举例什么情况要使用 combiner，什么情况不使用？

15. MR 运行流程解析

16. 简单描述一下 HDFS 的系统架构，怎么保证数据安全?

17. 在通过客户端向 hdfs 中写数据的时候，如果某一台机器宕机了，会怎么处理

18. Hadoop 优化有哪些方面

19. 大量数据求 topN(写出 mapreduce 的实现思路）

20. 列出正常工作的hadoop 集群中hadoop 都分别启动哪些进程以及他们的作用

23. 简要描述安装配置一个 hadoop 集群的步骤

24. fsimage 和 edit 的区别

25. yarn 的三大调度策略

26. hadoop 的 shell 命令用的多吗?,说出一些常用的

27. 用 mr 实现用户 pv 的 top10？

28. 一个文件只有一行，但是这行有 100G 大小，mr 会不会切分，我们应该怎么解决

29. hdfs HA 机制， 一台 namenode 宕机了， joualnode ， namenode ， edit.log fsimage 的 变 化

1.2.1 Hadoop常用端口号

1.2.2 Hadoop配置文件以及简单的Hadoop集群搭建

1.2.3 HDFS读流程和写流程

1.2.4 MapReduce的Shuffle过程及Hadoop优化（包括：压缩、小文件、集群优化）

1.2.5 Yarn的Job提交流程

1.2.6 Yarn的默认调度器、调度器分类、以及他们之间的区别

1.2.7 项目经验之LZO压缩

1.2.8 Hadoop参数调优

1.2.9 项目经验之基准测试

1.2.10 Hadoop宕机

1.2.11 Hadoop解决数据倾斜方法

1.2.12 集群资源分配参数（项目中遇到的问题）

1.2.1 Hadoop常用端口号

1.2.2 Hadoop配置文件以及简单的Hadoop集群搭建

1.2.3 HDFS读流程和写流程

1.2.4 HDFS小文件处理

1.2.5 HDFS的NameNode内存

1.2.6 NameNode心跳并发配置

1.2.7 纠删码原理

1.2.8 异构存储（冷热数据分离）

1.2.9 Shuffle及优化

1.2.10 Yarn工作机制

1.2.11 Yarn调度器

1.2.12 项目经验之基准测试

1.2.13 Hadoop宕机

1.2.14 Hadoop解决数据倾斜方法

你可能感兴趣的:(java,hadoop,大数据,分布式)

29. hdfs HA 机制，一台 namenode 宕机了， joualnode ， namenode ， edit.log fsimage 的变化