艾姆鸥

2020大数据开发工程师知识点整理（更新）

写在前面

博主今年在准备大数据工程师岗位的校招，整理了大数据相关的部分知识点，希望可以帮助和博主一样备战秋招大数据岗位的朋友，另外，博主正在准备各大厂已经出来的面试题Q&A的整理，会在这两个星期内发出来，感兴趣的同学可以关注我哦~

如果这篇博文在你面试的时候有帮助的话，欢迎回来还愿哦~

写在前面

java

Hadoop

hdfs

Yarn

hive

zookeeper

flume

sqoop

HBase

java

1.请说明一下JAVA反射的实现过程和作用分别是什么？

答：实现过程：

java语言编译之后会生成一个字节码文件，反射就是通过字节码文件找到某一个类、类中的方法以及属性等。反射的实现主要借助以下四个类：Class：类对象，Constructor：类的构造器，Field：类中的属性对象，Method：类中的方法对象

作用：

反射机制指的是程序在运行时能够获取自身的信息。只要给定类的名字，那么就可以通过反射机制来获取类的所有信息

2.请简单描述一下JVM加载class文件的原理是什么

答：

JVM中类的装载是由ClassLoader和它的子类来实现的，ClassLoader是一个重要的Java运行时系统组件。它负责在运行时查找和装入类文件的类。类的加载是指把类的.class文件中的数据读入到内存中，通常是创建一个字节数组读入.class文件。

Java中的所有类，都需要由类加载器装载到JVM中才能运行。类加载器本身也是一个类，而它的工作就是把class文件从硬盘读取到内存中。在写程序的时候，我们几乎不需要关心类的加载，因为这些都是隐式装载的，除非我们有特殊的用法，像是反射，就需要显示的加载所需要的类。类装载方式，有两种：

隐式装载：

程序在运行过程中当碰到通过new等方式生成对象时，隐式调用类装载器加载对应的类到JVM中

显式装载

通过class.forname()等方法，显示加载需要的类，隐式加载与显式加载的本质是一样的。

java的加载是动态的，它并不会一次性将所有类全部加载后再运行，而是保证程序运行的基础类（像是基类）完全加载到JVM中，至于其他类，则在需要的时候才加载，这是为了节省内存。

3.请列举一下，在JAVA虚拟机中，哪些对象可作为ROOT对象

答：

虚拟机中的引用对象

方法区中类静态属性引用的对象

方法区中常量引用对象

本地方法栈中JNI引用对象

4.GC如何判断对象是否需要被回收

答：

即使在可达性分析算法中不可达的对象，也并非是“非回收不可”的，这时候他们暂时处于“等待”阶段，要真正宣告一个对象回收，至少要经历两次标记过程：如果对象在进行可达性分析后发现没有与GC ROOTs相连接的引用链，那么它将会被第一次标记并且进行一次筛选，筛选的条件是此对象是否有必要执行finalize()方法。当对象没有覆盖finalize()方法，或者finalize()方法已经被虚拟机调用过，虚拟机将这两种情况都视为“没有必要执行”。（即意味着直接回收）

如果这个对象被判定为有必要执行finalize()方法，那么这个对象将会放置在一个叫做F-Queue的队列中，并在稍后由一个由虚拟机自动建立的、低优先级的Finalizer()线程去执行它，这里所谓的“执行”是指虚拟机会触发这个方法，但并不承诺会等待它运行结束，这样做的原因是，如果一个对象在finalize()方法中执行缓慢，或者发生了死循环（更极端的情况），将很可能会导致整个内存回收系统崩溃。

finalize()方法是对象逃脱回收的最后一次机会，稍后GC将对F-Queue中的对象进行第二次小规模的标记，如果对象要在finalize()跳出回收————只要重新与引用链上的任何一个对象建立关联即可，比如把自己（this关键字）赋值给某个类变量或者对象的成员变量，那在第二次标记时，它将被移除出“即将回收”的集合；如果对象这时候还没有逃脱，那基本上它就真的要被回收了。

5.面向对象的特征有哪些方面

答：

(抽象)、继承、封装、多态

抽象：抽象是将一类对象的共同特征总结出来构造类的过程，包括数据抽象和行为抽象两方面。抽象只关注对象有哪些属性和行为，并不关注这些行为的细节是什么

继承：继承是从已有类得到继承信息创建类的过程。提供继承的类叫父类（基类）、得到继承的类叫子类（派生类）

封装：通常认为封装是把数据和操作数据的方法绑定起来，对数据的访问只能通过已定义的接口。可以说，封装就是隐藏一切可隐藏的东西，只向外界提供最简单的编程接口

多态：多态性是指允许不同子类型的对象对同一消息作出不同的响应。简单的说就是用同样的对象调用同样的方法但是做了不同的事情。实现多态需要做两件事：1.方法重写（子类继承父类并重写父类中的方法） 2.对象造型（用父类型引用子类型对象，这样同样的引用调用同样的方法就会根据子类对象不同而表现出不同的行为）

6.解释内存中的栈（stack）、堆（heap）和静态区（static area）的用法

答：

栈控件操作起来最快但是栈很小，通常大量的对象都是放在堆空间

String str = new String("hello");

上面的语句中变量str放在栈上，用new创建出来的字符串对象放在堆上，而"hello"这个字面量放在静态区

7.Math.round(11.5)等于多少? Math.round(-11.5)等于多少?

答：

Math.round(11.5)的返回值是12,Math.round(-11.5)的返回值是-11.四舍五入的原理是在参数上加0.5，然后向下取整

8.用最有效率的方法计算2乘以8？

答：

2 << 3（左移3位相当于乘以2的3次方，右移3位相当于乘以2的3次方）

9.构造器是否可被重写?

答：

构造器不能被继承，因此不能被重写，但可以被重载。

10.两个对象值相同(x.equals(y) == true), 但却可有不同的hashcode，这句话对不对？

答：

不对，如果两个对象x和y满足(x.equals(y) == true),它们的hashcode应当相同。Java对于equals方法和hashCode()方法时这样规定的：1.如果两个对象相同（equals()返回true），那么它们的hashCode值一定相同；2.如果两个对象的hashCode相同，两个对象不一定相同

equals返回true是是两个对象hashcode相同的充分不必要条件

11.抽象类和接口有什么异同

答：

抽象类和接口都不能够实例化，但可以定义抽象类和接口类型的引用。

一个类如果继承了某个抽象类或者实现了某个接口都需要对其中的抽象方法全部进行实现，否则该类任然需要被声明为抽象类。

接口比抽象类更加抽象，因为抽象类中可以定义构造器，可以有抽象方法和具体方法，而接口中不能定义构造器而且其中的方法全部都是抽象方法。

抽象类中的成员可以是private、default、protected、public的，而接口中的成员全都是public的。

抽象类中可以定义成员变量，而接口中定义的成员变量实际上都是常量。

有抽象方法的类必须被声明为抽象类，而抽象类未必要有抽象方法

12.Jdk与Jre与Jvm

答：

JDK ：（Java Development Kit），Java 开发工具包。jdk 是整个 Java 开发的核心，它集成了 jre 和一些好用的小工具。例如：javac.exe，java.exe，jar.exe 等。

JRE ：（Java Runtime Environment），Java 运行时环境。它主要包含两个部分，jvm 的标准实现和 Java 的一些基本类库。它相对于 jvm 来说，多出来的是一部分的 Java 类库。

JVM ：（Java Virtual Machine）， Java 虚拟机。它只认识 xxx.class 这种类型的文件，它能够将 class 文件中的字节码指令进行识别并调用操作系统上的 API 完成动作。所以说，jvm 是 Java 能够跨平台的核心

这三者的关系是：一层层的嵌套关系。JDK>JRE>JVM。

13.用for循环对二维数组赋值时，a[i][j] =1和 a[j][i]=1有什么区别

for (int i = 0; i < LEN; i++) {

for (int j = 0; j < LEN; j++) {

arr[i][j] = 1;

}

for (int i = 0; i < LEN; i++) {

for (int j = 0; j < LEN; j++) {

arr[j][i] = 1;

}

答：

a[i][j]的运行效率比a[j][i]高，这里涉及到内存的两种存储模式，行优先存储和列优先存储，这两种存储并没有什么优劣之分，但涉及到对内存中数据的最佳存储访问方式。因为在内存中，程序访问的内存地址之间连续性越好，程序的访问效率就越高。所以我们需要根据编译器的优先机制来选择是行优先的数据存储还是列优先的数据存储。而Java的数据存储是一种伊利夫向量，它通常将元素存储在连续的同一行中，这其实有点像行存储。所以如果在java中运行上述的代码，那arr[i][j]的存储效率将比arr[j][i]高很多。

典型的行优先存储编译器：C/C++

典型的列优先存储编译器：R，Matlab

14.Thread.Sleep(0)有什么用

答：

Thread.Sleep方法是告诉操作系统，在未来多少毫秒内，我不参与CPU的竞争。但sleep的线程在时间结束后不一定能够拿到CPU的使用权，需要由系统重新判定给哪个线程。Thread.Sleep(0)的作用就是触发操作系统“立刻重新进行一次CPU竞争”，可以防止防止程序进入假死状态。

Hadoop

1.Hadoop组成

答：

Hadoop是一个由HDFS、MapReduce、Yarn组成的分布式系统基础架构

HDFS：一个高可靠、高吞吐量的分布式文件系统

MapReduce:分布式的离线并行计算框架

YARN：作业调度与集群资源管理的框架

2.MapReduce定义

答：

MapReduce是一个分布式运算程序的编程框架，是用户开发"基于hadoop的数据应用"的核心框架

MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hadoop集群上

3.MapReduce架构概述

答：

MapReduce将计算过程分为两个阶段：Map和Reduce

1.Map阶段并行处理输入数据

2.Reduce阶段对Map结果进行汇总

4.MapReduce的优缺点有哪些？

答：

优点：

1.MapReduce易于编程。它简单的实现一些接口，就可以完成一个分布式程序，这个分布式程序可以分布到大量廉价的PC机器上运行。也就是说，我们写一个分布式程序，跟写一个简单的串行程序是一模一样的。就是因为这个特点使得MapReduce编程变得非常流行

2.良好的拓展性。当我们的计算资源不能得到满足的时候，我们可以通过简单的增加机器来拓展它的计算能力。

3.高容错性。MapReduce设计的初衷就是使程序能够部署在廉价的PC机器上，这就要求它具有很高的容错性。比如其中一台机器挂了，它可以把上面的计算任务转移到另外一个节点上运行，不至于使这个任务运行失败，而且这个过程不需要人工参与，而完全是由Hadoop内部完成的。

4.适合PB级以上海量数据的离线处理。

缺点：

MapReduce不擅长做实时计算、流式计算、DAG（有向图）计算

1.实时计算。MapReduce无法像MySql一样，在毫秒或者秒级内返回结果

2.流式计算。流式计算的输入数据是动态的，而MapReduce的输入数据集是静态的，不能动态变化。这是因为MapReduce自身的设计特点决定了数据源必须是静态的

3.DAG(有向图)计算。多个应用程序存在依赖关系，后一个应用程序的输入为前一个的输出。在这种情况下，MapReduce并不是不能做，而是使用后，每个MapReduce作业的输出结果都会写入到磁盘，会成大量的磁盘IO，导致性能非常的低下。

ps:磁盘IO：磁盘的读写（输入、输出）

5.MapReduce核心思想是什么？

答：

分布式的运算程序需要分成至少两个阶段

第一个阶段的maptask并发实例，完全并行运行，互不相干

第二个阶段的reduce task并发实例互不相干，但是他们的数据依赖于上一个阶段的所有maptask并发实例的输出

MapReduce编程模型只能包含一个map阶段和一个reduce阶段，如果用户的业务逻辑非常复杂，那就只能多个MapReduce程序串行运行

6.MapReduce进程有哪些？

答：

一个完整的MapReduce程序在分布式运行时有三类实例进程：

1.MrAppMaster:负责整个程序的过程调度及状态协调

2.MapTask:负责map阶段的整个数据处理流程

3.ReduceTask:负责reduce阶段的整个数据处理流程

7.Hadoop2.1为什么要序列化？

答：

因为序列化可以存储“活的”对象，可以将“活的”对象发送到远程计算机

8.什么是序列化？

答：

序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储（持久化）和网络传输。

反序列化就是将收到字节序列（或其他数据传输协议）或者硬盘的持久化数据，转换成内存中的对象

9.为什么不用java的序列化？

答：

Java的序列化是一个重量级序列化框架(Serializable)，一个对象被序列化后，会附带很多额外的信息（各种校验信息，header，继承体系等），不便于在网络中高效传输。所以，hadoop自己开发了一套序列化机制（Writable），精简、高效。

10.为什么序列化对hadoop很重要?

答：

因为Hadoop在集群之间进行通许或者RPC调用的时候，需要序列化，而且要求序列化要快，且体积要小，占用带宽要小。所以必须理解Hadoop的序列化机制。

序列化和反序列化在分布式数据处理领域经常出现：进程通信和永久存储。然而Hadoop中各个节点的通信是通过远程调用（RPC）实现的，RPC序列化要求具有以下特点：

1.紧凑：紧凑的格式能让我们充分利用网络带宽，而带宽是数据中心最稀缺的资源

2.快速：进程通信形成了分布式系统的骨架，所以需要尽量减少序列化和反序列化的性能开销，这是基本的

3.可拓展：协议为了满足新的需求变化，所以控制客户端和服务器过程中，需要直接引进相应的协议，这些是新协议，原序列化方式能支持新的协议报文

4.互操作：能支持不同语言写的客户端和服务端进行交互。

11.MapReduce工作流程

答：

1.maptask收集我们的map()方法输出的kv对，放到内存缓冲区中

2.从内存缓冲区不断溢出本地磁盘文件，可能会溢出多个文件

3.多个溢出文件会被合并成大的溢出文件

4.在溢出过程中，及合并的过程中，都要调用partitioner进行分区和针对key进行排序

5.reducetask根据自己的分区号，去各个maptask机器上取相应的结果分区数据

6.reducetask会取到同一个分区的来自不同maptask的结果文件，reducetask会将这些文件再进行合并（归并排序）

7.合并成大文件后，shuffle的过程也就结束了，后面进入reducetask的逻辑运算过程（从文件中取出一个一个的键值对group，调用用户自定义的reduce()方法）

12.MapReduce程序效率的瓶颈

答：

1.计算机性能：

CPU、内存、磁盘健康、网络、I/O操作优化

2.数据倾斜

3.map和reduce数设置不合理

4.map运行时间太长，导致reduce等待过久

5.小文件过多

6.大量的不可分块的超大文件

7.spill次数过多

8.merge次数过多

9.其他

13.MapReduce的优化方法

答：

从六个方面考虑：数据输入、Map阶段、Reduce阶段、IO传输、数据倾斜问题和常用的调优参数

数据输入：

1.合并小文件：在执行MR任务前将小文件进行合并，大量的小文件会产生大量的map任务装载次数，而任务的装载比较耗时，从而导致MR运行较慢

2.采用CombineTextInputFormat来作为输入，解决输入端大量小文件场景

Map阶段：

1.减少溢写（spill）次数：通过调整io.sort.mb及sort.spill.percent参数值，增大触发spill的内存上限，减少spill次数，从而减少磁盘IO

2.减少合并(merge)次数：通过调整io.sort.factor参数，增大merge的文件数目，减少merge的次数，从而缩短MR处理时间

3.在map之后，不影响业务逻辑前提下，先进行combine处理，减少I/O

Reduce阶段：

1.合理设置map和reduce数：两个都不能设置少，也不能设置太多。太少，会导致task等待，延长处理时间；太多，会导致map、reduce任务间竞争资源，造成处理超市等错误

2.设置map、reduce共存：调整slowstart.completedmaps参数，使map运行到一定程度后，reduce也开始运行，减少reduce的等待时间。

3.规避使用reduce：因为reduce在用于连接数据集的时候将会产生大量的网络消耗。

14.NameNode & Secondary NameNode 工作机制

答：

第一阶段：NameNode启动

1.第一次启动NameNode格式化后，创建fsimage和edits文件。如果不是第一次启动，直接加载编辑日志和镜像文件到内存

2.客户端对元数据进行增删改的请求

3.NameNode记录操作日志，更新滚动日志

4.NameNode在内存中对数据进行增删改查

第二阶段Secondary NameNode工作

1.Secondary NameNode询问NameNode是否需要checkpoint。直接带回NameNode的检查结果

2.Secondary NameNode 请求执行checkpoint

3.NameNode滚动正在写的edits日志

4.将滚动前的剪辑日志和镜像文件拷贝到Secondary NameNode

5.Secondary NameNode 加载编辑日志和镜像文件到内存，并合并

6.生成新的镜像文件fsimage.chkpoint

7.拷贝fsimage.chkpoint 到 NameNode

8.NameNode将fsimage.chkpoint重新命名为fsimage

15.DataNode工作机制

答：

1.一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳

2.DataNode启动后向NameNode注册，通过后，周期性(1小时)的向NameNode上报所有的块信息

3.心跳是每3秒一次，心跳返回结果带有NameNode给该DataNode的命令，如：复制块数据到另一台机器，或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳，则认为该节点不可用

16.一个DataNode宕机了，要怎么恢复？？？不对劲

答：

如果只是节点挂了，重启就可以了，如果是机器挂了，重启机器后看节点是否能重启，不能重启就要找到相应的原因来修复。但是最终的解决方案应该是在设计集群的初期就考虑到这个问题。

17.NameNode对元数据的管理

答：

NameNode对数据的管理采用了三种存储形式：

内存元数据(NameSystem)

磁盘元数据镜像文件(fsimage镜像)

数据操作日志文件(可通过日志运算出元数据)(edit日志文件)

18.元数据的checkpoint是如何运行？

答：

每隔一段时间，会由Secondary NameNode将NameNode上积累的所有edits和一个最新的fsimage下载到本地，并加载到内存进行merge，这个过程成为checkpoint

NameNode和Secondary NameNode的工作目录存储结构完全相同，所以，当NameNode故障退出需要重新恢复时，可以从Secondary NameNode 的工作目录中将fsimage拷贝到NameNode的工作目录，以恢复NameNode的元数据。

19.MapReduce中combiner和partition的作用

答：

combiner是发生在map的最后一个阶段，父类就是Reducer，意义就是对每一个maptask的输出进行局部汇总，以减小网络传输量，缓解网络传输瓶颈，提高reducer的执行效率

partition的主要作用将map阶段产生的所有kv对分配给不同的reducerTask处理，可以将reduce阶段的处理负载进行分摊

20.什么是数据倾斜？

答：

MapReduce程序执行时，reduce节点大部分执行完毕，但是又一个或者几个reduce节点运行很慢，导致整个程序的处理时间很长，这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多)，这条key所在的reduce节点所处理的数据量比其他节点就大很多，从而导致某几个节点迟迟运行不完，这就被称为是数据倾斜。

21.MapReduce处理数据倾斜

答：

1.局部聚合+全局聚合

第一次在map阶段对那些导致了数据倾斜的key加上1到n的随机前缀，这样本来相同的key也会被分到多个Reduce中进行局部聚合，数量就会大大降低。

第二次MapReduce，去掉key的随机前缀，进行全局聚合

思想：二次MR，第一次将key随机散列到不同reducer进行处理达到负载均衡的目的。第二次再去掉key的随机前缀，按原key进行reduce处理。

这个方法要进行两次MapReduce，性能稍差

2.增加Reducer，提升并行度

JobConf.setNumReduceTasks(int);

3.实现自定义分区

根据数据分布情况，自定义散列函数，将key均匀分配到不同Reducer上。

22.对于shuffle阶段，是怎样理解的？

答：

shuffle:洗牌、发牌

核心机制：缓存、数据分区、排序、Merge进行局部value的合并

具体来说：就是将maptask输出的处理结果数据，分发给reducetask，并在分发的过程中，对数据按key进行了分区和排序

1.Map方法之后 Reduce方法之前这段处理过程叫Shuffle

2.Map方法之后，数据首先进入到分区方法，把数据标记好分区，然后把数据发送到环形缓冲区，环形缓冲区默认大小100M，环形缓冲区达到80%时，会进行溢写;溢写前对数据进行排序，排序按照对key的索引进行字典顺序排序，用快排进行排序；溢写过程会产生大量的溢写文件，需要对溢写文件进行归并排序；对溢写的文件也可以进行Combiner操作，但是汇总操作、求平均值不行。最后将文件按照分区存储到磁盘中，等待Reduce端拉取

3.每个Reduce拉取Map端对应分区的数据。拉取数据后先存储到内存中，内存不够了，再存储到磁盘。拉取完所有数据后，采用归并排序将内存和磁盘中的数据都进行排序

在进入Reduce方法前，可以对数据进行分组操作

23.MapReduce的map数量和reduce数量是由什么决定的，怎么配置？

答：

Map的数量由输入切片的数量决定，有多少个切片就有多少个mapTask

Reduce数量自己配置默认是1

24.MapReduce的优化

答：

1.设置合理的map和reduce的个数。合理设置blocksize

2.避免出现数据倾斜

3.combiner函数

4.对数据进行压缩

5.小文件处理优化：事先合并成大文件 combineTextInputformat，在hdfs上用MapReduce将小文件合并成SequenceFile大文件(key：文件名，value：文件内容)

6.参数优化

25.MapReduce的运行流程

答：

1.一个MapReduce程序启动的时候，最先启动的是MRAppMaster，MRAppMaster启动后根据本次job的描述信息，计算出需要的maptask实例数量，然后向集群申请机器启动相应数量的mapTask进程

2.MapTask进程启动之后，根据给定的数据切片范围进行数据处理，主体流程：

2.1利用用户指定的inputformat来获取RecordReader读取数据，形成输入KV对

2.2将输入KV对传递给客户定义的map()方法，做逻辑运算，并将map()方法输出的KV对收集到缓存

2.3将缓存中的KV对按照K分区排序后不断溢写到磁盘文件

3.MRAppMaster监控到所有maptask进程任务完成之后，会根据用户指定的参数启动相应数量的reducetask进程，并告知reducetask进程要处理的数据范围(数据分区)

4.Reducetask进程启动之后，根据MRAppMaster告知的待处理数据所在位置，从若干台maptask运行所在机器上获取到若干个maptask输出结果文件，并在本地进行重新归并排序，然后按照相同key的KV为一个组，调用客户定义的reduce()方法进行逻辑运算，并收集运算输出的结果KV，然后调用客户指定的outputFormat将结果输出到外部存储

26.Hadoop优化有哪些方面

答：

HDFS小文件

减少文件的小文件数量，对文件进行合并等操作

数据输入小文件处理

1.合并小文件：对小文件进行归档、自定义Inputformat将小文件存储成SequenceFile文件

2.采用ConbinFileInputFormat来作为输入，解决输入端大量小文件场景

3.对于大量小文件Job，可以开启JVM重用

Map阶段

1.增大环形缓冲区大小。由100M扩大到200M

2.增大环形缓冲区溢写的比例。由80%扩大到90%

3.减少对溢写文件的merge次数

4.不影响实际业务的前提下，采用Combiner提前合并，减少I/O

Reduce阶段

1.合理设置Map和Reduce数：两个都不能设置太少，也不能设置太多。太少会导致Task等待，延长处理时间；太多，会导致Map、Reduce任务间竞争资源，造成处理超时等错误

2.设置Map、Reduce共存：调整slowstart.completedmaps参数，使Map运行到一定程度后，Reduce也开始运行，减少Reduce的等待时间

3.规避使用Reduce，因为Reduce在用于连接数据集的时候将会产生大量的网络消耗

4.增加每个Redcue去Map中拿数据的并行数

5.集群性能可以的前提下，增大Reduce端存储数据内存的大小

IO传输

1.采用数据压缩的方式，减少网络IO的时间

2.采用SequenceFile二进制文件

整体

1.MapTask默认内存大小为1G，可以增加MapTask内存大小为4~5g

2.ReduceTask默认内存大小为1G，可以增加ReduceTask内存大小为4~5g

3.可以增加MapTask的cpu核数，增加ReduceTask的CPU核数

4.增加每个Container的CPU核数和内存大小

5.调整每个MapTask和ReduceTask最大重试次数

hdfs

1.HDFS写流程

1.client跟NameNode通信请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在

2.NameNode返回是否可以上传

3.client请求第一个block该传输到哪些DataNode节点上

4.NameNode返回3个DataNode节点A,B,C(第一个副本会有就近原则)

5.client请求3台DataNode中的一台A上传数据(本质上是一个RPC调用)，A收到请求会继续调用B，然后B调用C，将整个pipeline建立完成，再逐级返回客户端

6.client开始往A上传第一个block(先从磁盘读取数据放到一个本地内存缓存)，以packet为单位，A收到一个packet就会传给B，B传给C（并不是传递完一个block才开始传第二个节点）；A每传一个packet会放入一个应答队列等待应答

7.当一个block传输完成之后，client再次请求NameNode上传第二个block的服务器

8.每个DataNode写完一个block块后，会返回确认信息

9.写完数据后，关闭输出流

10.DataNode发信号给NameNode汇报自己已经写完了

2.Hdfs读流程

1.client跟NameNode通信查询元数据，找到文件块所在的DataNode服务器

2.挑选一台就近的DataNode节点，请求建立socket流

3.DataNode开始发送数据(从磁盘里面读取数据放入流中，以packet为单位来做校验)

4.数据以packet为单位

3.HDFS小文件弊端

答：

HDFS上每个文件都要在namenode上建立一个索引，这个索引的大小约为150byte，这样当小文件比较多的时候，就会产生很多的索引文件，一方面会大量占用namenode的内存空间，另一方面就是索引文件过大使得索引速度变慢

解决方案：

Hadoop Archive：

是一个高效地将小文件放入HDFS块中的文件存档工具，它能够将多个小文件打包成一个HAR文件，这样就减少namenode的内存使用

Sequence file：

Sequence file 由一些列的二进制key/value组成，如果key为文件名，value，则可以将大批小文件合并成一个大文件。

CombineFileInputFormat：

CombineFileInputFormat是一种新的inputformat，用于将多个文件合并成一个单独的split，另外，它会考虑数据的存储位置

开启JVM重用

对于大量小文件Job，可以开启JVM重用会减少45%运行时间

PS：JVM重用：一个map运行一个jvm，重用的话，一个jvm在一个map上运行完毕后，这个jvm继续运行其他map。

4.HDFS优缺点？

答：

优点：

1.高容错性

1.1数据自动保存多个副本

1.2某一个副本丢失以后，它可以自动恢复

2.适合大数据处理

2.1能够处理数据规模达到GB、TB、甚至PB级别的数据

2.2能够处理百万规模以上的文件数量

3.流式访问数据

3.1一次写入，多次读取，不能修改，只能追加

3.2它能保证数据的一致性

4.可构建在廉价机器上，通过多副本机制，提高可靠性

缺点：

1.不适合低延时数据访问，比如毫秒级的存储数据，是做不到的

2.无法高效的对大量小文件进行存储

2.1存储大量小文件会占用NameNode大量的内存来存储文件、目录和块信息，这样不可取，因为NameNode的内存是有限的

2.2小文件存储的寻址时间会超过读取时间，它违反了HDFS的设计目标

3.并发写入、文件随机修改

3.1一个文件只能有一个写，不允许多个线程同时写

3.2仅支持数据append(追加)，不支持文件的随机修改

5.HDFS架构是由哪些部分组成的？

答：

主要由四个部分组成，分别为HDFS Client、NameNode、DataNode和Secondary NameNode

Client：就是客户端

1.文件切分。文件上传HDFS的时候，Client将文件切分成一个一个的Block，然后进行存储

2.与NameNode交互，获取文件的位置信息

3.与DataNode交互，读取或者写入数据

4.Client提供一些命令来管理HDFS，比如启动或者关闭HDFS。

5.Client可以通过一些命令来访问HDFS

NameNode：就是master 它是一个主管、管理者

1.管理HDFS的名称空间

2.管理数据块(block)映射信息

3.配置副本策略

4.处理客户端读写请求

DataNode：就是Slave NameNode下达命令，DataNode执行实际的操作

1.存储实际的数据块

2.执行数据块的读/写操作

Secondary NameNode：并非NameNode的热备份。当NameNode挂掉的时候，它并不能马上替换NameNode并提供服务

1.辅助NameNode，分担其工作量

2.定期合并Fsimage和Edits，并推送给NameNode

3.在紧急情况下，可辅助恢复NameNode

6.129M的数据在HDFS中存储会有几个block块？

答：

1个，因为hdfs允许文件分块中的最后一个block有一定的超过，只要不超过128M的1.1倍，也就是只要不超过140.8M都可以存在一个块中

7.在通过客户端向hdfs中写数据的时候，如果某一台机器宕机了，会怎样处理？

答：

先判断宕机的节点是不是正在写入的节点，如果不是，那就按正常流程恢复节点即可，如果是的话，那么正在写入的数据会放置到queue的顶部，并将挂掉的DataNode移出pipline，将数据写入到剩余的DataNode中，在写入结束后，NameNode会手机DataNode的信息，发现此文件的副本数没有达到配置的要求，然后会寻找一个DataNode保存副本。

8.HDFS数据安全性如何保证？

答：

1.存储在HDFS系统上的文件，会分割成128M大小的block存储在不同的节点上，block的副本数默认3份，也可配置成更多份

2.第一个副本一般放置到与client较近的一个节点上，第二个副本放置到与第一个副本同一个机架的不同节点，第三个副本放到不同机架的节点上

3.DataNode以block为单位，每3s报告心跳状态，如果10min内不报告心跳状态则NameNode认为block已死掉，NameNode会把其上面的数据备份到其他一个DataNode节点上，保证数据的副本数量

4.DataNode会默认每小时把自己节点上的所有块状态信息报告给NameNode

5.采用safemode模式：DataNode会周期性的报告block信息，NameNode会计算block的损坏率，当阀值<0.999f时系统会进入安全模式，HDFS只读不写。HDFS元数据采用secondaryNameNode备份或者HA备份

Yarn

1.Yarn的资源调度流程

答：

1.用户向YARN中提交应用程序，其中包括ApplicationMaster程序、启动ApplicationMaster的命令、用户程序

2.ResourceManager为该应用程序分配第一个Container，并与对应的NodeManager通信，要求它在这个Container中启动应用程序的ApplicationMaster

3.ApplicationMaster首先向ResourceManager注册，这样用户可以直接通过ResourceMananger查看应用程序的运行状态，然后它将为各个任务申请资源，并监控它的运行状态，直到运行结束，即重复步骤4~7

4.ApplicationMaster采用轮询的方式通过RPC协议向ResourceManager申请和领取资源

5.一旦ApplicationMaster申请到资源后，便与对应的NodeManager通信，要求它启动任务

6.NodeManager为任务设置好运行环境(包括环境变量、JAR包、二进制程序等)后，将任务启动命令写到一个脚本中，并通过运行该脚本启动任务

7.各个任务通过某个RPC协议向ApplicationMaster汇报自己的状态和进度，以让ApplicationMaster随时掌握各个任务的运行状态，从而可以在任务失败时重新启动任务。在应用程序运行过程中，用户可随时通过RPC向ApplicationMaster查询应用程序的当前运行状态。

8.应用程序运行完成后，ApplicationMaster向ResourceManager注销并关闭自己

hive

1.什么是Hive

答：

Hive是Facebook开源用于解决海量结构化日志的数据统计

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能

本质是：将HQL转化成MapRedcue程序

zookeeper

1.zookeeper是什么

答：

zookeeper是一个开放源码的分布式协调服务，它是集群的管理者，监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终，将简单易用的接口和性能高效、功能稳定的系统提供给用户。

分布式应用程序可以基于zookeeper实现诸如数据发布、负载均衡、命名服务、分布式协调、集群管理、Master选举等功能。

并且zookeeper还保证了分布式的一些特性，如：

顺序一致性

原子性

单一视图

可靠性

最终一致性

2.zookeeper提供了什么？

答：

文件系统

通知机制

3.简单描述一下zookeeper的文件系统

答：

zookeeper提供了一个多层级的节点命名空间(节点称为znode)，与windows、linux的文件系统不同的是，znode可以设置关联的数据，而windows，linux的文件系统中只有文件节点可以存放数据，目录节点不行。

zookeeper为了保证高吞吐和低延迟，在内存中维护了这个树状的目录结构，这种特性使得zookeeper不能用于存放大量的数据，每个节点的存放数据上限为1M，最好不超过1KB

4.zookeeper的ZAB协议是什么？

答：

ZAB协议是为zookeeper专门设计的一种支持崩溃恢复的原子广播协议。

ZAB协议包括两种基本的模式：崩溃恢复和消息广播。

当整个zookeeper集群刚刚启动或者leader无夫妻宕机、重启或者网络故障导致不存在过半的服务器与Leader服务器保持正常通信时，所有进程(服务器)进入崩溃恢复模式，首先选举产生新的Leader服务器，然后集群中Follower服务器开始与新的Leader服务器进行数据同步，当集群中超过半数机器与该leader服务器完成数据同步之后，退出恢复模式进入消息广播模式，leader服务器开始接收客户端的事务请求、生成事务提案来进行事务请求处理。

5.zookeeper有几种类型的数据节点：

答：

四种

Persistent - 持久节点

除非手动删除，否则节点一直存在于zookeeper上

Ephemeral - 临时节点

临时借点的声明周期与客户端会话绑定，一旦客户端会话失效，那么这个客户端创建的所有临时借点都会被移除（客户端与zookeeper连接断开，会话不一定会失效）

Persistent_Sequential - 持久顺序节点

基本特性同持久节点，只是增加了顺序属性，节点名会有一个由父节点维护的自增整数型数字后缀

Ephemeral_Sequential - 临时顺序节点

基本特性同临时节点，增加了顺序属性，节点名后会有一个由父节点维护的自增整数型数字后缀

6.zookeeper的leader选举

答：

服务器启动时期的leader选举

1.每个Server会发出一个投票。由于是初始阶段，每个Server都会将自己作为Leader服务器来进行投票，每次投票会包含所推举的服务器的myid和zxid，然后各自将这个投票发给集群中的其他机器

2.接受来自各个服务器的投票。集群的每个服务器收到投票后，首先判断该投票的有效性，如：检查是否是本轮投票、是否来自Looking状态的服务器

3.处理投票。针对每一个投票，服务器都需要将别人的投票和自己的投票进行PK对比，优先检查ZXID，ZXID比较大的服务器优先作为Leader。如果ZXID相同，则比较myid。myid较大的服务器作为Leader服务器。由于此时处于服务器启动的初始阶段，各个服务器的ZXID都相同，所以会比较myid，因此myid小的Server会更新自己的投票为myid大的服务器，然后重新投票，而myid大的服务器无需更新投票，只是再次向集群中的所有机器发出上一次的投票信息即可。

4.统计投票。每次投票后，服务器都会统计投票信息，判断是否已经有过半机器接受到相同的投票信息，如果有过半的接受到了相同的投票信息，则认为已经选出了Leader。

5.改变服务器状态。一旦确定了Leader，每个服务器都会更新自己的状态，如果是Foller，则变更为Following，如果是Leader，就变更为leading

服务器运行期间的Leader选举

1.变更状态。Leader挂后，其他非Observer服务器都会将自己的服务器状态变更为Looking，然后开始进入选举过程

2.每个Server发出一个投票。在运行期间，每个服务器上的zxid可能不同，所以在第一轮投票中，每个服务器都会将票投给自己，把自己的myid和zxid发送到集群中的所有服务器上。

3.处理投票。针对每一个投票，服务器都需要将别人的投票和自己的投票进行PK对比，优先检查ZXID，ZXID比较大的服务器优先作为Leader。如果ZXID相同，则比较myid。myid较大的服务器作为Leader服务器。各个服务器根据PK结果发起新一轮的投票

5.改变服务器状态。一旦确定了Leader，每个服务器都会更新自己的状态，如果是Foller，则变更为Following，如果是Leader，就变更为leading

flume

1.什么是flume？

答：

1.flume是一个分布式的、可靠的、高可用的海量日志采集、聚合和传输的系统

2.flume可以采集文件，socket数据包等各种形式源数据，又可以将采集到的数据输出到HDFS、Hbase、hive、kafka等众多外部存储系统中

3.一般的采集需求，通过对flume的简单配置即可实现

4.flume针对特殊场景也具备良好的自定义扩展能力，因此，flume可以适用于大部分的日常数据采集场景

2.flume架构

答：

1.Flume分布式系统中最核心的角色是agent，flume采集系统就是由一个个agent所连接起来形成的

2.每一个agent相当于一个数据传递员，其内部有三个组件：

1.source：采集源，用于跟数据源对接，以获取数据

2.sink：下沉地，采集数据的传送目的，用于往下一级agent传递数据或者往最终存储系统传递数据

3.Channel：agent内部的数据传输通道，用于从source将数据传递到sink

3.flume的优势

答：

1.Flume可以将应用产生的数据存储到任何集中存储器中，如：hdfs，hbase

2.当手机数据的速度超过写入数据的速度的时候，这时，flume会在source和channel之间进行缓存，保证数据不会丢失

3.Flume的管道是基于事务的，保证了数据在传送和接收时的一致性

4.Flume是可靠地，容错性高的、可升级的、易管理的、并且可定制的

4.Flume的特征：

答：

1.Flume可以高效率的将多个网站服务器中手机的日志信息存入HDFS/HBase中

2.使用Flume，我们可以将从多个服务器中获取的数据迅速的移交给hadoop

3.支持各种输入和输出数据的类型

4.支持多路径流量、多管道接入流量、多管道接出流量

5.可以被水平扩展

5.flume调优

答：

source：

1.增加source个数：可以增大source读取能力

具体做法：如果一个目录下生成的文件过多，可以将它拆分成多个目录。每个目录都配置一个source

2.增大batchSize：可以增大一次性批处理的event条数，适当调大这个参数，可以调大这个参数，可以跳高soucer搬运数据到channel的性能。

channel：

1.memory：性能好，但是，如果发生意外，可能丢失数据

2.使用file channel时，dataDirs配置多个不同盘下的目录可以提高性能

3.transactionCapacity 需要大于source和sink的batchSize参数

sink：

增加sink个数可以增加消费event能力

sqoop

1.Sqoop导入数据到hdfs中的参数

答：

sqoop import \

--connect jdbc:mysql://hadoop02:3306/mysql(数据库连接名) \

--username root \ (数据库用户名)

--password root \ (数据库密码)

--target-dir /home/hadoop \ (存储到hdfs中的位置)

--delete-target-dir (有个参数) \ (导入的目标目录如果存在则删除那个目录)

--num-mappers 1 \(相当于 -m ，并行导入时 map task的个数)

--fields-terminated-by '\t' \ (去除字段分隔符)

--query "SQL语句 and $CONDITIONS;" (一定要加最后的$CONDITIONS)

2.Sqoop底层运行的任务是什么

答

大多数情况下只有map阶段，在执行复杂sql语句时，会有reduce阶段

3.Sqoop 设置MapTask并行度大于1

答：

当map task并行度大于1 时，要同时调用

--split-by id 指定根据id字段切分

--m n 指定map并行度n个

HBase

1.如何进行Hbase的调优

1.建立高可用的环境

在Hbase中Hmaster负责监控RegionServer的生命周期，均衡RegionServer的负载，如果Hmaster挂掉了，那么整个集群将会陷入不健康的状态，并且此时的工作状态只能维持短暂时间。所以需要为Hbase设立高可用的环境

2.预分区

每个region维护着startRow与endRowKey，如果加入的数据符合某个region维护的rowKey范围，则该数据交给这个region维护，那么一招这个原则，我们可以将数据所要投放的分区提前大致的规划好，可以提高Hbase的性能

3.优化RowKey设计

与预分区的原因相同，为了让数据均匀分布在所有的region中，尽量避免数据倾斜，对RowKey进行优化设计

4.内存优化

Hbase操作过程中需要大量的内存开销，因为Table是可以缓存在内存中的，可以分配给Hbase多一点的内存，提高运行效率，但是不建议分配非常大的堆内存，因为GC过程持续太久会导致RegionServer处于长期不可用的状态。

2.Hbase的rowkey怎么设计比较好？列族怎么设计比较好？

答：

设计原则：

1.RowKey长度原则

2.RowKey散列原则

3.RowKey唯一原则

如何设计：

1.生成随机数、hash、散列值

2.字符串反转

3.字符串拼接

3.hbase过滤器的用途

答：

1.增强Hbase查询数据的功能

2.减少服务端返回给客户端的数据量

4.Hbase宕机如何处理

答：

宕机分为HMaster宕机和HRegioner宕机

如果是HRegioner宕机，HMaster会将其所管理的region重新分布到其他活动的RegionServer上，由于数据和日志都持久存储在HDFS中，该操作不会导致数据丢失，所以数据的一致性和安全性是有保障的。

如果是HMaster宕机，HMaster没有单点问题，HBase中可以启动多个HMaster，通过Zookeeper的选举机制保证总有一个Master运行。即zookeeper会保证总会有一个HMaster在对外提供服务

5.hive和hbase的区别

答：

共同点：

1.hbase与hive都是架构在hadoop之上的，都是用hdfs作为底层存储。

区别：

1.hive建立在Hadoop之上是为了减少MapReduce jobs编写工作的批处理系统，HBase是为了弥补Hadoop对实时操作的缺陷。

2.Hive本身不存储和计算数据，它完全依赖于HDFS和MR，Hive中的表纯逻辑

3.Hbase是物理表，不是逻辑表，提供一个超大的内存hash表（meta表），搜索引擎通过它来存储索引，方便查询操作

6.HBase写流程

答：

1.客户端要连接zookeeper，从zk的/hbase节点找到hbase:meta表所在的RegionServer

2.RegionServer扫描HBase:meta中的每个region的起始行键，对比要插入的数据在哪个region的范围里

3.从对应info:server Key中存储了region是由哪个RegionServer在负责

4.客户端直接请求对应的RegionServer

5.RegionServer接收到客户端发来的请求之后，就会将数据写入到region中

7.Hbase读流程

答：

1.首先Client连接zookeeper，找到hbase:meta表所在的RegionServer

2.请求对应的RegionServer，扫描hbase:meta表，根据namespace、表名和rowkey在meta表中找到数据所在的region

3.根据这个region找到对应的RegionServer

4.请求对应的RegionServer，扫描指定的region返回数据到Client(先内存，后磁盘)

8.HBase数据flush过程

答：

1.当MemStore数据达到阈值(默认是128M，老版本是64M) ，将数据刷到硬盘，将内存中的数据删除，同时删除HLog中的历史数据

2.将数据存储到HDFS中

3.在HLog中做标记点

9.数据合并过程

答：

1.当数据块达到4块，hmaster将数据块加载到本地，进行合并

2.当合并的数据超过256M，进行拆分，将拆分后的region分配给不同的RegionServer管理

3.如果RegionServer宕机了，会将RegionServer上的hlog拆分，然后分配给不同的RegionServer加载，修改META表

4.hlog会同步到hdfs

10.Hmaster和RegionServer职责

答：

Hmaster：

1.管理用户对Table的增、删、改、查

2.记录region在哪台RegionServer上

3.在Region Split后，负责新Region的分配

4.新机器加入时，管理HRegionServer的负载均衡，调整Region分布

5.在HRegionServer宕机后，负责失效RegionServer上的Region的迁移

HRegionServer：

1.响应用户I/O请求，向HDFS中读写数据

2.管理Region

11.HBase列族和Region的关系

答：

Hbase中有多个RegionServer，每个RegionServer里有多个Region，一个Region中存放着若干行的rowkey以及对应的数据，一个列族就相当于一个文件夹，如果经常要搜索整个一条数据，列族越少越好，如果只有一部分的数据需要经常被搜索，那么将经常搜索的数据建立一个列族，其他不常搜索的建立列族，这样可以提升搜索效率。

12.如何避免读、写Hbase时造成访问热点问题

答：

1.加盐

给rowkey分配一个随机前缀以使得它和之前的rowkey的开头不同。加盐后的rowkey就会根据随机生成的前缀分散到各个region上，类似于hive的分桶，MR的分区。

2.哈希

哈希会使同一行永远用一个前缀加盐。哈希也可以使负载均衡。

3.反转

反转固定长度或者数字格式的rowkey，使得rowkey中经常变化的部分放在前面，牺牲了rowkey的有序性

4.时间戳反转

使用反转的时间戳作为rowkey的一部分

5.尽量减少行和列的大小

Hbase中，value永远和她的key一起传输的。如果rowkey和列名很大，Hbase storefiles中的索引会占据Hbase分配的大量内存，因为具体的值和它的key很大。可以修改表的模式以减小rowkey和列名的大小。

你可能感兴趣的:(大数据面试)

斗鱼大数据面试题及参考答案大模型大数据攻城狮大数据大数据面试 hadoop面试 spark面试 flink面试手撕SQL 手撕代码
GC（垃圾回收）相关知识一、常见的GC收集器SerialGCSerialGC是最基本的垃圾收集器，它是单线程的。在进行垃圾收集时，会暂停所有的用户线程，直到垃圾收集完成。它的工作过程比较简单，首先标记出所有的垃圾对象，然后将它们清除。例如，在一个小型的、对响应时间要求不高的Java应用程序中，如简单的命令行工具，SerialGC可以满足垃圾收集的需求。因为这种应用程序通常没有很高的并发要求，暂停用
大数据面试题之Hive(1) 小的~~ 大数据大数据 hive hadoop
说下为什么要使用Hive?Hive的优缺点?Hive的作用是什么?说下Hive是什么?跟数据仓库区别?Hive架构Hive内部表和外部表的区别?为什么内部表的删除，就会将数据全部删除，而外部表只删除表结构?为什么用外部表更好?Hive建表语句?创建表时使用什么分隔符?Hive删除语句外部表删除的是什么?Hive数据倾斜以及解决方案Hive如果不用参数调优，在map和reduce端应该做什么Hive
大数据面试必备：Kafka性能优化 Producer与Consumer配置指南
Kafka面试题-在Kafka中，如何通过配置优化Producer和Consumer的性能?回答重点在Kafka中，通过优化Producer和Consumer的配置，可以显著提高性能。以下是一些关键配置项和策略：1、Producer端优化:batch.size：批处理大小。增大batch.size可以使Producer每次发送更多的消息，但要注意不能无限制增大，否则会导致内存占用过多。linger
58同城大数据面试题及参考答案大模型大数据攻城狮 Spark SQL Hive SQL Reduce Shuffle 维度建模数仓分层 MAP JOIN
ROW_NUMBER、RANK、DENSE_RANK函数的区别是什么？这三个函数均为窗口函数，用于为结果集分区中的行生成序号，但核心逻辑存在显著差异，具体表现如下：数据分布与排序规则假设存在分区内分数数据为[90,85,85,80]，按分数降序排序：ROW_NUMBER：为分区内每行分配唯一序号，即使值相同也不重复。上述数据的序号为1,2,3,4。RANK：相同值分配相同序号，后续序号跳过重复值的
希音(Shein)大数据面试题及参考答案大模型大数据攻城狮大数据跨境电商大数据面试数据分析 AB测试数据归因数据挖掘
用SQL实现怎么找A表有B表没有的数据可以通过使用LEFTJOIN或NOTEXISTS来实现。下面是使用NOTEXISTS的写法：--查询购买商品A但没有购买商品B的用户SELECTuser_idFROMpurchasep1WHEREp1.product_id='A'ANDNOTEXISTS(SELECT1FROMpurchasep2WHEREp2.user_id=p1.user_idANDp2.
《Spark/Flink/Doris离线&实时数仓开发》目录大模型大数据攻城狮 spark flink 大数据数据面试离线数仓实时数仓调度器
欢迎加入《Spark/Flink/Doris离线&实时数仓开发》付费专栏！本专栏专为大数据工程师、数据分析师及准备大数据面试的求职者量身打造，聚焦Spark、Flink、Doris等核心技术，覆盖离线与实时数仓开发的全流程。无论你是想快速上手项目、提升技术能力，还是在面试中脱颖而出，这里都能为你提供系统化、实战化、可落地的内容。为什么选择本专栏？全面覆盖，分类清晰：从数仓架构设计、ETL开发、实时
大数据面试必备：Kafka消息过滤原理与常见策略详解二进制11 #Kafka面试题大数据面试 kafka 消息队列后端
Kafka面试题-Kafka消息过滤：原理与常见策略详解回答重点在Kafka中，消息过滤通常通过以下几种策略实现：生产者端过滤：在发送消息之前，生产者根据预定义的条件过滤消息。消费者端过滤：消费者在消费消息时，基于某种逻辑判断是否处理这条消息。KafkaStreams和KSQL：利用Kafka提供的流处理框架KafkaStreams或KSQL，实现在数据流转时对消息进行过滤。一、Kafka消息过滤
大数据面试必备：Kafka事务机制实现原理与消息一致性保障二进制11 #Kafka面试题大数据面试 kafka 消息队列后端
Kafka面试题-Kafka的事务机制是如何实现的？它如何保证消息的一致性？回答重点Kafka的事务机制是通过一系列的协议和组件来实现的，包括事务管理器(TransactionCoordinator)、生产者(Producer)和消费者(Consumer)。核心在于事务日志(TransactionLog)和两阶段提交协议。事务机制的目标是确保一组消息的原子性，即要么全部成功，要么全部失败。事务管理
大数据面试必备：Kafka消费者订阅Topic机制及消费模式详解二进制11 #Kafka面试题大数据面试 kafka 消息队列后端
Kafka面试题-Kafka中的Consumer是如何订阅Topic的?它的消费模式有哪些？回答重点Kafka中的Consumer订阅Topic分为两种方式:自动订阅(AutoSubscription)和手动订阅(ManualSubscription)。自动订阅：消费者使用subscribe方法，传入一个Topic列表。如果Topic列表发生变化，消费者会自动调整。手动订阅：消费者使用assign
大数据面试问答-数据湖孟意昶数据开发面试经验记录大数据面试职场和发展
1.概念数据湖（DataLake）：以原始格式（如Parquet、JSON等）存储海量原始数据的存储库，支持结构化、半结构化和非结构化数据（如文本、图像）。采用Schema-on-Read模式，数据在读取时才定义结构，适合机器学习、探索性分析等场景。2.与数仓对比维度数据仓库数据湖数据存储处理后的结构化数据原始数据（结构化/半结构化/非结构化）Schema处理Schema-on-Write（写入时
大数据面试高阶问题：同一业务的多个部门有不同指标口径，如何统一大模型大数据攻城狮大数据大数据面试指标开发 BI报表离线数仓指标口径统一指标
在现代企业管理中，数据驱动决策已经成为提升竞争力的核心手段。然而，当同一业务内的多个部门对关键指标的定义和计算方式存在分歧时，这种数据驱动往往会演变为混乱与低效。想象一个场景：市场部门报告的“用户增长率”基于新增注册用户数，而运营部门却以活跃用户数为基准；财务部门计算的“成本占比”包含了间接费用，产品部门却仅考虑直接成本。这样的差异看似微小，却足以在跨部门协作中引发沟通障碍，甚至导致战略决策的偏差
《大数据最全面试题-Offer直通车》目录大模型大数据攻城狮面试大数据面试职场和发展求职社会招聘校招 offer
大数据时代已经到来，数据科学家、大数据工程师、数据分析师等岗位成为了热门职业。如果你正准备面试，想要脱颖而出，那么《大数据最全面试题-Offer直通车》是你的不二选择。全面大数据面试知识体系：本专栏汇集了多篇超过1万字的精华内容，总计超百万字的面试题总结。包括程序员入职新公司如何快速上手项目、大数据面试英文自我介绍参考、大数据运维应用场景面试题汇总及参考答案等。无论是数据仓库、Flink/Spar
大数据面试题目_综合面试_hadoop面试题_hive面试题_sqoop面试题_spark面试题_flume面试题_kafka面试题---大数据面试题007 添柴程序猿大数据 hadoop hive 大数据面试题 flume
大数据面试:1.说一下hadoop的集群部署模式有哪几种,完全分布式如何部署以及配置?2.hadoop的守护进程有哪些?2.之前的公司,为什么要离职?3.之前公司的待遇工资多少?4.用Flink处理过什么场景的业务,是如何实现的,说一下流程?5.有没有用过NIFI?6.做的时候后端是如何做的,用的什么框架?有没有了解过springcloudTencent?7.hadoop中的代理用户功能的作用,和
大数据面试问答-HBase/ClickHouse 孟意昶数据开发面试经验记录大数据面试 hbase
1.HBase1.1概念HBase是构建在HadoopHDFS之上的分布式NoSQL数据库，采用列式存储模型，支持海量数据的实时读写和随机访问。适用于高吞吐、低延迟的场景，如实时日志处理、在线交易等。RowKey（行键）定义：表中每行数据的唯一标识，类似于关系数据库的主键。特点：数据按RowKey的字典序全局排序。所有查询必须基于RowKey或范围扫描（Scan）。示例：user_123_orde
大数据面试问答-批处理性能优化孟意昶大数据性能优化 hadoop spark
1.数据存储角度1.1存储优化列式存储格式：使用Parquet/ORC代替CSV/JSON，减少I/O并提升压缩率。df.write.parquet("hdfs://path/output.parquet")列式存储减少I/O的核心机制：列裁剪（ColumnPruning）原理：查询时只读取需要的列，跳过无关列。示例：若执行SELECTAVG(Age)FROMusers，只需读取Age列的数据块，
Flink+Iceberg搭建实时数据湖实战王知无(import_bigdata) 数据库大数据 hadoop hive mysql
点击上方蓝色字体，选择“设为星标”回复"面试"获取更多惊喜全网最全大数据面试提升手册！第一部分：Iceberg核心功能原理剖析：ApacheIceberg摘自官网：Apache Iceberg is an open table format for huge analytic datasets.可以看到Founders对Iceberg的定位是面向海量数据分析场景的高效存储格式。海量数据分析的场景，
大数据面试_sql语句优化数据小塔大数据面试题 sql 大数据数据库 oracle 数据仓库
-------------------------------------sql语句优化-----------------------------------------------------------1、使用表别名2、sql语句尽量用大写4、oracle采用自下而上的顺序解析where子句，根据这个原理，那些可以滤掉最大数量记录的条件必须写在where子句的末尾select*fromempw
大数据面试题整理——Hive 自节码大数据面试题整理 hive 大数据数据仓库
系列文章目录大数据面试题专栏点击进入文章目录系列文章目录Hive面试知识点全面解析一、函数相关（一）函数分类与特点（二）`concat`和`concat_ws`的区别二、SQL的书写和执行顺序（一）书写顺序（二）执行顺序三、where和having的区别（一）筛选时机（二）示例四、表连接的方式及区别（一）连接方式（二）区别示例五、Hive的排序方式及区别（一）排序方式（二）区别六、Hive的体系架
大数据面试必备：Kafka的Topic是什么？它的作用是什么? 二进制11 #Kafka面试题大数据面试 kafka
Kafka面试题-Kafka的Topic是什么？它的作用是什么？回答重点Kafka的Topic是Kafka消息系统中的一个逻辑概念，简单说来，它是用来区分和隔离不同类型消息的单位。每一个Topic都有一个名称，生产者将消息发送到某个特定的Topic上，而消费者从某个特定的Topic接收消息。其作用主要包括以下几点：消息分类：Kafka通过Topic来对消息进行分类管理，生产者和消费者通过Topic
六月份阶段性大总结之Doris/Clickhouse/Hudi一网打尽王知无(import_bigdata) 大数据编程语言人工智能 java 数据分析
点击上方蓝色字体，选择“设为星标”回复"面试"获取更多惊喜全网最全大数据面试提升手册！这是个阶段性小总结，后面会持续更新。ClickHouse「Clickhouse系列」分布式表&本地表详解「ClickHouse系列」ClickHouse之MergeTree原理「ClickHouse系列」Replication机制详解「ClickHouse系列」ClickHouseSQL基本语法和导入导出实战「C
数据分析大数据面试题大杂烩01 爱学习的菜鸟罢了大数据 flink 大数据面试 hive hadoop kafka
互联网:通过埋点实时计算用户浏览频次用优惠券等措施吸引用户,通过历史信息用非智能学习的title方式构造用户画像(抖音,京东)电信,银行统计营收和针对用户的个人画像:处理大量非实时数据政府:健康码,扫码之后确诊,找出与确诊对象有关联的人订单订单表(除商品以外所有信息),商品详情表,通过搜集用户title进行定制化推荐点击流数据通过埋点进行用户点击行为分析FLINK一般用来做实时SPARK一般用来做
大数据面试之路 (三) mysql 愿与狸花过一生大数据面试职场和发展
技术选型通常也是被问道的问题，一方面考察候选人对技术掌握程度，另一方面考察对项目的理解，以及项目总结能力。介绍项目是从数据链路介绍，是一个很好来的方式，会让人觉得思路清晰，项目理解透彻。将SparkSQL加工后的数据存入MySQL通常基于以下几个关键原因：1.数据应用场景适配OLTP与OLAP分工：SparkSQL擅长处理大数据量的OLAP（分析型）任务，而MySQL作为OLTP（事务型）数据库，
大数据面试之路 (二) hive小文件合并优化方法愿与狸花过一生大数据大数据 hive hadoop
大量小文件容易在文件存储端造成瓶颈，影响处理效率。对此，您可以通过合并Map和Reduce的结果文件来处理。一、合并小文件的常见场景写入时产生小文件：Reduce任务过多或数据量过小，导致每个任务输出一个小文件。动态分区插入：分区字段基数高，每个分区生成少量数据，形成大量小文件。频繁追加数据：通过INSERTINTO多次追加数据，导致文件碎片化。二、合并小文件的核心方法方法1：调整Reduce任务
大数据面试之路 (一) 数据倾斜愿与狸花过一生大数据面试职场和发展
记录大数据面试历程数据倾斜大数据岗位，数据倾斜面试必问的一个问题。一、数据倾斜的表现与原因表现某个或某几个Task执行时间过长，其他Task快速完成。Spark/MapReduce作业卡在某个阶段（如reduce阶段），日志显示少数Task处理大量数据。资源利用率不均衡（如CPU、内存集中在某些节点）。常见场景Key分布不均：如某些Key对应的数据量极大（如用户ID为空的记录、热点事件）。数据分区
大数据面试系列之——Hadoop 潜心_守道大数据面经面试大数据 Hadoop
Hadoop的三个核心：HDFS（分布式存储系统）MapReduce（分布式计算系统）YARN(分布式资源调度)1.Hadoop集群的几种搭建模式1.单机模式：直接解压安装，不存在分布式存储系统2.伪分布式：NameNode和DataNode安装于同一个节点，无法体现分布式处理的优势。3.完全分布式：一个主节点，多个从节点，存在如果主节点宕机，集群就无法使用的缺点。4.高可用模式：多个主节点，多个
大数据面试临阵磨枪不知看什么？看这份心理就有底了-大数据常用技术栈常见面试100道题大模型大数据攻城狮大数据面试职场和发展面试题数据仓库算法
目录1描述Hadoop的架构和它的主要组件。2MapReduce的工作原理是什么？3什么是YARN，它在Hadoop中扮演什么角色？4Spark和HadoopMapReduce的区别是什么？5如何在Spark中实现数据的持久化？6SparkStreaming的工作原理是什么？7如何优化Spark作业的性能？8描述HBase的架构和它的主要组件。9HBase的读写流程是怎样的？10HBase如何处理
360大数据面试题及参考答案大模型大数据攻城狮大数据数据治理 jvm内存 CAS 数据开发指标开发数据分析
数据清理有哪些方法？数据清理是指发现并纠正数据文件中可识别的错误，包括检查数据一致性，处理无效值和缺失值等。常见的数据清理方法有以下几种：去重处理：数据中可能存在重复的记录，这不仅会占用存储空间，还可能影响分析结果。通过对比每条记录的关键属性，若所有关键属性值都相同，则判定为重复记录，可保留其中一条，删除其余重复项。例如在客户信息表中，若有两条记录客户姓名、联系方式、地址等关键信息都一样，就可进行
大数据面试刷题陈吉俊学习方法
de的题目解析和讨论区也非常活跃，可以帮助求职者更好地理解题目和解题思路。牛客网（牛客网-找工作神器|笔试题库|面试经验|实习招聘内推，求职就业一站解决_牛客网）：牛客网是国内内容超级丰富的IT题库，不仅提供了大量的面试题，还涵盖了笔试题库、面试经验分享、实习招聘内推等多个方面。对于大数据方向的求职者来说，牛客网是一个一站式的学习平台，可以帮助他们系统地提升面试竞争力。超级码客（www.chaoj
大数据面试题：说下为什么要使用Hive？Hive的优缺点？Hive的作用是什么？蓦然_ 大数据面试题 hive 大数据开发面试题大数据面试
1、为什么要使用Hive？Hive是Hadoop生态系统中比不可少的一个工具，它提供了一种SQL(结构化查询语言)方言，可以查询存储在Hadoop分布式文件系统（HDFS）中的数据或其他和Hadoop集成的文件系统，如MapR-FS、Amazon的S3和像HBase（Hadoop数据仓库）和Cassandra这样的数据库中的数据。大多数数据仓库应用程序都是使用关系数据库进行实现的，并使用SQL作为
大数据面试-Scala 文文鑫 #大数据面试-Scala 大数据 scala 开发语言
谈谈scala的闭包、柯里化、高阶函数如果一个函数，访问到了它的外部（局部）变量的值，那么这个函数和他所处的环境，称为闭包。闭包在函数式编程中是一个重要的概念，广泛用于高阶函数、柯里化等技术中。函数柯里化：把一个参数列表的多个参数，变成多个参数列表；函数柯里化，其实就是将复杂的参数逻辑变得简单化,函数柯里化一定存在闭包。高阶函数：1）函数可以作为值进行传递2）函数可以作为参数进行传递3）函数可以作
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开