Vicky_Tang

大数据——Hadoop 知识点整理

1. 大数据的特点（4V特征）

2. 谈谈 Hadoop 的优缺点

3. 为什么 HDFS 不适合存小文件

4. Hadoop 的核心组件有哪些，并说明下功能

5. Hadoop 与关系型数据库对比

6. 如果集群中 DataNode 出现错误（比如 DataNode 进程死亡或者网络故障造成无法与 NameNode 通信），集群能否立即将宕机的DataNode下线？另外DataNode 下线后，集群将进行什么工作？

7. 简单说明下 HDFS 中，NameNode ，SecondaryNameNode 和 DataNode 的作用

8. 简单描述一下 dfs-start.sh 的启动流程（或者 NameNode 的启动流程）

9. 什么情况下集群会进入安全模式

10. HDFS 的读写执行流程

11. HDFS 的可靠性策略有哪些

12. 如果一个 DataNode 宕机了，如何做恢复

13. MapReduce 的执行流程

14. Yarn 的 Job 提交流程

15. Hadoop 中数据块（Block）大小如何确定，现有一个文件大小为260M，Block大小设定为128MB，在进行 split 操作时，会生成几个 Block

16. Block 大小设置成多少合适

17. MapReduce 中有哪些关键类

18. Mapper 中 setup 方法是干嘛的

19. Hadoop Shuffle 原理

20. MapReduce 的调优

21. Hadoop 中支持的存储格式和压缩算法

1. 大数据的特点（4V特征）

Volume(大数据量)：90% 的数据是过去两年产生
Velocity(速度快)：数据增长速度快，时效性高
Variety(多样化)：数据种类和来源多样化结构化数据、半结构化数据、非结构化数据
Value(价值密度低)：需挖掘获取数据价值

2. 谈谈 Hadoop 的优缺点

优点：

高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点
高可靠性：Hadoop底层维护多个数据副本
高容错性：Hadoop框架能够自动将失败的任务重新分配
低成本：Hadoop架构允许部署在廉价的机器上
灵活，可存储任意类型数据
开源，社区活跃

缺点：

Hadoop不适用于低延迟数据访问
Hadoop不能高效存储大量小文件
Hadoop不支持多用户写入并任意修改文件：一个文件只能有一个写者，仅支持append

3. 为什么 HDFS 不适合存小文件

HDFS 文件存储是以 Block 进行存储的（Hadoop 2.x 以后 Block 大小默认为128M），而 Block 元数据大小大概在 150 字节左右，Block 的元数据会在 NameNode 启动时加载到内存，也就意味着一个小文件就要占用 NameNode 150 字节内存，如果小文件过多，NameNode 内存很有可能被消耗殆尽，但整个集群存储数据的量却很小，失去了HDFS的意义，同时也会影响 NameNode 的寻址时间，导致寻址时间过长

4. Hadoop 的核心组件有哪些，并说明下功能

HDFS：分布式文件系统，解决分布式存储

MapReduce：分布式计算框架

YARN：分布式资源管理系统，在 Hadoop 2.x 中引入

Common：支持所有其他模块的公共工具程序

5. Hadoop 与关系型数据库对比

6. 如果集群中 DataNode 出现错误（比如 DataNode 进程死亡或者网络故障造成无法与 NameNode 通信），集群能否立即将宕机的DataNode下线？另外DataNode 下线后，集群将进行什么工作？

（1）不能立即下线，NameNode不会立即把该节点判定死亡，HDFS 默认的超时时长为10分30秒，如果定义timeout为超时时长，则超时时长的计算公式为：timeout = 2 * heartbeat.recheck.interval + 10 * dfs.heartbeat.interval，默认的heartbeat.recheck.interval为5分钟，dfs.heartbeat.interval默认为3秒

（2）DateNode 下线后，集群将复制下线的 DataNode 管理的块，在其他 DataNode 上做备份

7. 简单说明下 HDFS 中，NameNode ，SecondaryNameNode 和 DataNode 的作用

NameNode：

master 的角色，是 Hadoop 集群的管理者，也被称为 HDFS 的元数据节点。集群中只能有一个 Active 的 NameNode 对外提供服务
管理着 HDFS 的名称空间（文件目录树）及数据块（Block）映射信息及副本信息
负责对接客户端的读写请求

SecondaryNameNode：

负责镜像备份
完成日志和镜像的定期合并，即合并 NameNode 的 edit logs 到 fsimage 文件中

DataNode：

worker的角色，负责具体的执行操作
存储实际的数据块（Block）
执行数据块的读/写操作

8. 简单描述一下 dfs-start.sh 的启动流程（或者 NameNode 的启动流程）

第一阶段：NameNode 启动

第一次启动 NameNode 会执行格式化并创建 fsimage 和 edits 文件。如果不是第一次启动，则直接加载 fsimage 和 edits 到内存中
客户端对元数据进行增删改的请求
NameNode 记录操作日志，更新滚动日志
NameNode 在内存总队数据进行增删改查

第二阶段：DataNode 启动

在集群启动时向 NameNode 注册存活状态
启动时立即执行汇报 Block 信息，之后每隔1小时汇报一次
与 NameNode 建立 3秒一次的心跳机制，汇报当前健康状态和磁盘使用情况

第三阶段：SecondaryNameNode 启动

SecondaryNameNode 询问 NameNode 是否需要 checkpoint，直接带回 NameNode 是否需要 checkpoint 的结果
SecondaryNameNode 请求执行 checkpoint
将 NameNode 滚动前的编辑日志和镜像文件拷贝至 SecondaryNameNode
SecondaryNameNode 加载编辑日志和镜像文件到内存中进行合并
生成新的镜像文件 fsimage.chkpoint
拷贝 fsimage.chkpoint 到 NameNode
NameNode 将fsimage.chkpoint 重新命名成fsimage

另外，在这3个阶段完成之前，集群处于安全模式

9. 什么情况下集群会进入安全模式

集群启动时：

由于 NameNode 在启动时加载的是所有块位置的映射信息，而非完整的块数据，所以需要各个 DataNode 向 NameNode 发送最新的块列表信息来验证块是否有效，在此期间 NameNode 的文件系统对于客户端来说是只读的

Block异常损坏：

当 NameNode 发现集群中的 Block 丢失数量大于设定阈值时，NameNode 会进入安全模式，对低于阈值的 Block 在其他 DataNode 节点上做备份

在执行负载均衡操作时需要进入安全模式：

由于在做负载均衡操作时会对Block进行复制和删除操作，所以需要进入安全模式

10. HDFS 的读写执行流程

写数据执行流程

客户端通过 Distributed FileSystem 模块向 NameNode 请求上传文件，NameNode 需要检查目标文件是否已存在，父目录是否存在
NameNode 返回是否可以上传，不能上传则会返回异常
确认可以上传后，客户端请求第一个 Block 上传到哪几个 DataNode 服务器上
NameNode 返回3个 DataNode 节点，例如dn1、dn2、dn3
客户端通过 FSDataOutputStream 模块请求 dn1 上传数据，dn1 收到请求会继续调用 dn2，然后dn2 调用 dn3，建立通信管道
dn1、dn2、dn3 逐级应答客户端
客户端向 dn1 以 packet（64KB）为单位上传第一个 Block，dn1 收到一个 packet 就会传给 dn2，dn2 传给 dn3，dn1 每传一个 packet 会放入应答队列等待应答
当第一个 Block 上传完之后，客户端会再次请求 NameNode 上传第二个 Block 服务，直至所有Block 都完成上传

读数据执行流程

首先调用 FileSystem.open() 方法，获取到 DistributedFileSystem 实例
DistributedFileSystem 向 NameNode 发起 RPC（远程过程调用）请求获得文件的开始部分或者全部 Block 列表，对于每个返回的 Block，都包含 Block 所在的 DataNode 地址，这些 DataNode 会按照 Hadoop 定义的集群拓扑结构得出与客户端的距离，然后进行排序。如果客户端本身就是一个 DataNode 节点，那么会优先从本地读取文件
DistributedFileSystem 会向客户端返回一个支持文件定位的输入流对象 FSDataInputStream，用于客户端读取数据。FSDataInputStream 包含一个 DFSInputStream 对象，这个对象用来管理 DataNode 和 NameNode 之间的 I/O
客户端调用 read() 方法，DFSInputSteam 就会找出离客户端最近的 DataNode 并连接 DataNode
DFSInputStream 对象中包含文件开始部分的数据块所在的 DataNode 地址，首先它会连接包含文件的第一个块最近的 DataNode。随后在数据流中重复调用 read() 函数，直到一个块全部读完为止。如果第一个块数据全部读完，就会关闭指向第一个块的 DataNode 连接，接着读取下一个块
如果所有块都读完，就会关闭掉所有的流

11. HDFS 的可靠性策略有哪些

文件完整性：

文件建立时，每个数据块都产生校验和，校验和保存在 .meta 文件内
客户端获取数据时可以检查校验和是否相同，从而发现数据块是否损坏
如果正在读取的数据块损坏，则可以继续读取其他副本，同时 NameNode 标记该数据块已经损坏，然后复制数据块达到预期的文件备份数
DataNode 在其文件创建后三周验证其checksum

网络或机器失效时：

副本冗余
机架感知策略（副本放置策略）
心跳机制策略

NameNode 挂掉时：

主备切换（体现了 Hadoop 集群的高可用）
镜像文件和操作日志磁盘存储
镜像文件和操作日志可一个存储多份，多磁盘存储

其他保障可靠性机制：

快照：
回收站机制
安全模式

12. 如果一个 DataNode 宕机了，如何做恢复

将宕机的 DataNode 上的数据删除，重新当成新节点加入到集群即可

13. MapReduce 的执行流程

预处理；CombineTextInputFormat(针对小文件多的情形)
切片：切片大小为设定的切片大小上下限和Block大小的中位值，根据切片的数量启对应数量的Map数量
在每个Map端调用readRecord中read()方法并发（mapper）按行读取
读取内容存入OutputContainer（削峰） #第一次IO结束
环形缓冲区读取OutputContainer中的数据
当环形缓冲区数据达到80%时溢写成小文件，小文件中的内容分区有序，分区内键有序，采用的排序方法为快排（） #第二次IO结束，如果有Combiner方法，会在此时执行
小文件合并成大文件，归并排序，大文件分区有序，分区内键有序 #第三次IO结束
Reduce根据分区号读取各自对应的分区文件 #第四次IO结束
读取分区文件，根据键归并排序后落盘 #第五次IO结束

14. Yarn 的 Job 提交流程

作业提交：

（1）client 调用 job.waitForCompletion 方法，想整个集群提交 MapReduce 作业。

（2）client 向 ResourceManager 申请一个作业 id

（3）ResourceManager 给 Client 返回该 job 资源的提交路径（HDFS 路径）和作业 id，每个作业都有唯一的 id

（4）client 发送 jar 包、切片信息和配置文件到指定的资源提交路径

（5）client 提交完资源后，向 ResourceManager 申请运行 ApplicationMaster

作业初始化：

（6）当 ResourceManager 收到 client 的请求后，将该 job 添加到容器调度器（Resource Scheduler）中

（7）在某一个空闲的 NodeManager 领取到该 job

（8）该 NodeManager 创建 Container，并产生 ApplicationMaster

（9）下载 Client 提交的资源到本地，根据分片信息生成 MapTask 和 ReduceTask

任务分配：

（10）ApplicationMaster 向 ResourceManager 申请运行多个 MapTask 任务资源

（11）ResourceManager 将运行 MapTask 任务分配给空闲的多个 NodeManager，NodeManager 分别领取任务并创建容器

任务运行：

（12）ApplicationMaster 向接收到任务的 NodeManager 发送程序启动脚本，每个接收到任务的 NodeManager 启动 MapTask，MapTask 对数据进行处理，并分区排序

（13）ApplicationMaster 等待所有 MapTask 运行完毕后，向 ResourceManager 申请容器运行 ReduceTask

（14）程序运行完毕后，ApplicationMaster 会向 ResourceManager 申请注销自己

（15）进度和状态更新。Yarn 中的任务将其进度和状态（包括 counter）返回给应用管理器，客户端每秒（通过 mapreduce.client.progressmonitor.pollinterval 设置）向应用管理器请求进度更新并展示给用户。可以从 Yarn WebUI 查看任务执行状态

作业完成：

除了向应用管理器请求作业进度外，客户端每5分钟都会通过调用 waitForCompletion() 方法来检查作业是否完成。时间间隔可以通过 mapreduce.client.completion.polinterval 来设置。作业完成后，应用管理器和 container 会清理工作状态。作业的信息会被作业历史服务器存储以备之后用户核查

15. Hadoop 中数据块（Block）大小如何确定，现有一个文件大小为260M，Block大小设定为128MB，在进行 split 操作时，会生成几个 Block

根据官网描述，Hadoop 2.7.3 版本之前，Block 默认大小为 64MB，Hadoop 2.7.3 以后，Block 默认大小为 128MB，可以通过修改hdfs-site.xml文件中的dfs.blocksize对应的值

会产生2个 Block，因为每次切片时，都要先判断剩余部分是否大于 Block 大小的1.1倍，不大于1.1倍就划分到一个 Block

16. Block 大小设置成多少合适

HDFS中平均寻址时间大概为10ms；
经过前任的大量测试发现，寻址时间为传输时间的1%时，为最佳状态，所以最佳传输时间：10ms/0.01=1000s=1s
目前磁盘的传输速度普遍为100MB/s，最佳block大小计算：100MB/s*1s=100MB，所以我们设置block大小为128MB
实际中，磁盘传输速率为200MB/s时，一般设定block大小为256MB;磁盘传输速率为400MB/s时，一般设定block大小为512MB

17. MapReduce 中有哪些关键类

GenericOptionsParser：为了 Hadoop 框架解析命令行参数的工具类

InputFormate接口可以实现的类：FileInputFormat、ComposableInputformat 等，主要用于文件为输入及切割

Mapper：将输入的 kv 对映射成中间数据 kv 对集合。Maps 将输入记录转变为中间记录

Reducer：根据 key 将中间数据集合处理合并为更小的数据结果集

Partitioner：对数据按照 key 进行分区

OutputCollecter：文件输出

Combine：本地聚合，Mapper 端的 reduce

18. Mapper 中 setup 方法是干嘛的

setup 方法用于管理 Mapper 生命周期中的资源，加载一些初始化工作，每个 job 执行一次，setup 在完成 Mapper 构造，即将开始执行 map 动作前执行

19. Hadoop Shuffle 原理

定义：

把 map 方法之后 reduce 方法之前这段处理过程称之为 Shuffle

具体步骤：

maptask 的输出数据会被写入环形缓冲区（起到削峰的作用），并记录偏移量
环形缓冲区默认大小为100M，当数据达到80%即80M时，记录终止偏移量，并溢写成小文件
将小文件数据进行分区，分区内进行快速排序（分区有序，分区内键有序）
maptask 结束后，形成的多个小文件会进行归并排序并合并成大文件（分区有序，分区内键有序）
执行 reducetask 任务，去执行 maptask 的机器上拉取属于自己分区的数据
reducetask 对拉取过来的数据进行归并排序（分区内键有序）

20. MapReduce 的调优

MapReduce 优化方法主要从6个方面考虑：数据输入、Map 阶段、Reduce 阶段、IO 传输、数据倾斜和常用调优参数

数据输入：

合并小文件，在执行 MapReduce 任务之前将小文件合并，大量小文件会产生大量的 map 任务，增大 map 任务装载次数，而任务的装载比较耗时，从而导致 MapReduce 运行较慢
采用 CombineTextInputFormat.setMinInputSplitSize 来定义最小切片大小，解决输入端大量小文件的场景

Map 阶段：

减少溢写次数，通过调整 io.sort.mb 及 sort.spill.percent 参数值，增大触发溢写的内存上限，减少溢写次数，从而减少磁盘 IO
减少合并次数，通过调整 io.sort.factor 参数，增大 merge 的文件数目，减少 merge 次数，从而缩短 MapReduce 处理时间
在 map 之后，不影响业务逻辑的前提下，先进行 combine 处理，减少 IO

Reduce 阶段：

合理设置 map 和 reduce 数量，两个数量都不能太少或者太多，太少会导致 task 等待时间过长，延长处理时间，太多，会导致 map 和 reduce 任务之间竞争资源，造成处理超时等错误
设置 map 和 reduce 共存，调整 slow start completedmaps 参数，使 map 运行到一定程度后，reduce 也开始执行，从而减少 reduce 等待时间
规避使用 reduce，因为 reduce 在用于连接数据集的时候会产生大量的网络消耗
合理设置 reduce 端的 buffer，可以通过设置参数来配置，使得 buffer 中的一部分数据可以直接输送到 reduce，从而减少 IO 开销。MapReduce.Reduce.input.buffer.percent 的默认值为 0.0，当值大于 0 时，会保留在指定比例的内存读 buffer 中的数据直接拿给 reduce 使用

IO传输：

采用数据压缩的方式，减少任务的 IO 时间
使用 seq 二进制文件

21. Hadoop 中支持的存储格式和压缩算法

存储格式：

SequenceFile：以二进制键值对的形式存储数据
Avro：将数据定义和数据一起存储在一条消息中，其中数据定义以JSON格式存储，数据以二进制格式存储
RCFile：以列格式保存每个行组数据。他不是存储第一行然后是第二行，而是存储所有行上的第一列，然后是所有行上的第二列，以此类推
Parquet：是 Hadoop 的一种列存储格式，提供了搞笑的编码和压缩方案

压缩算法：

压缩算法	压缩比	压缩速度	解压速度
gzip	13.4%	17.5 MB/s	58 MB/s
bzip2	13.2%	2.4 MB/s	9.5 MB/s
lzo	20.5%	49.3 MB/s	74.6 MB/s
snappy	22.2%	59.3 MB/s	74.0 MB/s

gzip 算法

特点：
hadoop 内置支持，支持native库，使用方便，压缩比高
不支持 split。
在压缩后的文件大小与 HDFS 块大小差距不大时，可使用此算法

应用场景：
一天或者一个小时的日志压缩成一个 gzip 文件，运行mapreduce程序的时候通过多个gzip文件达到并发。

bzip2 算法

特点：
hadoop 内置支持，支持 split，压缩比很高，
不支持 native 库，压缩/解压速度慢
对于历史性很大的文件，想尽可能节省磁盘空间，还要支持split

应用场景:
mapreduce 的输出，压缩存档，作为冷数据使用，通常是对大文件的压缩。

lzo 算法

特点：
支持 native 库，压缩/解压速度也比较快，合理的压缩率；支持 split (需要建索引，文件修改后需要重新建索引)，yum 安装 lzop 命令后，使用方便
hadoop 内置不支持，需要手动编译安装。
大文件的存储，作为热数据使用

应用场景:
一个大文件压缩后依然是两个或多个 HDFS 块的大小，还不希望作为冷数据使用

snappy 算法

特点：
高速压缩速度和合理的压缩率，支持native库
hadoop 内置不支持，需要手动编译安装，不支持 split，没有 linux 命令可使用

应用场景:
mapreduce 过程中 map 的输出，reduce 或另一个 map 的输入

22. Hadoop 的资源调度器有哪些

FIFO（先入先出调度器）

Hadoop 1.x 默认调度器

只有一个队列，将一个一个 job 任务按照时间先后顺序进行服务

Capacity Scheduler（容量调度器）

hadoop 2.x 默认调度器

支持多个队列，每个队列可以配置一定量的资源，每个采用 FIFO 的方式调度

防止同一个用户的 job 任务独占队列中的资源，调度器会对同一用户提交的 job 任务所占资源进行限制

分配新的 job 任务时，首先计算每个队列中正在运行 task 个数与其队列应该分配的资源量做比值，然后选择最小的队列

其次，按照 job 任务的优先级和时间顺序，同时要考虑到用户的资源量和内存的限制，对队列中的 job 任务进行排序执行

多个队列同时按照任务队列内的先后顺序一次执行。

Fair Scheduler（公平调度器）

支持多个队列，每个队列可以配置一定资源，每个队列中的 job 任务公平共享器所在队列的所有资源

队列中的 job 任务都是按照优先级分配资源，优先级越高分配的资源越多，但是为了确保公平每个 job 任务都会分配到资源。游侠你是根据每个 job 任务的理想获取资源量减去实际获取资源量的差值决定的，差值越大优先级越高

往期面试题整理：

《大数据——Java 知识点整理》

《大数据——MySQL 知识点整理》

《大数据—— Hive 知识点整理》

《大数据—— HBase 知识点整理》

《大数据—— Scala 知识点整理》

《大数据—— Spark Core 知识点整理》

《大数据——Flink 知识点整理》

你可能感兴趣的:(Hadoop,hadoop,big,data,面试)

使用Docker部署RabbitMQ 九思x docker rabbitmq 容器
第一步：安装RabbitMQ#1.拉取镜像dockerpullrabbitmq:3.12.0-management#2.启动容器（开放端口+数据持久化）dockerrun-d\--name=share_rabbitmq\-p5672:5672\#AMQP协议端口-p15672:15672\#管理界面端口-v/opt/rabbitmq/data:/var/lib/rabbitmq\#数据持久化目录r
大疆C++开发面试题及参考答案大模型大数据攻城狮信号量 C++面试 C++面经堆和栈 TCP和UDP 智能指针 C++11
虚函数的作用是什么？虚函数机制是如何实现的？虚表指针在内存中的存放位置在哪里？虚函数主要用于实现多态性。多态是面向对象编程中的一个重要概念，它允许通过基类指针或引用调用派生类中重写的函数。这样可以在运行时根据对象的实际类型来确定调用哪个函数，增强了程序的灵活性和可扩展性。在实现虚函数机制方面，C++使用了虚函数表（v-table）。当一个类包含虚函数时，编译器会为这个类创建一个虚函数表。虚函数表是
Appdata\Local Roaming LocalLow文件夹 ynchyong 系统运维 local Roaming LocalLow
自Vista及Win7开始，微软更改了原有的应用程序存储目录结构，（XP是ApplicationData）C\用户\用户名\Appdata,并分为Roaming,Local,及LocalLow三个文件夹.更改原因如下:优化登录速度根据使用安全级别分别访问不同文件夹Windows使用Local及LocalLow文件夹存放非漫游的应用程序数据（类似注册表Local_machine）及一些空间占用大无法
191113面试题总结快乐男孩小东
1.Maven中A依赖BB依赖C那么A可以使用C中的类吗？*按照依赖关系，可推C继承A，则C可以使用A中修饰符为public,protected的类2.SpringBoot中有一个类标记了@Controller注解,通过自动扫描把这个类的对象加入IOC，那么这个类应该放那？*在@SpringBootApplication所在包或者下面的子包，才能被自动扫描到#3.通过Maven下载jar包，下载失
20190626_二次开发BarTender打印机_C#代码_一边读取TID_一边打印_打印机POSTEK weixin_30784141 c/c++数据库
demo代码如下:privatevoidbtnPrint_Click(objectsender,EventArgse){if(this.btnPrint.Text=="停止打印"){SetBtnPrintUIEnable();return;}//禁用界面上的相关按钮SetBtnPrintUIDisable();vardt=newDataTable();newTask(()=>{///开始的打印//
复试英语面试常见问题整理自用，考研复试英语问题汇总旅人_Eric 面试职场和发展复试
更多复试资料获取方式在文末，个人整理，完全免费！更多复试资料获取方式在文末，个人整理，完全免费！Whydidyouchooseouruniversity?Firstly,itprovideshigh-qualitycomputer-relatedknowledgeandagoodacademicatmosphere.Secondly,IthinkChangshaisabeautifulcityan
CI/CD(三) 安装nfs并指定k8s默认storageClass qq_41369135 kubernetes ci/cd docker nfs storageClass
一、NFS服务端安装（主节点10.60.0.20）1.安装NFS服务端sudoaptupdatesudoaptinstall-ynfs-kernel-server2.创建共享目录并配置权限sudomkdir-p/data/k8ssudochownnobody:nogroup/data/k8s#允许匿名访问sudochmod777/data/k8s3.配置NFS导出规则编辑/etc/exports文
学习Video.js 前端熊猫 Video Player 学习
查阅官方文档，学习video.js相关属性、回调与方法：播放器选项设置①标准的video标签属性②data-setup属性传递JSON③创建播放器实例以第二个参数配置videojs('my-player',{controls:true,autoplay:false,preload:'auto'});//修改选项varplayer=videojs('my-player');player.option
SAP-ABAP：SAP BW模块架构与实战应用详解爱喝水的鱼丶 ABAP开发之必须知道的 VIP详情查看专栏 SAP-ABAP开发基础详解开发语言 SAP ABAP ERP 开发运维
SAPBW模块架构与实战应用详解—##一、核心架构分层设计###1.数据仓库层（DataWarehousingLayer）|组件|功能说明|典型对象||-------------------|--------------------------------------------------------------------------|-----------------------------
运维面试题（七） a_j58 运维
1.statefulset用来管理有状态的应用程序，有状态是什么意思？每一个pod都有一个固定的网络标识符，在整个生命周期中不会改变。每个实例都可以拥有自己的持久化存储卷，即使容器被删除并重新创建，存储卷仍然存在。StatefulSet确保了Pod按照顺序启动、更新和终止。2.主键是什么，它与索引有什么关系？主键确保表中每一行数据都可以被唯一标识，避免数据重复。主键通常会自动创建一个唯一索引，加快
深夜惊魂：当监控告警“撒谎”时，SRE 如何逆风翻盘？ YAMLMaster kubernetes 运维开发 devops 容器云原生
Yorkshire,England引言我们这一篇也是含金量十足，如果面试官让你说个你处理过的比较有意思的案例，可以跟他讲讲，让他也见见世面。好吧，我们直接开始，最后有相关的群，有兴趣可以加入。开始一、故障场景深度还原时间：2025年1月3日02:00（GMT+8）环境：•数据库集群：MySQL8.0.35，通过KubeBlocks部署（3节点，跨AZ）•监控架构：•Prometheus-Opera
云原生工程师必修课：如何揪出“假忙真闲”的应用元凶 YAMLMaster 面试题 kubernetes 运维开发 devops
Tagamanent,Spain引言这是一个再经典不过的面试题了，希望大家能学到精髓。开始介绍在分布式系统和高并发场景中，高负载（HighLoad）与低使用率（LowUtilization）的共存矛盾是运维和开发者的常见挑战。这种问题往往隐蔽性强，传统监控指标难以直接定位根因。本文从系统层、应用层、架构层多维度拆解，提供一套完整的排查与优化方法论。核心概念厘清•负载（Load）：系统当前待处理任务
SAP-ABAP：ABAP内存和SAP内存详细对比爱喝水的鱼丶 VIP详情查看专栏 SAP-ABAP开发基础详解 ABAP开发之必须知道的 SAP 运维 ABAP ERP
在SAPABAP中，内存数据（MemoryData）是一种临时存储机制，允许在同一会话或程序之间共享数据。内存数据存储在ABAP内存（ABAPMemory）或SAP内存（SAPMemory）中，具体取决于数据的生命周期和共享范围。以下是关于如何在SAP中保存和使用内存数据的详细说明：—##1.ABAP内存vsSAP内存###ABAP内存-作用范围:仅在当前内部会话（InternalSession）
一些工程实践中的tips litvm 经验分享经验分享
1，简单方法实现四舍五入实际项目中，经常会出现需要四舍五入的地方，比如采集温度temp，如果直接把float类型保存为小数点后1位。它会直接舍后面多余的位数，这样可能偏差会比较大。我们可以通过+0.5来实现四舍五入。比如：floattemp=30.6;//假设我们是扩大10倍保存//直接保存uint16_tmodbus_data.temp=temp*10;//结果就是30//+0.5uint16_
硬核项目 KV 存储，轻松拿捏面试官！程序员老舅 C++Linux后端 KV存储 C++C++后端开发 Redis 内存索引 C++数据结构
硬核项目KV存储，轻松拿捏面试官！在简历上如何写这个项目？项目概述基于Bitcask模型，兼容Redis数据结构和协议的高性能KV存储引擎设计细节采用Key/Value的数据模型，实现数据存储和检索的快速、稳定、高效存储模型：采用Bitcask存储模型，具备高吞吐量和低读写放大的特征持久化：实现了数据的持久化，确保数据的可靠性和可恢复性索引：多种内存索引结构，高效、快速数据访问并发控制：使用锁机制
微服务即时通讯系统的实现（客户端）----（2） Smile丶凉轩项目微服务架构云原生
目录1.将protobuf引入项目当中2.前后端交互接口定义2.1核心PB类2.2HTTP接口定义2.3websocket接口定义3.核心数据结构和PB之间的转换4.设计数据中心DataCenter类5.网络通信5.1定义NetClient类5.2引入HTTP5.3引入websocket6.小结7.搭建测试服务器7.1创建项目7.2服务器引入http7.3服务器引入websocket7.4服务器引
vue面试题合集（强烈推荐）前端念初前端 javascript
2022最新Vue面试题1、Vue的最大的优势是什么？（必会）2、Vue和jQuery两者之间的区别是什么？（必会）3、MVVM和MVC区别是什么？哪些场景适合？（必会）4、Vue数据双向绑定的原理是什么?（必会）5、Object.defineProperty和Proxy的区别（必会）6、Vue生命周期总共分为几个阶段？（必会）7、第一次加载页面会触发哪几个钩子函数？（必会）8、请说下封装Vue组
2021-最新Web前端经典面试试题及答案-史上最全前端面试题(含答案)---React篇圆白菜和大白菜前端 react 大前端 react
★★★React事件绑定原理★★★React中的setState缺点是什么呢★★★React组件通信如何实现★★★类组件和函数组件的区别★★★请你说说React的路由是什么？★★★★★React有哪些性能优化的手段？★★★★Reacthooks用过吗，为什么要用？★★★★虚拟DOM的优劣如何？实现原理？★★★★React和Vue的diff时间复杂度从O(n^3)优化到O(n)，那么O(n^3)和O
数据结构-----队列磨十三数据结构算法 linux
顺序队列（Queue）一、队列核心概念1.基本特性先进先出（FIFO）：最早入队的元素最先出队操作限制：队尾（Rear）：唯一允许插入的位置队头（Front）：唯一允许删除的位置2.顺序队列结构typedefintDATATYPE;typedefstructqueue{DATATYPE*ptr;//存储空间基地址inttlen;//队列总容量inthead;//队头索引inttail;//队尾索引
Java高频面试之集合-13 牛马baby 面试职场和发展 java 哈希算法 HashMap
hello啊，各位观众姥爷们！！！本baby今天来报道了！哈哈哈哈哈嗝面试官：为什么hash函数能降哈希碰撞？哈希函数通过以下核心机制有效降低碰撞概率，确保不同输入尽可能映射到不同的哈希值：一、设计原理与数学基础均匀分布（UniformDistribution）目标：使任意输入经过哈希计算后，结果在输出空间中均匀分布。数学方法：利用模运算、位操作等，确保输入变化时哈希值的变化无规律。示例：#简单哈
Java高频面试之集合-08 牛马baby java 面试 python
hello啊，各位观众姥爷们！！！本baby今天来报道了！哈哈哈哈哈嗝面试官：详细说说CopyOnWriteArrayListCopyOnWriteArrayList详解CopyOnWriteArrayList是Java并发包（java.util.concurrent）中提供的线程安全列表，基于“写时复制”（Copy-On-Write）机制实现。它适用于读多写少的高并发场景，如事件监听器列表、配置
Java高频面试之集合-02 牛马baby java 面试开发语言
hello啊，各位观众姥爷们！！！本baby今天来报道了！哈哈哈哈哈嗝面试官：说说队列queueJava队列（Queue）详解队列（Queue）是Java集合框架中一种先进先出（FIFO）的线性数据结构，广泛应用于生产者-消费者模型、任务调度、线程池等场景。Java提供了丰富的队列实现，涵盖线程安全、阻塞、优先级等特性。一、队列的核心接口与操作Java队列的顶层接口是java.util.Queue
Java高频面试之集合-07 牛马baby java 面试开发语言
hello啊，各位观众姥爷们！！！本baby今天来报道了！哈哈哈哈哈嗝面试官：ArrayList和Vector的区别是什么？ArrayList与Vector的区别详解ArrayList和Vector都是Java中基于动态数组实现的List接口的实现类，但它们在设计、性能和线程安全性上有显著差异。以下是两者的核心区别：1.线程安全性特性ArrayListVector线程安全非线程安全（方法未同步）线
Java高频面试之SE-23 牛马baby java 面试 windows
hello啊，各位观众姥爷们！！！本baby今天又来了！哈哈哈哈哈嗝Java中的Stream是Java8引入的一种全新的数据处理方式，它基于函数式编程思想，提供了一种高效、简洁且灵活的方式来操作集合数据。Stream的核心思想是声明式编程（告诉程序“做什么”，而不是“怎么做”）。1.Stream的核心特点无存储：Stream不存储数据，只是对数据源的视图（如集合、数组、I/O通道等）。函数式操作：
Cesium实践（1）—— Hello World 迦南giser WebGIS #Cesium webgis cesium
文章目录前言Cesium是什么Cesium核心类ViewerSceneEntityDataSourceCollection创建第一个Cesium应用工程搭建Cesium版helloworld总结前言工作大半年来主要的技术栈是mapbox-gl和threejs，但是作为一名GIS专业毕业生，一直对Cesium充满兴趣。Cesium不仅保持了threejs的三维绘制能力，而且内置大量渲染地理数据的AP
uni-app的滚动加载 uni-load-more组件使用 weixin_42885875
手机端的滚动加载其实就是PC端的分页，触底之后页数加一调用接口，将返回的数据连接在原来的数据后面，就大致完成了。使用组件https://ext.dcloud.net.cn/plugin?id=29exportdefault{data(){return{ifBottomRefresh:false,loadmore:'more',contentText:{"contentdown":"加载更多数据",
Java面试高频问题深度解析：JVM、锁机制、SQL优化与并发处理 Debug Your Career 面试 java 面试 jvm
问题列表Java中如何实现一个工作流引擎？Bean的作用域有哪些？JVM中的锁机制是如何工作的？三个方法分别被synchronized锁住，方法a调用方法b，b能获取到a的锁吗？会有什么问题？SQL优化时，EXPLAIN中需要关注哪些关键点？什么是覆盖索引？SELECT*一定不会命中索引吗？SELECT*和SELECT全字段在性能上有区别吗？什么是回表？它与索引有什么关系？100万数据分给10个线
binlog和redolog 重生之我在成电转码 java mysql 日志
好的！这两个是MySQL面试核心知识点，下面详细解释：✅一、概念区分内容binlog（归档日志）redolog（重做日志）属于MySQL层（Server层）InnoDB存储引擎层作用记录所有修改数据库的数据操作（逻辑日志）保障事务的持久性（崩溃后可恢复数据）存储内容SQL语句或事件（INSERT、UPDATE、DELETE）物理页修改（物理日志）写入时机执行完SQL后写入执行SQL时先写入落盘时机
access读取EXCEL文件,并根据动态生成表，完成报表的导入 MES先生 ACCESS VBA access
OptionCompareDatabasePublicsheetidAsString'报表IDPublictempAsString'获取年月时分秒PublictmpIAsInteger'对应EXCEL行PublictmpJAsInteger'对应EXCEL列PublicXlsAppAsObjectPublicXlsWorkbookAsObjectPublicXlsWorkSheetAsObject
Uni-App 双栏联动滚动组件开发详解 (电梯导航) FFF-X uni-app
本文基于提供的代码实现一个左右联动的滚动组件，以下是详细的代码解析与实现原理说明：{{item}}{{section.title}}{{para}}exportdefault{//组件参数定义props:{leftData:{//左侧导航数据type:Array,default:()=>['章节1','章节2','章节3','章节4','章节5','章节6'],},rightData:{//右侧内
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息