abluer~

《大数据面试题》面试大数据这一篇就够了

文章目录

Hadoop 常见面试题

1. mr 工作原理 ☆☆☆☆
2. split 机制 ☆☆☆☆☆
3. namenode,datanode,secondaryNameNode分别是干什么的？☆☆☆☆☆
4. mr on yarn 工作原理 ☆☆☆☆☆
5. fsimage 和 edits 是干什么的？为什么要使用？☆☆☆☆
6. hdfs 工作原理 ☆☆☆☆
7. block 副本放置策略 ☆☆☆

Hive 常见面试题

1. 简述Hive工作原理 ☆☆☆☆☆
2. hive 内部表和外部表区别 ☆☆☆☆☆
3. 分区和分桶的区别 ☆☆☆☆

3.1 分区
3.2 分桶

4. 将数据直接上传到分区目录（hdfs）上，让分区表和数据产生关联有哪些方式？☆☆
5. 桶表是否可以通过直接load将数据导入？☆☆
6. order by,sort by,distribute by,cluster by的区别？☆☆☆☆
7. 聚合函数是否可以写在order by后面，为什么？☆☆☆☆
8. 导致数据倾斜的原因有哪些，有什么解决的方案？☆☆☆☆☆

什么是数据倾斜？
造成数据倾斜的原因
你是如何发现Hive数据倾斜？
解决办法

1 合理设置Map数
2 小文件合并
3 复杂文件增加Map数
4 合理设置Reduce数

9. Hive的四种排序 ☆☆☆
10. Hive的分区分桶 ☆☆☆☆☆
11. hive中分区可以提高查询效率，分区是否越多越好，为什么？☆☆☆
12. hive 调优 ☆☆☆☆☆

12.1 hive-site.xml 与 hive cli 调参 ☆☆☆☆☆
12.2 数据压缩 ☆☆☆☆☆

12.2.1 数据的压缩说明
12.2.2 压缩配置参数

12.3 文件压缩 ☆☆☆☆☆

12.3.1 列式存储和行式存储
12.3.2 TEXTFILE格式
12.3.3 ORC格式
12.3.4 PARQUET格式

Spark 常见面试题

1. 说出几个常见的rdd算子？ ☆☆☆☆

1.1 transformation算子
1.2 action 算子

2. rdd是什么？rdd的创建方式有几种？分别是怎么分区的？☆☆☆

2.1 rdd是什么？
2.2 rdd的创建方式

3. RDD的依赖关系 ☆☆☆☆☆

3.1 宽依赖：多个子RDD的分区依赖同一个父RDD的Partition
3.2 窄依赖：每一个父RDD的Partition最多被子RDD的一个Partition使用
3.3 为什么要划分依赖关系？

4. task，stage，job分别是什么？ ☆☆☆☆☆

4.1 task
4.2 stage
4.3 job
4.4 为什么要划分 stage？

5. RDD的缓存持久化机制？☆☆☆☆☆

5.1 cache与persist：
5.2 checkpoint：

6. spark常见调优 ☆☆☆☆☆

6.1 修改序列化机制有效压缩数据量，通过使用Kryo优化序列化性能 ☆☆☆☆☆
6.2 在实际的生产环境中，提交spark任务时，使用spark-submit shell脚本，在里面调整对应的参数。☆☆☆☆
6.3 提高并行度 ☆☆☆☆
6.4 RDD 的重用和持久化 ☆☆☆☆☆
6.5 适当将那些多次使用变量广播出去 ☆☆
6.6 尽量避免shuffle ☆☆☆☆☆
6.7 使用map-side预聚合的shuffle操作 ☆☆☆
6.8 使用高性能的算子 ☆☆☆☆

6.8.1 使用reduceByKey/aggregateByKey替代groupByKey
6.8.2 使用mapPartitions替代普通map ☆☆☆☆
6.8.3 使用foreachPartitions替代foreach ☆☆☆☆
6.8.4 使用filter之后进行coalesce操作 ☆☆☆☆
6.8.5 使用repartitionAndSortWithinPartitions替代repartition与sort类操作 ☆☆☆
6.8.6 使用fastutil优化数据格式 ☆☆☆☆☆

Flume 常见面试题

1. Flume 工作机制 ☆☆☆☆
2. Flume 采集数据出现丢失怎么办？ ☆☆☆☆☆
3. Flume 高可用 ☆☆☆☆

3.1 failover 故障转移
3.2 load balance 负载均衡

4. Flume上传文件到HDFS时参数大量小文件? ☆☆☆
5. Flume内存 ☆☆☆
6. Flume 事务 ☆☆☆☆
7. 你是如何实现Flume数据传输的监控的 ☆☆☆
8. Flume 的 Source，Sink，Channel 的作用？你们公司Source 是什么类型？ ☆☆☆☆☆
9. Flume 参数调优 ☆☆☆☆

Kafka 常见面试题

1. Kafka 消息数据积压，消费能力不足怎么处理？ ☆☆☆☆☆
2. Kafka 消息重复消费和消息丢包的解决办法 ☆☆☆☆☆
3. Kafka 有哪些情形会造成重复消费？ ☆☆☆☆☆
4. 那些情景会造成消息漏消费？ ☆☆☆☆☆
5. Kafka中的ISR、AR又代表什么？☆☆☆☆☆
6. Kafka中的HW、LEO等分别代表什么？ ☆☆☆☆☆
7. Kafka 如何保证数据的顺序性，该如何解决？它怎么体现消息顺序性的？☆☆☆☆☆

7.1 解决数据顺序性
7.2 Kafka 如何体现消息有序性的

8. Kafka中的分区器、序列化器、拦截器是否了解？它们之间的处理顺序是什么？☆☆☆
9. 当你使用kafka-topics.sh创建（删除）了一个topic之后，Kafka背后会执行什么逻辑？ ☆☆☆
10. Kafka有什么优缺点？
11. topic的分区数可不可以增加？如果可以怎么增加？如果不可以，那又是为什么？☆☆☆☆☆
12. topic的分区数可不可以减少？如果可以怎么减少？如果不可以，那又是为什么？☆☆☆☆☆
13. Kafka有内部的topic吗？如果有是什么？有什么所用？ ☆☆☆☆
14. Kafka分区分配的概念？ ☆☆☆☆☆
15. Kafka如何保证不丢失消息？☆☆☆☆☆
16. Kafka中有那些地方需要选举？这些地方的选举策略又有哪些？☆☆☆☆☆
17. Kafka的那些设计让它有如此高的性能？☆☆☆☆☆

Hbase 常见面试题

1. rowkey 设计规则 ☆☆☆☆☆

1.1 rowkey 怎么设计？☆☆☆☆☆

2. 提高Hbase读写性能的通用做法? ☆☆☆
3. 讲一下 Hbase 架构 ☆☆☆☆
4. 讲一下hbase读数据的流程 ☆☆☆☆
5. 讲一下hbase的写数据的流程 ☆☆☆☆
6. 讲一下hbase的存储结构,这样的存储结构有什么优缺点 ☆☆☆☆

Redis 20问

1. 你们项目中有用过 Redis ? 场景在哪里？ ☆☆☆☆☆
2. Redis 线程是否安全？☆☆☆☆

io 多路复用原则

3. Redis 中是否有事务机制？事务支持回滚吗？☆☆☆☆☆

为什么 redis 不采用事务回滚？

4. Redis 与 mysql 如何保持数据一致性？☆☆☆☆
5. Redis 宕机，数据会丢失吗？ ☆☆☆☆☆
6. Redis 持久化 ☆☆☆☆☆

6.1 RDB 和 AOF

6.1.1 RDB
6.1.2 AOF

6.2 RDB 和 AOF 区别？

7. Redis 中如何存放对象 ☆☆☆
8. Redis 内存满了怎么办？☆☆☆☆
9. Redis 如何实现高可用？哨兵机制的作用？☆☆☆☆☆

9.2 哨兵机制的作用？
9.3 哨兵机制的优缺点

10. Redis 缓存穿透、雪崩、击穿如何解决？☆☆☆☆☆
11. Redis 如何实现分布式锁？ ☆☆☆☆
12. Redis 集群有哪些方案？☆☆☆

12.1 Twemproxy – Twitter
12.2 Codis – 豌豆荚
12.3 Redis Cluster – 官方

13. Redis 有哪些数据结构？ ☆☆☆☆☆
14. Redis 数据结构模型（跳跃表、布隆过滤器）☆☆☆
15. 订单超时自动取消如何实现？ ☆☆☆☆☆
16. Redis 主从复制如果网络延时怎么办？☆☆☆☆
17. Redis 主从同步效率非常慢怎么解决？☆☆☆☆
18. Redis Cluster 集群 ☆☆☆☆**☆**
19. 说说你对redis 哨兵机制的理解 ☆☆☆☆☆

20. 为什么 Redis 需要把所有数据放到内存中？☆☆☆☆☆

Hadoop 常见面试题

1. mr 工作原理 ☆☆☆☆

mr 将得到的split 分配对应的 task，每个任务处理相对应的 split，将 split 以 line 方式读取每一行数据，将数据依次读取到100M（maprdeuce.task.io.sort.mb）的环形缓冲区读取过程中一旦到达阈值（mapreduce.map.sort.spill.percent）80M进行溢写操作，spiller线程溢写到磁盘（mapreduce.cluster.local.dir）目录中，期间会进行kv分区（分区数由reduce数来决定）默认使用hashpartition，再将分区中数据进行key的排序（默认排序规则是字典和升序），如果设置了setCombinerClass 则会对每个分区中的数据进行 combiner 操作，如果设置了output.compress压缩格式会对溢写的数据进行压缩，最后merge根据分区规则将数据归并到同一个文件中等待reduce的拉取，nodemanger将启动一个mapreduce_shuffle服务将数据以http方式拉取到reduce端，reduce处理阶段当达到阈值（默认0.66）或map输出数的阈值（默认100）会进行merge（同一分区的一组数据会先进行归并）|sort（将归并好的数据进行排序）|group（判断迭代器中的元素是否可以迭代）,处理完成mr将同一个分区内的数据，在hdfs中以文件形式体现出来，几个分区就会创建几个文件。

其中reduce端的merge达到阈值会触发，sort则是维持其map阶段顺序，而group是设置（ setGroupingComparatorClass）后才会触发。

有效的理解mr工作流程可大大提升程序运行效率，其中 mr 的 shuffle 也被称为奇迹开始的地方

2. split 机制 ☆☆☆☆☆

spilit 是在mr 处理的map端之前产生的概念，split切片大小，默认等于block*1.1，在FileInputFormat中计算切片大小的逻辑：

blocksize：默认是 128M，可通过 dfs.blocksize 修改
minSize：默认是 1，可通过 mapreduce.input.fileinputformat.split.minsize 修改
maxsize：默认是 Long.MaxValue，可通过 mapreduce.input.fileinputformat.split.maxsize 修改

Hadoop FileInputFormat 源码：

public static final String SPLIT_MAXSIZE = "mapreduce.input.fileinputformat.split.maxsize";
public static final String SPLIT_MINSIZE = "mapreduce.input.fileinputformat.split.minsize";

protected long computeSplitSize(long blockSize, long minSize, long maxSize) {
        return Math.max(minSize, Math.min(maxSize, blockSize));
}

为什么split不是与block 一一对应的？

大量小文件场景，map进程造成资源严重浪费。

针对大小文件场景可以手动配置。

3. namenode,datanode,secondaryNameNode分别是干什么的？☆☆☆☆☆

namenode，在基于主从架构的hdfs文件系统中是主节点，其主要职责就是对hdfs中的文件的元信息，副本数，文件目录树，block 数据节点信息；

datanode，它是从节点也是数据节点，基于本地磁盘存储 block（文件的形式），有相关数据块的长度、效验和、时间戳，与namnode保持心跳，汇报 block 状态。

secondaryNameNode，检查点节点，namenode 日志高可用的关键，其主要作用就是将namenode的元数据日志信息合并后备份，防止元数据丢失。

元信息：是数据文件的block大小，文件副本存储位置，副本数量，block 数量，主要体现在edits文件和fsimage文件。

副本数：hdfs 中同一个文件在多个节点中所存储的总数量，也是实现持久化和保证安全性的关键。

文件目录树：hdfs提供了一个可以维护的文件目录，该文件目录下存储着有关所有hdfs的文件。

block 数据节点信息：如a文件在01和02节点中存储，该信息称为数据节点信息。

edits：记录 client 执行创建,移动,修改文件的信息，同时体现了 HDFS 的最新的状态(二进制文件)。

它分布在磁盘上的多个文件，名称由前缀 edits 及后缀组成.后缀值是该文件包含的事务 ID,同一时刻只有一个文件处于可读写状态.为避免数据丢失,事务完成后 client 端在执行成功前,文件会进行更新和同步,当 NN 向多个目录写数据时,只有在所有操作更新并同步到每个副本之后执行才成功。

fsimage：记录的是数据块的位置信息、数据块的冗余信息（二进制文件）

由于 edits 文件记录了最新状态信息，并且随着操作越多，edits 文件就会越大，把 edits 文件中最新的信息写到 fsimage 文件中就解决了 edits 文件数量多不方便管理的情况。

没有体现 HDFS 的最新状态。

每个 fsimage 文件都是文件系统元数据的一个完整的永久性的检查点。

为什么引入 secondaryNameNode？

由于只有在重启时 fsimage 和 edits 才会进行合并，得到一个新的 fsimage 文件，但是在实际生产环境中很少会重启集群，NN 的重启需要花费很长时间,因为会有很多改动需要合并到 fsimage 文件上，如果 NN 挂掉，fsimage 文件没有更新内容，从而丢失很多改动。

但 editlog 日志大小会随着时间变的越来越大，导致系统重启，根据日志恢复元数据的时间会越来越长；

为了避免这种情况，引入检查点机制checkpoint，命名空间镜像 fsimage 就是 HDFS 元数据的持久性检查点，即将内存中的元数据落磁盘生成的文件；

了解详细可以访问我另一个博客：hdfs详细

https://blog.csdn.net/qq_43259670/article/details/105882983

4. mr on yarn 工作原理 ☆☆☆☆☆

1、向client端提交MapReduce job.

2、随后yarn的ResourceManager进行资源的分配.

3、由NodeManager进行加载与监控containers.

4、通过applicationMaster与ResourceManager进行资源的申请及状态的交互，由NodeManagers进行MapReduce运行时job的管理.

5、通过hdfs进行job配置文件、jar包的各节点分发。

5. fsimage 和 edits 是干什么的？为什么要使用？☆☆☆☆

edits：记录 client 执行创建,移动,修改文件的信息，同时体现了 HDFS 的最新的状态(二进制文件)。

fsimage：记录的是数据块的位置信息、数据块的冗余信息（二进制文件）

没有体现 HDFS 的最新状态。

每个 fsimage 文件都是文件系统元数据的一个完整的永久性的检查点。

为什么使用？

NN 使用了 FsImage+EditLog 整合的方案；

滚动将增量的 EditLog 更新到 FsImage，以保证更近时点的 FsImage 和更小的 EditLog 体积

6. hdfs 工作原理 ☆☆☆☆

一般就是读写的工作流程，因为hdfs 主要还是对文件存储与读写。

读流程：

client端创建一个代理对象与namenode进行rpc通信，拿到namenode对象后请求获取文件的元信息，namenode效验无误后将元信息返回，client获取到元信息之后根据元信息读取相应datanode的block块，将block合并成一个文件进行返回。

写流程：

client端创建一个代理对象与namenode进行rpc通信，拿到namenode对象后请求创建文件的元信息，namenode触发副本放置策略，返回元数据信息，client和datanode建立piepline连接，client将packet放入一个队列中，并向第一个datanode发送packet这一过程中上游节点同时发送下一个packet，当 block 传输完成，DN 们各自向 NN 汇报，同时 Client 继续传输下一个 block所以，Client 的传输和 block 的汇报也是并行的

7. block 副本放置策略 ☆☆☆

1.x

第一个副本：放置在上传文件的 DataNode；如果时集群外提交，则随机挑选一台磁盘不太满，CPU 不太忙的节点。
第二个副本：放置在于第一个副本不同的机架的节点上。
第三个副本：与第一个副本相同机架的节点。
更多副本：随机节点

可能产生的问题是前两个副本在同一机架当机架出现问题时会丢失两个副本

2.x

第一个副本：放置在上传文件的 DataNode；如果时集群外提交，则随机挑选一台磁盘不太满，CPU 不太忙的节点。
第二个副本：放置在于第一个副本不同的机架的节点上。
第三个副本：与第二个副本相同机架的节点。
更多副本：随机节点

了解详细可以访问我另一个博客：hdfs详细

https://blog.csdn.net/qq_43259670/article/details/105882983

Hive 常见面试题

1. 简述Hive工作原理 ☆☆☆☆☆

1、执行查询：Hive接口，命令行或 web UI发送查询驱动程序

2、get Plan：驱动程序查询编译器

3、词法分析/语法分析

4、语义分析

5、逻辑计划产生

6、逻辑计划优化

7、物理计划生成

8、物理计划优化

9、物理计划执行

10、查询结果返回

提示：以上是hive的大致工作原理流程，一般面试问到这里就算比较深入了

2. hive 内部表和外部表区别 ☆☆☆☆☆

创建表时：创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。

删除表时：在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。

提示：内部表与外部表的区别一定要掌握，通常情况下我们都会使用外部表保证数据安全性，但是像中间表，结果表这种我们就会考虑使用内部表（管理表）

3. 分区和分桶的区别 ☆☆☆☆

3.1 分区

是指按照数据表的某列或某些列分为多个区，区从形式上可以理解为文件夹，比如我们要收集某个大型网站的日志数据，一个网站每天的日志数据存在同一张表上，由于每天会生成大量的日志，导致数据表的内容巨大，在查询时进行全表扫描耗费的资源非常多。

那其实这个情况下，我们可以按照日期对数据表进行分区，不同日期的数据存放在不同的分区，在查询时只要指定分区字段的值就可以直接从该分区查找

3.2 分桶

分桶是相对分区进行更细粒度的划分。

分桶将整个数据内容安装某列属性值得hash值进行区分，如要按照name属性分为3个桶，就是对name属性值的hash值对3取摸，按照取模结果对数据分桶。

如取模结果为0的数据记录存放到一个文件，取模为1的数据存放到一个文件，取模为2的数据存放到一个文件

总结：分区就是在hdfs上分目录（文件夹），分桶就是分文件。

4. 将数据直接上传到分区目录（hdfs）上，让分区表和数据产生关联有哪些方式？☆☆

方案一：上传数据后修复表
dfs -mkdir -p 分区目录
dfs -put 分区目录
msck repair table 表名
方案二：上传数据后添加分区
dfs -mkdir -p 分区目录
dfs -put 分区目录
alter table 表名 add partition();

提示：这里我们如果直接将新的分区文件上传到hdfs上，因为hive没有对应的元数据所以是无法查询到数据的，所以我们要进行表修复或者添加分区。

5. 桶表是否可以通过直接load将数据导入？☆☆

不可以，因为load数据的话hdfs下只会有一个文件无法完成分桶的效果，分桶和mapredue中的分区是一样的道理，所以我们要借助中间表导入数据。

6. order by,sort by,distribute by,cluster by的区别？☆☆☆☆

order by会对所给的全部数据进行全局排序，不管来多少数据，都只启动一个reducer来处理。
sort by是局部排序，sort by会根据数据量的大小启动一到多个reducer来干活，并且，它会在进入reduce之前为每个reducer都产生一个排序文件。
distribute by 控制map结果的分发，它会将具有相同字段的map输出分发到一个reduce节点上做处理。
cluster by 可以理解为一个特殊的distribute by和sort by的结合，当distribute by和sort by后面所跟的列名相同时，就等同于直接使用cluster by 跟上该列名。但是被cluster by指定的列最终的排序结果只能是降序，而且无法指定asc和desc。

提示：这个问题面试问的频率很高，大家一定要注意区分以下。

7. 聚合函数是否可以写在order by后面，为什么？☆☆☆☆

不可以。

原因：执行顺序！！！order by的执行顺序在select之后，所以需使用重新定义的列名进行排序。

提示：理解sql的执行顺序更加有利于大家写sql

(1)from

(2)join

(3)on

(4)where

(5)select

(6)group by

(7)having

(8)order by

(9)limit

8. 导致数据倾斜的原因有哪些，有什么解决的方案？☆☆☆☆☆

什么是数据倾斜？

数据倾斜就是数据的分布不平衡，某些地方特别多，某些地方又特别少，导致的在处理数据的时候，有些很快就处理完了，而有些又迟迟未能处理完，导致整体任务最终迟迟无法完成，这种现象就是数据倾斜。

针对mapreduce的过程来说就是，有多个reduce，其中有一个或者若干个reduce要处理的数据量特别大，而其他的reduce处理的数据量则比较小，那么这些数据量小的reduce很快就可以完成，而数据量大的则需要很多时间，导致整个任务一直在等它而迟迟无法完成。
跑mr任务时常见的reduce的进度总是卡在99%，这种现象很大可能就是数据倾斜造成的。

造成数据倾斜的原因

比如某些业务数据作为key的字段本就很集中，那么结果肯定会导致数据倾斜啊。
还有其他的一些原因，但是，根本原因还是key的分布不均匀，而其他的原因就是会造成key不均匀，进而导致数据倾斜的后果，所以说根本原因是key的分布不均匀。

既然有数据倾斜这种现象，就必须要有数据倾斜对应的处理方案啊。
简单地说数据倾斜这种现象导致的任务迟迟不能完成，耗费了太多时间，极大地影响了性能，所以我们数据倾斜的解决方案设计思路就是往如何提高性能，即如何缩短任务的处理时间这方面考虑的，而要提高性能，就要让key分布相对均衡，所以我们的终极目标就是考虑如何预处理数据才能够使得它的key分布均匀。

你是如何发现Hive数据倾斜？

通过 yarn 监控平台的 task 信息查看到有个别的 task 执行时间过于缓慢，甚至还会挂掉。

解决办法

1 合理设置Map数

1）通常情况下，作业会通过input的目录产生一个或者多个map任务。

主要的决定因素有：input的文件总个数，input的文件大小，集群设置的文件块大小。

举例：
a)  假设input目录下有1个文件a，大小为780M，那么hadoop会将该文件a分隔成7个块（6个128m的块和1个12m的块），从而产生7个map数。
b) 假设input目录下有3个文件a，b，c大小分别为10m，20m，150m，那么hadoop会分隔成4个块（10m，20m，128m，22m），从而产生4个map数。即，如果文件大于块大小(128m)，那么会拆分，如果小于块大小，则把该文件当成一个块。

2）是不是map数越多越好？

  答案是否定的。如果一个任务有很多小文件（远远小于块大小128m），则每个小文件也会被当做一个块，用一个map任务来完成，而一个map任务启动和初始化的时间远远大于逻辑处理的时间，就会造成很大的资源浪费。而且，同时可执行的map数是受限的。

3）是不是保证每个map处理接近128m的文件块，就高枕无忧了？

答案也是不一定。比如有一个127m的文件，正常会用一个map去完成，但这个文件只有一个或者两个小字段，却有几千万的记录，如果map处理的逻辑比较复杂，用一个map任务去做，肯定也比较耗时。

针对上面的问题2和3，我们需要采取两种方式来解决：即减少map数和增加map数；

2 小文件合并

在map执行前合并小文件，减少map数：
CombineHiveInputFormat 具有对小文件进行合并的功能（系统默认的格式）
```
set mapred.max.split.size=112345600;
set mapred.min.split.size.per.node=112345600;
set mapred.min.split.size.per.rack=112345600;
set hive.input.format= org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
```
这个参数表示执行前进行小文件合并，前面三个参数确定合并文件块的大小，大于文件块大小128m的，按照128m来分隔，小于128m，大于100m的，按照100m来分隔，把那些小于100m的（包括小文件和分隔大文件剩下的），进行合并。

3 复杂文件增加Map数

当input的文件都很大，任务逻辑复杂，map执行非常慢的时候，可以考虑增加Map数，来使得每个map处理的数据量减少，从而提高任务的执行效率。

增加map的方法为

根据 computeSliteSize(Math.max(minSize,Math.min(maxSize,blocksize)))公式
调整maxSize最大值。让maxSize最大值低于blocksize就可以增加map的个数。

mapreduce.input.fileinputformat.split.minsize=1 默认值为1

mapreduce.input.fileinputformat.split.maxsize=Long.MAXValue 默认值Long.MAXValue因此，默认情况下，切片大小=blocksize 

maxsize（切片最大值): 参数如果调到比blocksize小，则会让切片变小，而且就等于配置的这个参数的值。

minsize(切片最小值): 参数调的比blockSize大，则可以让切片变得比blocksize还大。

例如

--设置maxsize大小为10M，也就是说一个fileSplit的大小为10M
set mapreduce.input.fileinputformat.split.maxsize=10485760;

4 合理设置Reduce数

1、调整reduce个数方法一
- 1）每个Reduce处理的数据量默认是256MB
```
set hive.exec.reducers.bytes.per.reducer=256000000;
```
- 2）每个任务最大的reduce数，默认为1009
```
set hive.exec.reducers.max=1009;
```
- 3）计算reducer数的公式
```
N=min(参数2，总输入数据量/参数1)
```

2、调整reduce个数方法二

--设置每一个job中reduce个数
set mapreduce.job.reduces=3;

3、reduce个数并不是越多越好
- 过多的启动和初始化reduce也会消耗时间和资源；
- 同时过多的reduce会生成很多个文件，也有可能出现小文件问题

总的来说就是，数据倾斜的根源是key分布不均匀，所以应对方案要么是从源头解决（不让数据分区，直接在map端搞定），要么就是在分区时将这些集中却无效的key过滤（清洗）掉，或者是想办法将这些key打乱（给key加上标签），让它们进入到不同的reduce中。

9. Hive的四种排序 ☆☆☆

order by
order by 会对输入做全局排序，因此只有一个reducer（多个reducer无法保证全局有序）
只有一个reducer，会导致当输入规模比较大时，需要较长的时间。
set hive.mapred.mode=nonstrict; (default value / 默认值)
set hive.mapred.mode=strict;
order by 和数据库中的order by功能一致按照某一项&几项排序输出。
与数据库中order by的区别在于hive.mapred.mode = strict模式下必须指定limit否则执行会报错
原因：在order by状态下所有的数据都会到一台服务器进行reduce操作也就是只有一个reduce，如果在数据量大的情况下会出现无果的情况，如果进行limit n，那只有n * map
number 条记录而已。只有一个reduce也可以出来里过来

sort by
sort by不是全局排序，其在数据进入reducer前完成排序
因此，如果用sort by进行排序，并且设置mapred.reduce.tasks>1，则sort by只保证每个reducer 的输出有序，不保证全局有序。
sort by 不受hive.mapred.mode是否为strict，nostrict的影响。
sort by的数据只能保证在同一个reduce中的数据可以按指定字段排序。
使用sort by你可以指定执行的reduce个数（set mapred.reduce.tasks=），对输出的数据在执行归并排序，即可以得到全部结果。
注意：可以用limit子句大大减少数据量。使用limit n后，传输到reduce端（单机）的数据记录就减少到n*（map个数）。否则由于数据过大可能出不了结果。

distribute by
按照指定的字段对数据进行划分到不同的输出reduce / 文件中。
insert overwrite local directory ‘/home/hadoop/out’ select * from test order by name

distribute by length(name);
此方法会根据name的长度划分到不同的reduce中，最终输出到不同的文件中。
length 是内建函数，也可以指定其他的函数或这使用自定义函数。

Cluster By
cluster by 除了具有 distribute by 的功能外还兼具 sort by 的功能。
但是排序只能是倒序排序，不能指定排序规则为asc 或者desc。

10. Hive的分区分桶 ☆☆☆☆☆

我们发现其实桶的概念就是MapReduce的分区的概念，两者完全相同。物理上每个桶就是目录里的一个文件，一个作业产生的桶（输出文件）数量和reduce任务个数相同。

而分区表的概念，则是新的概念。分区代表了数据的仓库，也就是文件夹目录。每个文件夹下面可以放不同的数据文件。通过文件夹可以查询里面存放的文件。但文件夹本身和数据的内容毫无关系。

桶则是按照数据内容的某个值进行分桶，把一个大文件散列称为一个个小文件。这些小文件可以单独排序。如果另外一个表也按照同样的规则分成了一个个小文件。两个表join的时候，就不必要扫描整个表，只需要匹配相同分桶的数据即可。效率当然大大提升。

同样，对数据抽样的时候，也不需要扫描整个文件。只需要对每个分区按照相同规则抽取一部分数据即可。

• 分区表
如果在建表时使用了 PARTITIONED BY，表即为分区表。分区表下的数据按分区键的值（或值的范围）放在HDFS下的不同目录中，可以有效减少查询时扫描的数据量，提升查询效率。
• 非分区表
非分区表即除分区表之外的表。
按表是否分桶分类
按表是否分桶可以将表分为两类：分桶表和非分桶表。
• 分桶表
如果在建表时使用了 CLUSTERED BY … INTO … BUCKETS，表即为分桶表。分桶表下的数据按
分桶键的哈希值放在HDFS下的不同目录中，可以有效减少查询时扫描的数据量，提升查询效率。
• 非分桶表
非分桶表即除分桶表之外的表

11. hive中分区可以提高查询效率，分区是否越多越好，为什么？☆☆☆

1.hive如果有过多的分区，由于底层是存储在HDFS上，HDFS上只用于存储大文件而非小文件，因为过多的分区会增加namenode的负担。

2.hive会转化为mapreduce，mapreduce会转化为多个task。过多小文件的话，每个文件一个task，每个task一个JVM实例，JVM的开启与销毁会降低系统效率。

注意：合理的分区不应该有过多的分区和文件目录，并且每个目录下的文件应该足够大

12. hive 调优 ☆☆☆☆☆

12.1 hive-site.xml 与 hive cli 调参 ☆☆☆☆☆

<configuration>
    <property>
        <name>javax.jdo.option.ConnectionURLname>
        <value>jdbc:mysql://bd01:3306/hive?createDatabaseIfNotExist=truevalue>
        <description>JDBC connect string for a JDBC metastoredescription>
    property>
    
    <property>
        <name>hive.execution.enginename>
        <value>sparkvalue>
    property>
    
    <property>
        <name>ngmr.partition.automergename>
        <value>truevalue>
    property>
    
    <property>
        <name>ngmr.partition.mergesize.mbname>
        <value>3value>
    property>
    
    <property>
        <name>hive.merge.sparkfilesname>
        <value>truevalue>
    property>
    
    <property>
        <name>hive.map.aggname>
        <value>truevalue>
    property>
    
    <property>
        <name>hive.vectorized.execution.enabledname>
        <value>truevalue>
    property>


    
    <property>
        <name>hive.cbo.enablename>
        <value>truevalue>
    property>
    <property>
        <name>hive.stats.fetch.column.statsname>
        <value>truevalue>
    property>
    <property>
        <name>hive.stats.fetch.partition.statsname>
        <value>truevalue>
    property>
    <property>
        <name>hive.compute.query.using.statsname>
        <value>truevalue>
    property>

    
    <property>
        <name>hive.exec.compress.intermediatename>
        <value>truevalue>
    property>
    <property>
        <name>hive.exec.compress.outputname>
        <value>truevalue>
    property>
    
    <property>
        <name>hive.fetch.task.conversionname>
        <value>morevalue>
    property>
    
    <property>
        <name>hive.groupby.skewindataname>
        <value>truevalue>
    property>
    
    <property>
        <name>hive.optimize.cpname>
        <value>truevalue>
    property>
    
    <property>
        <name>mapreduce.job.jvm.numtasksname>
        <value>10value>
        <description>How many tasks to run per jvm. If set to -1, there is no limit.description>
    property>
    <property>
        <name>javax.jdo.option.ConnectionDriverNamename>
        <value>com.mysql.jdbc.Drivervalue>
        <description>Driver class name for a JDBC metastoredescription>
    property>

    <property>
        <name>javax.jdo.option.ConnectionUserNamename>
        <value>rootvalue>
        <description>username to use against metastore databasedescription>
    property>

    <property>
        <name>javax.jdo.option.ConnectionPasswordname>
        <value>rootvalue>
        <description>password to use against metastore databasedescription>
    property>
configuration>

hive cli 中设置调优参数

// 合并 block 减少 task 数量
set ngmr.partition.automerge = true;
// jvm 重用
set mapreduce.job.jvm.numtasks=10;   
// 表示将 n 个 block 安排给单个线程处理。
set ngmr.partition.mergesize.mb =3;
// 开启小文件合并
set hive.merge.sparkfiles = true;
// 开启小文件合并
set hive.map.agg = true;
// 使用向量化查询
set hive.vectorized.execution.enabled = true;
// cbo可以优化hive的每次查询
set hive.cbo.enable = true;
set hive.stats.fetch.column.stats = true;
set hive.stats.fetch.partition.stats = true;
set hive.compute.query.using.stats = true;
 
// 开启数据压缩
set hive.exec.compress.intermediate = true;
set hive.exec.compress.output = true;
// 有数据倾斜的时候进行负载均衡group by操作是否允许数据倾斜，默认是false，当设置为true时，执行计划会生成两个map/reduce作业，第一个MR中会将map的结果随机分布到reduce中，达到负载均衡的目的来解决数据倾斜，
set hive.groupby.skewindata =  true;
// 列裁剪，默认开启true，在做查询时只读取用到的列，这个是个有用的优化；
set hive.optimize.cp = true;

12.2 数据压缩 ☆☆☆☆☆

12.2.1 数据的压缩说明

压缩模式评价
- 可使用以下三种标准对压缩方式进行评价
  - 1、压缩比：压缩比越高，压缩后文件越小，所以压缩比越高越好
  - 2、压缩时间：越快越好
  - 3、已经压缩的格式文件是否可以再分割：可以分割的格式允许单一文件由多个Mapper程序处理，可以更好的并行化
常见压缩格式

压缩方式	压缩比	压缩速度	解压缩速度	是否可分割
gzip	13.4%	21 MB/s	118 MB/s	否
bzip2	13.2%	2.4MB/s	9.5MB/s	是
lzo	20.5%	135 MB/s	410 MB/s	是
snappy	22.2%	172 MB/s	409 MB/s	否

Hadoop编码/解码器方式

压缩格式	对应的编码/解码器
DEFLATE	org.apache.hadoop.io.compress.DefaultCodec
Gzip	org.apache.hadoop.io.compress.GzipCodec
BZip2	org.apache.hadoop.io.compress.BZip2Codec
LZO	com.hadoop.compress.lzo.LzopCodec
Snappy	org.apache.hadoop.io.compress.SnappyCodec

压缩性能的比较

压缩算法	原始文件大小	压缩文件大小	压缩速度	解压速度
gzip	8.3GB	1.8GB	17.5MB/s	58MB/s
bzip2	8.3GB	1.1GB	2.4MB/s	9.5MB/s
LZO	8.3GB	2.9GB	49.3MB/s	74.6MB/s

http://google.github.io/snappy/

On a single core of a Core i7 processor in 64-bit mode, Snappy compresses at about 250 MB/sec or more and decompresses at about 500 MB/sec or more.

12.2.2 压缩配置参数

要在Hadoop中启用压缩，可以配置如下参数（mapred-site.xml文件中）：

参数	默认值	阶段	建议
io.compression.codecs （在core-site.xml中配置）	org.apache.hadoop.io.compress.DefaultCodec, org.apache.hadoop.io.compress.GzipCodec, org.apache.hadoop.io.compress.BZip2Codec, org.apache.hadoop.io.compress.Lz4Codec	输入压缩	Hadoop使用文件扩展名判断是否支持某种编解码器
mapreduce.map.output.compress	false	mapper输出	这个参数设为true启用压缩
mapreduce.map.output.compress.codec	org.apache.hadoop.io.compress.DefaultCodec	mapper输出	使用LZO、LZ4或snappy编解码器在此阶段压缩数据
mapreduce.output.fileoutputformat.compress	false	reducer输出	这个参数设为true启用压缩
mapreduce.output.fileoutputformat.compress.codec	org.apache.hadoop.io.compress. DefaultCodec	reducer输出	使用标准工具或者编解码器，如gzip和bzip2
mapreduce.output.fileoutputformat.compress.type	RECORD

12.3 文件压缩 ☆☆☆☆☆

Hive支持的存储数的格式主要有：TEXTFILE（行式存储）、SEQUENCEFILE(行式存储)、ORC（列式存储）、PARQUET（列式存储）。

12.3.1 列式存储和行式存储

上图左边为逻辑表，右边第一个为行式存储，第二个为列式存储。

行存储的特点： 查询满足条件的一整行数据的时候，列存储则需要去每个聚集的字段找到对应的每个列的值，行存储只需要找到其中一个值，其余的值都在相邻地方，所以此时行存储查询的速度更快。select *

列存储的特点： 因为每个字段的数据聚集存储，在查询只需要少数几个字段的时候，能大大减少读取的数据量；每个字段的数据类型一定是相同的，列式存储可以针对性的设计更好的设计压缩算法。 select 某些字段效率更高

TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的；

ORC和PARQUET是基于列式存储的。

12.3.2 TEXTFILE格式

默认格式，数据不做压缩，磁盘开销大，数据解析开销大。可结合Gzip、Bzip2使用(系统自动检查，执行查询时自动解压)，但使用这种方式，hive不会对数据进行切分，从而无法对数据进行并行操作。

12.3.3 ORC格式

Orc (Optimized Row Columnar)是hive 0.11版里引入的新的存储格式。

可以看到每个Orc文件由1个或多个stripe组成，每个stripe250MB大小，这个Stripe实际相当于RowGroup概念，不过大小由4MB->250MB，这样能提升顺序读的吞吐率。每个Stripe里有三部分组成，分别是Index Data,Row Data,Stripe Footer：

一个orc文件可以分为若干个Stripe

一个stripe可以分为三个部分

indexData：某些列的索引数据

rowData :真正的数据存储

StripFooter：stripe的元数据信息

1）Index Data：一个轻量级的index，默认是每隔1W行做一个索引。这里做的索引只是记录某行的各字段在Row Data中的offset。

2）Row Data：存的是具体的数据，先取部分行，然后对这些行按列进行存储。对每个列进行了编码，分成多个Stream来存储。

3）Stripe Footer：存的是各个stripe的元数据信息

每个文件有一个File Footer，这里面存的是每个Stripe的行数，每个Column的数据类型信息等；每个文件的尾部是一个PostScript，这里面记录了整个文件的压缩类型以及FileFooter的长度信息等。在读取文件时，会seek到文件尾部读PostScript，从里面解析到File Footer长度，再读FileFooter，从里面解析到各个Stripe信息，再读各个Stripe，即从后往前读。

12.3.4 PARQUET格式

Parquet是面向分析型业务的列式存储格式，由Twitter和Cloudera合作开发，2015年5月从Apache的孵化器里毕业成为Apache顶级项目。

Parquet文件是以二进制方式存储的，所以是不可以直接读取的，文件中包括该文件的数据和元数据，因此Parquet格式文件是自解析的。

通常情况下，在存储Parquet数据的时候会按照Block大小设置行组的大小，由于一般情况下每一个Mapper任务处理数据的最小单位是一个Block，这样可以把每一个行组由一个Mapper任务处理，增大任务执行并行度。Parquet文件的格式如下图所示。

上图展示了一个Parquet文件的内容，一个文件中可以存储多个行组，文件的首位都是该文件的Magic Code，用于校验它是否是一个Parquet文件，Footer length记录了文件元数据的大小，通过该值和文件长度可以计算出元数据的偏移量，文件的元数据中包括每一个行组的元数据信息和该文件存储数据的Schema信息。除了文件中每一个行组的元数据，每一页的开始都会存储该页的元数据，在Parquet中，有三种类型的页：数据页、字典页和索引页。数据页用于存储当前行组中该列的值，字典页存储该列值的编码字典，每一个列块中最多包含一个字典页，索引页用来存储当前行组下该列的索引，目前Parquet中还不支持索引页。

存储文件的查询速度测试：

1）TextFile
hive (default)> select count(*) from log_text;
_c0
100000
Time taken: 21.54 seconds, Fetched: 1 row(s)  

2）ORC
hive (default)> select count(*) from log_orc;
_c0
100000
Time taken: 20.867 seconds, Fetched: 1 row(s)  

3）Parquet
hive (default)> select count(*) from log_parquet; 
_c0
100000
Time taken: 22.922 seconds, Fetched: 1 row(s)

存储文件的查询速度总结：
ORC > TextFile > Parquet

Spark 常见面试题

1. 说出几个常见的rdd算子？ ☆☆☆☆

1.1 transformation算子

map,filter,flatmap,groupbykey,repartition

1.2 action 算子

reduce,collect,count,take,saveAsTextFile

2. rdd是什么？rdd的创建方式有几种？分别是怎么分区的？☆☆☆

2.1 rdd是什么？

rdd即弹性分布式数据集，是spark中最基本的数据抽象，它代表一个不可变的、可分区的内部元素可并行计算的集合。

2.2 rdd的创建方式

使用makeRDD通过集合创建。由本地核数来决定分区数量

使用外部数据源创建如hdfs。由block的数量来决定的，通常默认为2个分区最低也是2个。

由另一个rdd得出的结果创建，即转换时创建。根据父rdd的 reduceTask数量

3. RDD的依赖关系 ☆☆☆☆☆

3.1 宽依赖：多个子RDD的分区依赖同一个父RDD的Partition

3.2 窄依赖：每一个父RDD的Partition最多被子RDD的一个Partition使用

3.3 为什么要划分依赖关系？

简单的说，有效分别各个算子之间的关系有利于生成dag图形，以及程序运行过程中产生的多次依赖变化的监察，窄依赖就是将依赖较为单一依赖视为一种方式，如果将宽窄依赖混为一谈，处理、区分、运行都会导致效率的分配不均。

4. task，stage，job分别是什么？ ☆☆☆☆☆

4.1 task

即 stage 下的一个任务执行单元，一般来说，一个 rdd 有多少个 partition，就会有多少个 task，因为每一个 task 只是处理一个partition 上的数据。

4.2 stage

一个Job会被拆分为多组Task，每组任务被称为一个stage，每一次数据的shuffle都会产生一个stage。

4.3 job

每触发一次action操作就会生成一个job，

4.4 为什么要划分 stage？

由于划分完 stage 之后，在同一个stage中只有窄依赖，没有宽依赖，可以实现流水线计算，stage中的每一个分区对应一个task，在同一个stage中就有很多可以并行运行的task。

5. RDD的缓存持久化机制？☆☆☆☆☆

主要通过cache，persist，checkpoint来实现RDD 的缓存持久化机制

5.1 cache与persist：

cache默认将数据存储在内存中，底层实现是persist
persist定义了相关多种的数据存储策略，如多副本，磁盘，内存等，将数据存储在内存中就会产生相应的oom内存溢出问题，以及内存如果不够数据放置，并不能保证数据准确，安全性。
它不会改变rdd的依赖关系，程序运行完成后对应的缓存数据就自动消失
后续要触发 cache 和 persist 持久化操作，需要有一个action操作
它不会开启其他新的任务，一个action操作就对应一个job

5.2 checkpoint：

可以把数据持久化写入到hdfs上
后续要触发checkpoint持久化操作，需要有一个action操作，后续会开启新的job执行checkpoint操作
它会改变rdd的依赖关系，后续数据丢失了不能够在通过血统进行数据的恢复。程序运行完成后对应的checkpoint数据就不会消失

6. spark常见调优 ☆☆☆☆☆

6.1 修改序列化机制有效压缩数据量，通过使用Kryo优化序列化性能 ☆☆☆☆☆

conf.set("spark.serializer","org.apache.spark.serializer.KryoSerializer ")

6.2 在实际的生产环境中，提交spark任务时，使用spark-submit shell脚本，在里面调整对应的参数。☆☆☆☆

提交任务的脚本:

  spark-submit \

 --master spark://node1:7077 \

 --class com.kaikeba.WordCount \

 --num-executors 3 \    配置executor的数量

 --driver-memory 1g \   配置driver的内存（影响不大）

 --executor-memory 1g \ 配置每一个executor的内存大小

 --executor-cores 3 \   配置每一个executor的cpu个数

 /export/servers/wordcount.jar

6.3 提高并行度 ☆☆☆☆

设置task的数量

spark.defalut.parallelism

默认是没有值的，如果设置了值为10，它会在shuffle的过程才会起作用。

比如 val rdd2 = rdd1.reduceByKey(+)

此时rdd2的分区数就是10

可以通过在构建SparkConf对象的时候设置，例如：
```
new SparkConf().set("spark.defalut.parallelism","500")
```
给RDD重新设置partition的数量

使用rdd.repartition 来重新分区，该方法会生成一个新的rdd，使其分区数变大。

此时由于一个partition对应一个task，那么对应的task个数越多，通过这种方式也可以提高并行度。
通过设置参数sql.shuffle.partitions=500 默认为200；

可以适当增大，来提高并行度。比如设置为 spark.sql.shuffle.partitions=500

6.4 RDD 的重用和持久化 ☆☆☆☆☆

适当的重用和持久化RDD能有效减少同一段代码重复与调用的次数，从而提高程序的运行效率和性能，通常使用persist，cache方法。
在持久化过程中适当的使用序列化可减少数据的size从而降低内存和cpu的计算耗时和存储空间。
序列化的方式，唯一的缺点就是，在获取数据的时候，需要反序列化。但是可以减少占用的空间和便于网络传输。
如果序列化纯内存方式，还是导致OOM，内存溢出；就只能考虑磁盘的方式，内存+磁盘的普通方式（无序列化）。
为了数据的高可靠性，而且内存充足，可以使用双副本机制，进行持久化

持久化的双副本机制，持久化后的一个副本，因为机器宕机了，副本丢了，就还是得重新计算一次；

持久化的每个数据单元，存储一份副本，放在其他节点上面，从而进行容错；一个副本丢了，不用重新计算，还可以使用另外一份副本。这种方式，仅仅针对你的内存资源极度充足。

比如: StorageLevel.MEMORY_ONLY_2

6.5 适当将那些多次使用变量广播出去 ☆☆

比如一个任务需要50个executor，1000个task，共享数据为100M。

在不使用广播变量的情况下，1000个task，就需要该共享数据的1000个副本，也就是说有1000份数需要大量的网络传输和内存开销存储。耗费的内存大小 1000*100=100G.
使用了广播变量后，50个executor就只需要50个副本数据，而且不一定都是从Driver传输到每个节点，还可能是就近从最近的节点的executor的 blockmanager上拉取广播变量副本，网络传输速度大大增加；内存开销 50*100M=5G

如何使用?

1.通过sparkContext的broadcast方法把数据转换成广播变量，类型为Broadcast，
val broadcastArray: Broadcast[Array[Int]] = sc.broadcast(Array(1,2,3,4,5,6))
sc.broadcast(Array(1,2,3,4,5,6))
2.然后executor上的BlockManager就可以拉取该广播变量的副本获取具体的数据。
	获取广播变量中的值可以通过调用其value方法
	val array: Array[Int] = broadcastArray.value

总结：

不使用广播变量的内存开销为100G，使用后的内存开销5G，这里就相差了20 倍左右的网络传输性能损耗和内存开销，使用广播变量后对于性能的提升和影响，还是很可观的。

广播变量的使用不一定会对性能产生决定性的作用。比如运行30分钟的spark作业，可能做了广播变量以后，速度快了2分钟，或者5分钟。但是一点一滴的调优，积少成多。最后还是会有效果的。

注意事项：

能不能将一个RDD使用广播变量广播出去？不能，因为RDD是不存储数据的。可以将RDD的结果广播出去。
广播变量只能在Driver端定义，不能在Executor端定义。
在Driver端可以修改广播变量的值，在Executor端无法修改广播变量的值。
如果executor端用到了Driver的变量，如果不使用广播变量在Executor 有多少task就有多少Driver端的变量副本。
如果Executor端用到了Driver的变量，如果使用广播变量在每个Executor中只有一份Driver端的变量副本。

6.6 尽量避免shuffle ☆☆☆☆☆

有效的避免shuffle可以减少网络间io和各个分区之间传输。

如何避免?

案例:

//错误的做法：
// 传统的join操作会导致shuffle操作。
// 因为两个RDD中，相同的key都需要通过网络拉取到一个节点上，由一个task进行join操作。
val rdd3 = rdd1.join(rdd2)
    
//正确的做法：
// Broadcast+map的join操作，不会导致shuffle操作。
// 使用Broadcast将一个数据量较小的RDD作为广播变量。
val rdd2Data = rdd2.collect()
val rdd2DataBroadcast = sc.broadcast(rdd2Data)

// 在rdd1.map算子中，可以从rdd2DataBroadcast中，获取rdd2的所有数据。
// 然后进行遍历，如果发现rdd2中某条数据的key与rdd1的当前数据的key是相同的，那么就判定可以进行join。
// 此时就可以根据自己需要的方式，将rdd1当前数据与rdd2中可以连接的数据，拼接在一起（String或Tuple）。
val rdd3 = rdd1.map(rdd2DataBroadcast...)

// 注意，以上操作，建议仅仅在rdd2的数据量比较少（比如几百M，或者一两G）的情况下使用。
// 因为每个Executor的内存中，都会驻留一份rdd2的全量数据。

6.7 使用map-side预聚合的shuffle操作 ☆☆☆

如果因为业务需要，一定要使用shuffle操作，无法用map类的算子来替代，那么尽量使用可以map-side预聚合的算子。

所谓的map-side预聚合，说的是在每个节点本地对相同的key进行一次聚合操作，类似于MapReduce中的本地combiner。

map-side预聚合之后，每个节点本地就只会有一条相同的key，因为多条相同的key都被聚合起来了。其他节点在拉取所有节点上的相同key时，就会大大减少需要拉取的数据数量，从而也就减少了磁盘IO以及网络传输开销。

通常来说，在可能的情况下，建议使用reduceByKey或者aggregateByKey算子来替代掉groupByKey算子。因为reduceByKey和aggregateByKey算子都会使用用户自定义的函数对每个节点本地的相同key进行预聚合。

而groupByKey算子是不会进行预聚合的，全量的数据会在集群的各个节点之间分发和传输，性能相对来说比较差。

比如如下两幅图，就是典型的例子，分别基于reduceByKey和groupByKey进行单词计数。其中第一张图是groupByKey的原理图，可以看到，没有进行任何本地聚合时，所有数据都会在集群节点之间传输；第二张图是reduceByKey的原理图，可以看到，每个节点本地的相同key数据，都进行了预聚合，然后才传输到其他节点上进行全局聚合。

groupByKey进行单词计数原理：

reduceByKey单词计数原理：

6.8 使用高性能的算子 ☆☆☆☆

6.8.1 使用reduceByKey/aggregateByKey替代groupByKey

reduceByKey/aggregateByKey 可以进行预聚合操作，减少数据的传输量，提升性能

groupByKey 不会进行预聚合操作，进行数据的全量拉取，性能比较低

6.8.2 使用mapPartitions替代普通map ☆☆☆☆

mapPartitions类的算子，一次函数调用会处理一个partition所有的数据，而不是一次函数调用处理一条，性能相对来说会高一些。

但是有的时候，使用mapPartitions会出现OOM（内存溢出）的问题。因为单次函数调用就要处理掉一个partition所有的数据，如果内存不够，垃圾回收时是无法回收掉太多对象的，很可能出现OOM异常。所以使用这类操作时要慎重！

6.8.3 使用foreachPartitions替代foreach ☆☆☆☆

原理类似于“使用mapPartitions替代map”，也是一次函数调用处理一个partition的所有数据，而不是一次函数调用处理一条数据。在实践中发现，foreachPartitions类的算子，对性能的提升还是很有帮助的。比如在foreach函数中，将RDD中所有数据写MySQL，那么如果是普通的foreach算子，就会一条数据一条数据地写，每次函数调用可能就会创建一个数据库连接，此时就势必会频繁地创建和销毁数据库连接，性能是非常低下；但是如果用foreachPartitions算子一次性处理一个partition的数据，那么对于每个partition，只要创建一个数据库连接即可，然后执行批量插入操作，此时性能是比较高的。实践中发现，对于1万条左右的数据量写MySQL，性能可以提升30%以上。

6.8.4 使用filter之后进行coalesce操作 ☆☆☆☆

通常对一个RDD执行filter算子过滤掉RDD中较多数据后（比如30%以上的数据），建议使用coalesce算子，手动减少RDD的partition数量，将RDD中的数据压缩到更少的partition中去。

因为filter之后，RDD的每个partition中都会有很多数据被过滤掉，此时如果照常进行后续的计算，其实每个task处理的partition中的数据量并不是很多，有一点资源浪费，而且此时处理的task越多，可能速度反而越慢。

因此用coalesce减少partition数量，将RDD中的数据压缩到更少的partition 之后，只要使用更少的task即可处理完所有的partition。在某些场景下，对于性能的提升会有一定的帮助。

6.8.5 使用repartitionAndSortWithinPartitions替代repartition与sort类操作 ☆☆☆

repartitionAndSortWithinPartitions是Spark官网推荐的一个算子，官方建议，如果需

要在repartition重分区之后，还要进行排序，建议直接使用repartitionAndSortWithinPartitions算子。

因为该算子可以一边进行重分区的shuffle操作，一边进行排序。shuffle与sort两个操作同时进行，比先shuffle再sort来说，性能可能是要高的。

6.8.6 使用fastutil优化数据格式 ☆☆☆☆☆

fastutil是扩展了Java标准集合框架（Map、List、Set；HashMap、ArrayList、 HashSet）的类库，提供了特殊类型的map、set、list和queue；

fastutil能够提供更小的内存占用，更快的存取速度；我们使用fastutil提供的集合类，来替代自己平时使用的JDK的原生的Map、List、Set.

Spark中应用fastutil的场景和使用

算子函数使用了外部变量

1.你可以使用Broadcast广播变量优化；

2.可以使用Kryo序列化类库，提升序列化性能和效率；

3.如果外部变量是某种比较大的集合，那么可以考虑使用fastutil改写外部变量；

首先从源头上就减少内存的占用(fastutil)，通过广播变量进一步减少内存占用，再通过Kryo序列化类库进一步减少内存占用。

算子函数里使用了比较大的集合Map/List

在你的算子函数里，也就是task要执行的计算逻辑里面，如果有逻辑中，出现，要创建比较大的Map、List等集合，

可能会占用较大的内存空间，而且可能涉及到消耗性能的遍历、存取等集合操作；那么此时，可以考虑将这些集合类型使用fastutil类库重写，使用了fastutil集合类以后，就可以在一定程度上，减少task创建出来的集合类型的内存占用。

避免executor内存频繁占满，频繁唤起GC，导致性能下降。

fastutil的使用

第一步：在pom.xml中引用fastutil的包

<dependency>
  <groupId>fastutilgroupId>
  <artifactId>fastutilartifactId>
  <version>5.0.9version>
dependency>

第二步：平时使用List （Integer）的替换成IntList即可。

List的list对应的到fastutil就是IntList类型

使用说明：

基本都是类似于IntList的格式，前缀就是集合的元素类型；

特殊的就是Map，Int2IntMap，代表了key-value映射的元素类型。
reduce,collect,count,take,saveAsTextFile

Flume 常见面试题

1. Flume 工作机制 ☆☆☆☆

核心概念是agent，里面包括source、chanel和sink三个组件。
source运行在日志收集节点进行日志采集，之后临时存储在chanel中，sink负责将chanel中的数据发送到目的地。
只有成功发送之后chanel中的数据才会被删除。
首先书写flume配置文件，定义agent、source、chanel和sink然后将其组装，执行flume-ng命令。

2. Flume 采集数据出现丢失怎么办？ ☆☆☆☆☆

不会，Channel存储可以存储在File中，数据传输自身有事务。

也可以使用断点续传TailDir Source，防止传输时出现网络问题导致数据丢失。

FileChannel优化

通过配置dataDirs指向多个路径，每个路径对应不同的硬盘，增大Flume吞吐量。

checkpointDir 和 backupCheckpointDir 也尽量配置在不同硬盘对应的目录中，保证 checkpoint 坏掉后，可以快速使用 backupCheckpointDir 恢复数据

3. Flume 高可用 ☆☆☆☆

3.1 failover 故障转移

核心配置

当采集数据的节点发生故障将流入到另一个节点上保证数据不出现断传现象

# 定义了2个sink
a1.sinks = k1 k2

#set gruop
# 设置一个sink组，一个sink组下可以包含很多个sink
a1.sinkgroups = g1
#set sink group
# 指定g1这个sink组下有k1  k2 这2个sink
a1.sinkgroups.g1.sinks = k1 k2

配置多个 sinks让数据流入一个 sinkgroups中

核心配置

# set failover
# 指定sink组高可用的策略---failover故障转移
a1.sinkgroups.g1.processor.type = failover
# 指定k1这个sink的优先级 优先向k1传输数据优先级为10
a1.sinkgroups.g1.processor.priority.k1 = 10
# 指定k2这个sink的优先级 
a1.sinkgroups.g1.processor.priority.k2 = 5
# 指定故障转移的最大时间，如果超时会出现异常	10000毫秒后没有响应就向k2传输数据
a1.sinkgroups.g1.processor.maxpenalty = 10000

说明：
这里首先要申明一个sinkgroups,然后再设置2个sink ,k1与k2,其中2个优先级是10和5。
而processor的maxpenalty被设置为10秒，默认是30秒.表示故障转移的最大时间

3.2 load balance 负载均衡

实现多个flume采集数据的时候避免单个flume的负载比较高，实现多个flume采集器负载均衡。

核心配置

#set load-balance
# 指定sink组高可用的策略---load_balance负载均衡
a1.sinkgroups.g1.processor.type =load_balance
# 默认是 round_robin轮询，还可以选择 random
a1.sinkgroups.g1.processor.selector = round_robin
# 如果backoff被开启，则sink processor会屏蔽故障的sink
a1.sinkgroups.g1.processor.backoff = true

4. Flume上传文件到HDFS时参数大量小文件? ☆☆☆

调整hdfs.rollInterval（间隔）、hdfs.rollSize（大小）、hdfs.rollCount（数量）这三个参数的值。

5. Flume内存 ☆☆☆

开发中在flume-env.sh中设置JVM heap为4G或更高，部署在单独的服务器上（4核8线程16G内存）

-Xmx与-Xms最好设置一致，减少内存抖动带来的性能影响，如果设置不一致容易导致频繁fullgc。

6. Flume 事务 ☆☆☆☆

Flume 的事务机制（类似数据库的事务机制）：Flume 使用两个独立的事务分别负责从

Soucrce 到 Channel，以及从 Channel 到 Sink 的事件传递。

比如 spooling directory source 为文件的每一行创建一个事件，一旦事务中所有的事件全部传递到 Channel 且提交成功，那么 Soucrce 就将该文件标记为完成。

同理，事务以类似的方式处理从 Channel 到 Sink 的传递过程，如果因为某种原因使得事件无法记录，那么事务将会回滚。且所有的事件都会保持到

Channel 中，等待重新传递。

1）Flume事务组成，Put事务，Take事务

Taildir Source：断点续传、多目录。Flume1.6以前需要自己自定义Source记录每次读取文件位置，实现断点续传。

File Channel：数据存储在磁盘，宕机数据可以保存。但是传输速率慢。适合对数据传输可靠性要求高的场景，比如，金融数据。

Memory Channel：数据存储在内存中，宕机数据丢失。传输速率快。适合对数据传输可靠性要求不高的场景，比如，普通的日志数据。

Kafka Channel：减少了Flume的Sink阶段，提高了传输效率。

Source到Channel是Put事务

Channel到Sink是Take事务

7. 你是如何实现Flume数据传输的监控的 ☆☆☆

使用第三方框架 Ganglia 实时监控 Flume

8. Flume 的 Source，Sink，Channel 的作用？你们公司Source 是什么类型？ ☆☆☆☆☆

1、作用

（1）Source 组件是专门用来收集数据的，可以处理各种类型、各种格式的日志数据，

包括 avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、

legacy

（2）Channel 采集的数据进行缓存，存入Memory 或 File 。

（3）Sink 组件是用于把数据发送到目的地的组件，包括 Hdfs、Logger、avro、

thrift、ipc、file、Hbase、solr、自定义。

2、我公司采用的 Source 类型为：

（1）监控后台日志：exec

（2）监控后台产生日志的端口：netcat

9. Flume 参数调优 ☆☆☆☆

Source

增加 Source 个（使用 Tair Dir Source 时可增加 FileGroups 个数）可以增大 Source 的读

取数据的能力。例如：当某一个目录产生的文件过多时需要将这个文件目录拆分成多个文件

目录，同时配置好多个 Source 以保证 Source 有足够的能力获取到新产生的数据。

batchSize 参数决定 Source 一次批量运输到 Channel 的 event 条数，适当调大这个参数可

以提高 Source 搬运 Event 到 Channel 时的性能。

Channel

type 选择 memory 时 Channel 的性能最好，但是如果 Flume 进程意外挂掉可能会丢失数

据。

type 选择 file 时 Channel 的容错性更好，但是性能上会比 memory channel 差。

使用 file Channel 时 dataDirs 配置多个不同盘下的目录可以提高性能。

Capacity 参数决定 Channel 可容纳最大的 event 条数。

transactionCapacity 参数决定每次 Source 往 channel 里面写的最大 event 条数和每次 Sink 从 channel 里面读的最大 event 条数。

transactionCapacity 需要大于 Source 和 Sink 的 batchSize 参数。

Sink

增加 Sink 的个数可以增加 Sink 消费 event 的能力。Sink 也不是越多越好够用就行，过

多的 Sink 会占用系统资源，造成系统资源不必要的浪费。

Kafka 常见面试题

1. Kafka 消息数据积压，消费能力不足怎么处理？ ☆☆☆☆☆

1）可以考虑增加Topic的分区数，并且同时提升消费组的消费者数量，消费者数=分区数。（两者缺一不可）

2）如果是下游的数据处理不及时：提高每批次拉取的数量。批次拉取数据过少（拉取数据/处理时间<生产速度），使处理的数据小于生产的数据，也会造成数据积压。

2. Kafka 消息重复消费和消息丢包的解决办法 ☆☆☆☆☆

消费者（offset手动提交，业务逻辑成功处理后，提交offset）

保证不重复消费：落表（主键或者唯一索引的方式，避免重复数据）

业务逻辑处理（选择唯一主键存储到Redis或者mongdb中，先查询是否存在，若存在则不处理；若不存在，先插入Redis或Mongdb,再进行业务逻辑处理）

自主维护 offset 判断不存在才插入值

3. Kafka 有哪些情形会造成重复消费？ ☆☆☆☆☆

消费者消费后没有commit offset(程序崩溃/强行kill/消费耗时/自动提交偏移情况下unscrible)

4. 那些情景会造成消息漏消费？ ☆☆☆☆☆

先提交offset，后消费，有可能造成数据的重复

5. Kafka中的ISR、AR又代表什么？☆☆☆☆☆

ISR：与leader保持同步的follower集合（保持所有同步的副本包括leader）
AR：分区的所有副本

6. Kafka中的HW、LEO等分别代表什么？ ☆☆☆☆☆

LEO：每个副本的最后一条消息的offset
HW：一个分区中所有副本最小的offset

7. Kafka 如何保证数据的顺序性，该如何解决？它怎么体现消息顺序性的？☆☆☆☆☆

7.1 解决数据顺序性

相同订单的数据，发送同一个分区中去

采用kafka分区策略

第一种分区策略：给定了分区号，直接将数据发送到指定的分区里面去

第二种分区策略：没有给定分区号，给定数据的key值，通过key取上hashCode进行分区

第三种分区策略：既没有给定分区号，也没有给定key值，直接轮循进行分区

第四种分区策略：自定义分区

producer.send(new ProducerRecord("test", Integer.toString(i), Integer.toString(i)));
//kafka的第一种分区方式，如果给定了分区号，那么就直接将数据发送到指定的分区号里面去
producer.send(new ProducerRecord("test",2,"helloworld",i+""));
//kafka的第二种分区策略，没有给定分区号，给定了数据的key，那么就通过key取hashcode，将数据均匀的发送到三台机器里面去
//注意如果实际工作当中，要通过key取上hashcode来进行分区，那么就一定要 保证key的变化，否则，数据就会全部去往一个分区里面
producer.send(new ProducerRecord("test",i+"",i+""));
//kafka的第三种分区策略，既没有给定分区号，也没有给定数据的key值，那么就会按照轮循的方式进行数的发送
producer.send(new ProducerRecord("test",i+""));
//kafka的第四种分区策略，自定义分区类，实现我们数据的分区

Flume 整合 Kafka 顺序性

kafka sink

defalutPartitonId

将数据发送到指定的分区中去，例如：将数据发送到 3 号分区，指定 3 就可以了

partitionIdHeader

自定义分区策略指定一个类继承 kafka.partitioner.class

详细配置：

http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html

7.2 Kafka 如何体现消息有序性的

每个分区内，每条消息都有一个offset，故只能保证分区内有序。
如果为了保证topic整个有序，那么将partition调整为1.

8. Kafka中的分区器、序列化器、拦截器是否了解？它们之间的处理顺序是什么？☆☆☆

拦截器 -> 序列化器 -> 分区器

9. 当你使用kafka-topics.sh创建（删除）了一个topic之后，Kafka背后会执行什么逻辑？ ☆☆☆

1）会在zookeeper中的/brokers/topics节点下创建一个新的topic节点，如：/brokers/topics/first
2）触发Controller的监听程序
3）kafka Controller 负责topic的创建工作，并更新metadata cache

10. Kafka有什么优缺点？

11. topic的分区数可不可以增加？如果可以怎么增加？如果不可以，那又是为什么？☆☆☆☆☆

可以增加
bin/kafka-topics.sh --zookeeper localhost:2181/kafka --alter --topic topic-config --partitions 3

12. topic的分区数可不可以减少？如果可以怎么减少？如果不可以，那又是为什么？☆☆☆☆☆

不可以减少，被删除的分区数据难以处理。

13. Kafka有内部的topic吗？如果有是什么？有什么所用？ ☆☆☆☆

__consumer_offsets,保存消费者offset

14. Kafka分区分配的概念？ ☆☆☆☆☆

一个topic多个分区，一个消费者组多个消费者，故需要将分区分配个消费者(roundrobin、range)

15. Kafka如何保证不丢失消息？☆☆☆☆☆

复制因子：创建topic的时候指定复制因子大于1时，一个分区被分配到一个broker上，同时会在其他broker上维护一个分区副本；
isr列表：分区及其副本分别为leader和follower，leader对外提供读写服务，follower会向leader发送同步请求，拉取最新的数据，如果follower和leader的消息差距保持在一定范围之内，那么这个follower在isr列表内；当分区leader所在broker宕机，会从isr列表中选举一个follower作为新的leader提供服务
通过kafka的acks参数可以控制消息的发送行为，acks可选的值有0、1、all；当设置为0时，生产者消息发送成功即为成功，不关心是否写入到磁盘及后续操作；当设置为1时，消息发送到分区leader后写入磁盘即为成功；当设置为all时，消息发送到分区leader并写入磁盘后，同步给isr列表中的所有分区副本后即为成功

16. Kafka中有那些地方需要选举？这些地方的选举策略又有哪些？☆☆☆☆☆

partition leader（ISR），controller（先到先得）

17. Kafka的那些设计让它有如此高的性能？☆☆☆☆☆

分区，顺序写磁盘，0-copy 零拷贝、利用操作系统页缓存、磁盘顺序写

kafka零拷贝原理
分区、分段、建立索引
生产者、消费者批处理

Hbase 常见面试题

1. rowkey 设计规则 ☆☆☆☆☆

1.长度限制（64k）

2.散列性（rowkey 尽量打散，防止 regionserver 产生热点问题）

3.唯一性（字段唯一）

热点

热点发生在大量的client直接访问集群的一个或极少数个节点（访问可能是读，写或者其他操作）。大量访问会使热点region所在的单个机器超出自身承受能力，引起性能下降甚至region不可用，这也会影响同一个RegionServer上的其他region，由于主机无法服务其他region的请求。设计良好的数据访问模式以使集群被充分，均衡的利用。

1.1 rowkey 怎么设计？☆☆☆☆☆

使用数据库中（主键+时间戳）.md5加密

主键+|

而|是字典的最大值，而 Hbase rowkey是按照字典顺序进行排序

结果就是

““ 0000|

0000| 0001|

0001| 0002|

0002| 0003|

0003| 0004|

依次类推，就可以实现预分区防止 regionserver 产生热点问题

最后 rowkey 就为：

主键+|+加密后的时间戳

0001 | asdaswiwq

2. 提高Hbase读写性能的通用做法? ☆☆☆

写方面 : 1. 批量写 2. 多线程并发写 3. BulkLoad 4. 预拆分Region

读方面 : 1. 多线程并发读 2.读多写少业务可以将BlockCache占比调大 3.设置Bloomfilter 4. 预拆分Region

3. 讲一下 Hbase 架构 ☆☆☆☆

Hbase主要包含HMaster/HRegionServer/Zookeeper

HRegionServer 负责实际数据的读写. 当访问数据时, 客户端直接与RegionServer通信.

HBase的表根据Row Key的区域分成多个Region, 一个Region包含这这个区域内所有数据. 而Region server负责管理多个Region, 负责在这个Region server上的所有region的读写操作.
HMaster 负责管理Region的位置, DDL(新增和删除表结构)
- 协调RegionServer
- 在集群处于数据恢复或者动态调整负载时,分配Region到某一个RegionServer中
- 管控集群,监控所有Region Server的状态
- 提供DDL相关的API, 新建(create),删除(delete)和更新(update)表结构.
Zookeeper 负责维护和记录整个Hbase集群的状态

zookeeper探测和记录Hbase集群中服务器的状态信息.如果zookeeper发现服务器宕机,它会通知Hbase的master节点.

4. 讲一下hbase读数据的流程 ☆☆☆☆

首先，客户端需要获知其想要读取的信息的Region的位置，这个时候，Client访问hbase上数据时并不需要Hmaster参与（HMaster仅仅维护着table和Region的元数据信息，负载很低），只需要访问zookeeper，从meta表获取相应region信息(地址和端口等)。【Client请求ZK获取.META.所在的RegionServer的地址。】
客户端会将该保存着RegionServer的位置信息的元数据表.META.进行缓存。然后在表中确定待检索rowkey所在的RegionServer信息（得到持有对应行键的.META表的服务器名）。【获取访问数据所在的RegionServer地址】
根据数据所在RegionServer的访问信息，客户端会向该RegionServer发送真正的数据读取请求。服务器端接收到该请求之后需要进行复杂的处理。
先从MemStore找数据，如果没有，再到StoreFile上读(为了读取的效率)。

5. 讲一下hbase的写数据的流程 ☆☆☆☆

Client先访问zookeeper，从.META.表获取相应region信息，然后从meta表获取相应region信息
根据namespace、表名和rowkey根据meta表的数据找到写入数据对应的region信息
找到对应的regionserver 把数据先写到WAL中，即HLog，然后写到MemStore上
MemStore达到设置的阈值后则把数据刷成一个磁盘上的StoreFile文件。
当多个StoreFile文件达到一定的大小后(这个可以称之为小合并，合并数据可以进行设置，必须大于等于2，小于10——hbase.hstore.compaction.max和hbase.hstore.compactionThreshold，默认为10和3)，会触发Compact合并操作，合并为一个StoreFile，（这里同时进行版本的合并和数据删除。）
当Storefile大小超过一定阈值后，会把当前的Region分割为两个（Split）【可称之为大合并，该阈值通过hbase.hregion.max.filesize设置，默认为10G】，并由Hmaster分配到相应的HRegionServer，实现负载均衡

6. 讲一下hbase的存储结构,这样的存储结构有什么优缺点 ☆☆☆☆

Hbase的优点及应用场景:

半结构化或非结构化数据: 对于数据结构字段不够确定或杂乱无章非常难按一个概念去进行抽取的数据适合用HBase，因为HBase支持动态添加列。
记录很稀疏： RDBMS的行有多少列是固定的。为null的列浪费了存储空间。HBase为null的Column不会被存储，这样既节省了空间又提高了读性能。
多版本号数据：依据Row key和Column key定位到的Value能够有随意数量的版本号值，因此对于须要存储变动历史记录的数据，用HBase是很方便的。比方某个用户的Address变更，用户的Address变更记录也许也是具有研究意义的。
仅要求最终一致性：对于数据存储事务的要求不像金融行业和财务系统这么高，只要保证最终一致性就行。（比如HBase+elasticsearch时，可能出现数据不一致）
高可用和海量数据以及很大的瞬间写入量： WAL解决高可用，支持PB级数据，put性能高适用于插入比查询操作更频繁的情况。比如，对于历史记录表和日志文件。（HBase的写操作更加高效）
业务场景简单：不需要太多的关系型数据库特性，列入交叉列，交叉表，事务，连接等。

Hbase的缺点：

单一RowKey固有的局限性决定了它不可能有效地支持多条件查询
不适合于大范围扫描查询
不直接支持 SQL 的语句查询

Redis 20问

1. 你们项目中有用过 Redis ? 场景在哪里？ ☆☆☆☆☆

① Token 令牌生成，替代 Session，Session只存在于当前的 jvm 中，将 Token 存入 redis 里实现共享。

② 短信验证码 code。

③ 热点 key 预热，数据库第一次请求速度非常慢，热点数据（经常会被查询，但是不经常被修改或者删除的数据）放入redis。

④ 网页 PVUV 计数，由于 redis 是单线程线程安全可以保证计数的原子性。

⑤ 分布式锁 setnx、使用框架 resdison。

⑥ 订单的有效期、使用 redis key 的有效期，key 失效监听，进行回调。

⑦ 实现注册中心、分布式配置中心

2. Redis 线程是否安全？☆☆☆☆

安全，依靠 IO 多路复用提高处理效率

redis 官方不支持 windows 版本，windows 不支持 epoll

Redis的底层采用Nio中的多路复用的机制，能够非常好的支持这样的并发，从而保证
线程安全问题;。

Redis单线程，也就是底层采用一个线程维护多个不同的客户端io操作。.
但是 NIO 在不同的操作系统上实现的方式有所不同，在我们windows操作系统使用select
实现轮训时间复杂度是为o(n)，而且还存在空轮训的情况，效率非常低，其次是默认对我
们轮训的数据有一定限制，所以支持上万的 tcp 连接是非常难。

所以在 linux 操作系统采用 epoll 实现事件驱动回调，不会存在空轮训的情况，只对活跃的
socket 连接实现主动回调这样在性能上有大大的提升，所以时间复杂度是为o(1)。

所以为什么nginx redis.都能够非常高支持高并发，最终都是linux中的 IO 多路复用机制
epoll.

io 多路复用原则

服务器端只有一个线程去处理 n 多个请求，判断是否有数据，有数据进行流入 buffer 中写满后由才进行操作。

字节传输与 buffer 传输

字节流传输效率比较低，传输字节一个一个写入

buffer 传输效率比较高，写满后以一个块的形式把字节写入

3. Redis 中是否有事务机制？事务支持回滚吗？☆☆☆☆☆

Redis 支持事务，和 mysql 的事务有很大区别，Redis 一旦开启事务其他线程也可以对这个 key进行操作很难像mysql 一样保证数据的原子性。
mysql 中一旦有线程对一行数据进行事务操作，其他线程对这一行数据是不能进行操作的，redis和mysql 正好相反。
Redis 的 Watch 采用乐观锁机制控制，乐观锁主要是指当每次拿数据的时候都认为都别人不会更改，所以不会上锁，允许多个线程进行操作，这也是 Redis 不能保证数据原子性的原因所在。

redis 不存在事务回滚。

为什么 redis 不采用事务回滚？

回滚的目的就是将mysql的行锁进行释放，而 redis 不存在行锁，但是 redis 有取消事务，使用discard 会放弃事务块的所有命令。

4. Redis 与 mysql 如何保持数据一致性？☆☆☆☆

通过 redis 发布订阅，去订阅到数据库的 binlog 保持和mysql数据一致性。

采用增量 binlog 同步的方案

5. Redis 宕机，数据会丢失吗？ ☆☆☆☆☆

不会，因为有 RDB 和AOF

开启AOF 持久化最多可能丢失 1s 数据。

6. Redis 持久化 ☆☆☆☆☆

6.1 RDB 和 AOF

6.1.1 RDB

RDB 是以二进制文件，是在某个时间点将数据写入一个临时文件，持久化结束后，用这个临时文件替换上次持久化的文件，达到数据恢复。
优点：使用单独子进程来进行持久化，主进程不会进行任何 IO 操作，保证了 redis 的高性能
缺点：RDB 是间隔一段时间进行持久化，如果持久化之间 redis 发生故障，会发生数据丢失。所以这种方式更适合数据要求不严谨的时候

这里说的这个执行数据写入到临时文件的时间点是可以通过配置来自己确定的，通过配置redis 在 n 秒内如果超过 m 个 key 被修改这执行一次 RDB 操作。这个操作就类似于在这个时间点来保存一次 Redis 的所有数据，一次快照数据。所有这个持久化方法也通常叫做 snapshots。

开启 RDB

# dbfilename：持久化数据存储在本地的文件
dbfilename dump.rdb
# dir：持久化数据存储在本地的路径，如果是在/redis/redis-3.0.6/src下启动的redis-cli，则数据会存储在当前src目录下
dir ./
## snapshot触发的时机，save    
## 如下为900秒后，至少有一个变更操作，才会snapshot  
## 对于此值的设置，需要谨慎，评估系统的变更操作密集程度  
## 可以通过“save “””来关闭snapshot功能  
# save时间，以下分别表示更改了1个key时间隔900s进行持久化存储；更改了10个key300s进行存储；更改10000个key60s进行存储。
save 900 1
save 300 10
save 60 10000
## 当snapshot时出现错误无法继续时，是否阻塞客户端“变更操作”，“错误”可能因为磁盘已满/磁盘故障/OS级别异常等  
stop-writes-on-bgsave-error yes  
## 是否启用rdb文件压缩，默认为“yes”，压缩往往意味着“额外的cpu消耗”，同时也意味这较小的文件尺寸以及较短的网络传输时间  
rdbcompression yes

6.1.2 AOF

Append-only file，将“操作 + 数据”以格式化指令的方式追加到操作日志文件的尾部，在 append 操作返回后(已经写入到文件或者即将写入)，才进行实际的数据变更，“日志文件”保存了历史所有的操作过程；当 server 需要数据恢复时，可以直接 replay 此日志文件，即可还原所有的操作过程。AOF 相对可靠，它和 mysql 中 bin.log、apache.log、zookeeper 中 txn-log 简直异曲同工。AOF 文件内容是字符串，非常容易阅读和解析。
优点：可以保持更高的数据完整性，如果设置追加 file 的时间是 1s，如果 redis 发生故障，最多会丢失 1s 的数据；且如果日志写入不完整支持 redis-check-aof 来进行日志修复；AOF 文件没被 rewrite 之前（文件过大时会对命令进行合并重写），可以删除其中的某些命令（比如误操作的 flushall）。
缺点：AOF 文件比 RDB 文件大，且恢复速度慢。

我们可以简单的认为 AOF 就是日志文件，此文件只会记录“变更操作”(例如：set/del 等)，如果 server 中持续的大量变更操作，将会导致 AOF 文件非常的庞大，意味着 server 失效后，数据恢复的过程将会很长；事实上，一条数据经过多次变更，将会产生多条 AOF 记录，其实只要保存当前的状态，历史的操作记录是可以抛弃的；因为 AOF 持久化模式还伴生了“AOF rewrite”。
AOF 的特性决定了它相对比较安全，如果你期望数据更少的丢失，那么可以采用 AOF 模式。如果 AOF 文件正在被写入时突然 server 失效，有可能导致文件的最后一次记录是不完整，你可以通过手工或者程序的方式去检测并修正不完整的记录，以便通过 aof 文件恢复能够正常；同时需要提醒，如果你的 redis 持久化手段中有 aof，那么在 server 故障失效后再次启动前，需要检测 aof 文件的完整性。

AOF 默认关闭，开启方法，修改配置文件 reds.conf：appendonly yes

开启 AOF（Append-only file）

## 此选项为aof功能的开关，默认为“no”，可以通过“yes”来开启aof功能  
## 只有在“yes”下，aof重写/文件同步等特性才会生效  
appendonly yes  

## 指定aof文件名称  
appendfilename appendonly.aof  

## 指定aof操作中文件同步策略，有三个合法值：always everysec no,默认为everysec  
appendfsync everysec  
## 在aof-rewrite期间，appendfsync是否暂缓文件同步，"no"表示“不暂缓”，“yes”表示“暂缓”，默认为“no”  
no-appendfsync-on-rewrite no  

## aof文件rewrite触发的最小文件尺寸(mb,gb),只有大于此aof文件大于此尺寸是才会触发rewrite，默认“64mb”，建议“512mb”  
auto-aof-rewrite-min-size 64mb  

## 相对于“上一次”rewrite，本次rewrite触发时aof文件应该增长的百分比。  
## 每一次rewrite之后，redis都会记录下此时“新aof”文件的大小(例如A)，那么当aof文件增长到A*(1 + p)之后  
## 触发下一次rewrite，每一次aof记录的添加，都会检测当前aof文件的尺寸。  
auto-aof-rewrite-percentage 100

redis 提供了 3 种AOF 记录同步选项：

always：每次有数据修改发生时都会写入 AOF 文件，能够保证数据安全性，但是效率比较低
everysec：每秒同步一次，可能会丢失 1s 内的数据，性能和安全都比较中庸的方式，也是 redis 推荐的方式。
no：从不同步。高效但是数据不会被持久化。

直接修改 redis.conf 中 appendonly yes

建议最好还是使用 everysec 既能够保证数据的同步、效率也还可以。

6.2 RDB 和 AOF 区别？

RDB 属于全量同步，把所有数据生成二进制文件保存到磁盘中，属于定时性（规定时间的操作）

效率比较高但是可能丢失数据

AOF 属于增量同步，把 set 操作记录到日志文件中，效率比较低，最多只会丢失 1s 数据，数据恢复较慢

7. Redis 中如何存放对象 ☆☆☆

存放 json 、存放二进制

json 阅读性比较强

二进制阅读性比较差（不能跨语言）

8. Redis 内存满了怎么办？☆☆☆☆

使用淘汰策略，将一些不使用的 key 提前释放掉

voltile-lru 从已经设置过期时间的数据集中挑选最近最少使用的数据淘汰

voltile-ttl 从已经设置过期时间的数据库集当中挑选将要过期的数据

voltile-random 从已经设置过期时间的数据集任意选择淘汰数据

allkeys-lru 从数据集中挑选最近最少使用的数据淘汰

allkeys-random 从数据集中任意选择淘汰的数据

no-eviction 禁止驱逐数据

9. Redis 如何实现高可用？哨兵机制的作用？☆☆☆☆☆

为什么要做高可用集群？

redis 可能出现单点故障，如果采用主从复制一旦宕机，需要手动的去选择一个主节点出来效率极低。

因此引用哨兵机制，让哨兵进程监控 master 状态，当它存在宕机会自动的选出一个从节点作为新的主节点。

9.2 哨兵机制的作用？

哨兵机制，比较类似ZK的设计思路。

哨兵数量与Redis节点数量一致，单个哨兵监控主节点，发现主节点出现故障或者宕机会让另一个哨兵对主节点进行检查如果发现主节点失效，会选择新一个主节点。

9.3 哨兵机制的优缺点

1、哨兵集群中只要有一台宕了，整个集群的故障转移机制就失效了。

2、哨兵启动时候redis主库必需运行正常，否则故障转移机制也失效。

3、应用端需要先询问哨兵才能访问到redis主库，是否对效率也有明显的影响。

4、只能存在一个master节点不能存在多个，数据可能产生冗余，数据同步效率较低，浪费资源。

10. Redis 缓存穿透、雪崩、击穿如何解决？☆☆☆☆☆

缓存穿透：指查询一个一定不存在的数据，如果从存储层查不到数据则不写入缓存，这将

导致这个不存在的数据每次请求都要到 DB 去查询，可能导致 DB 挂掉。

解决方案：1.查询返回的数据为空，仍把这个空结果进行缓存，但过期时间会比较短；2.布

隆过滤器：将所有可能存在的数据哈希到一个足够大的 bitmap 中，一个一定不存在的数据

会被这个 bitmap 拦截掉，从而避免了对 DB 的查询。

缓存击穿：对于设置了过期时间的 key，缓存在某个时间点过期的时候，恰好这时间点对

这个 Key 有大量的并发请求过来，这些请求发现缓存过期一般都会从后端 DB 加载数据并

回设到缓存，这个时候大并发的请求可能会瞬间把 DB 压垮。解决方案：1.使用互斥锁：当缓存失效时，不立即去 load db，先使用如 Redis 的 setnx 去设

置一个互斥锁，当操作成功返回时再进行 load db 的操作并回设缓存，否则重试 get 缓存的

方法。2.永远不过期：物理不过期，但逻辑过期（后台异步线程去刷新）。

缓存雪崩：设置缓存时采用了相同的过期时间，导致缓存在某一时刻同时失效，请求全部

转发到 DB，DB 瞬时压力过重雪崩。与缓存击穿的区别：雪崩是很多 key，击穿是某一个

key 缓存。

解决方案：将缓存失效时间分散开，比如可以在原有的失效时间基础上增加一个随机值，

比如 1-5 分钟随机，这样每一个缓存的过期时间的重复率就会降低，就很难引发集体失效

的事件。

11. Redis 如何实现分布式锁？ ☆☆☆☆

先拿 setnx 来争抢锁，抢到之后，再用 expire 给锁加一个过期时间防止锁忘记了释放。

如果在 setnx 之后执行 expire 之前进程意外 crash 或者要重启维护了，那会怎么样？

set 指令有非常复杂的参数，这个应该是可以同时把 setnx 和 expire 合成一条指令来用的！

12. Redis 集群有哪些方案？☆☆☆

12.1 Twemproxy – Twitter

优点：
- 开发简单，对应用几乎透明
- 历史悠久，方案成熟

缺点：
- 代理影响性能
- lvs和twemproxy会有节点性能瓶颈
- redis扩容非常麻烦
- twitter内部已放弃使用该方案，新使用的架构未开源

12.2 Codis – 豌豆荚

优点：
- 开发简单，对应用几乎透明
- 性能比Twemproxy好
- 有图形化界面，扩容容易，运维方便

缺点：
- 代理依旧影响性能
- 组件过多，需要很多机器资源
- 修改了redis代码，导致和官方无法同步，新特性跟进缓慢
- 开发团队准备主推基于redis改造的reborndb

12.3 Redis Cluster – 官方

优点：
- 组件all-in-box，部署简单，节约机器资源
- 性能比proxy模式好
- 自动故障转移、Slot迁移中数据可用
- 官方原生集群方案，更新与支持有保障

缺点：
- 架构比较新，最佳实践较少
- 多键操作支持有限（驱动可以曲线救国）
- 为了性能提升，客户端需要缓存路由表信息
- 节点发现、reshard操作不够自动化

13. Redis 有哪些数据结构？ ☆☆☆☆☆

字符串 String、字典 Hash、列表 List、集合 Set、有序集合 SortedSet。如果是高级用户，那

么还会有，如果你是 Redis 中高级用户，还需要加上下面几种数据结构 HyperLogLog、

Geo、Pub/Sub。

14. Redis 数据结构模型（跳跃表、布隆过滤器）☆☆☆

15. 订单超时自动取消如何实现？ ☆☆☆☆☆

使用 Token 当 Token 失效时会走客户端的回调方法，检测订单是否支付，没有支付直接提示订单超时。

16. Redis 主从复制如果网络延时怎么办？☆☆☆☆

不能解决属于强一致性问题，只能采用最终一致性方案，人工进行数据迁移，如果做了持久化将持久化文件传到从节点中。

1、强一致性：在任何时刻所有的用户或者进程查询到的都是最近一次成功更新的数据。强一致性是程度最高一致性要求，也是最难实现的。关系型数据库更新操作就是这个案例。

2、最终一致性：和强一致性相对，在某一时刻用户或者进程查询到的数据可能都不同，但是最终成功更新的数据都会被所有用户或者进程查询到。当前主流的nosql数据库都是采用这种一致性策略。

17. Redis 主从同步效率非常慢怎么解决？☆☆☆☆

采用多主多从或者是树状形式实现同步。

18. Redis Cluster 集群 ☆☆☆☆☆

对key进行分片存储在不同卡槽，分摊 key 存放

卡槽逻辑根据 crc16(meite)=50018%16384=9666

快速进行扩容和缩容，同步效率比较高

19. 说说你对redis 哨兵机制的理解 ☆☆☆☆☆

(1)集群监控，负责监控redis master 和slave进程是否正常工作。

(2)消息通知，如果某个redis实例有故障，那么哨兵负责发送消息作为报警通知给管理员。

(3)故障转移，如果master node挂掉了，会自动转移到slave node上。

(4)配置中心，如果故障转移发生了，通知client客户端新的master地址。

(1)故障转移时，判断一个master node宕机了，需要大部分哨兵都同意才行，涉及到分布式选举问题。
(2)即使部分哨兵节点挂掉了，哨兵集群还是能正常工作的，因为如果一个作为高可用机制重要组成部分的故障转移系统本身就是单点，那么就不靠谱。

哨兵的核心知识

哨兵至少需要3个实例，来保证自己的健壮性。
哨兵+redis主从的部署架构，是不会保证数据零丢失的，只能保证redis集群的高可用性
对于哨兵+redis主从这种复杂的部署架构，尽量在测试环境和生产环境，都进行充分的测试和演练。

20. 为什么 Redis 需要把所有数据放到内存中？☆☆☆☆☆

Redis 为了达到最快的读写速度将数据都读到内存中，并通过异步的方式将数据写入磁盘。

所以 redis 具有快速和数据持久化的特征，如果不将数据放在内存中，磁盘 I/O 速度为严重影响 redis 的性能。

在内存越来越便宜的今天，redis 将会越来越受欢迎，如果设置了最大使用的内存，则数据已有记录数达

到内存限值后不能继续插入新值。

侵权请联系删除~~~~~
-------------------------------------------end----------------------------------------------------

你可能感兴趣的:(大数据)

vivo Pulsar 万亿级消息处理实践（3）-KoP指标异常修复
作者：vivo互联网大数据团队-ChenJianbo本文是《vivoPulsar万亿级消息处理实践》系列文章第3篇。Pulsar是Apache基金会的开源分布式流处理平台和消息中间件，它实现了Kafka的协议，可以让使用KafkaAPI的应用直接迁移至Pulsar，这使得Pulsar在Kafka生态系统中更加容易被接受和使用。KoP提供了从Kafka到Pulsar的无缝转换，用户可以使用Kafka
广州曼顿2P数字微断：保护电力设备的安全守护者 mdkk678 安全
在现代社会，电力设备的安全运行对各行各业至关重要。然而，电力系统中存在各种电压波动、过载和短路等问题，可能对设备造成损害。为了保护电力设备免受这些问题的影响，广州曼顿推出了2P数字微断器。本文将介绍这一创新产品的特点和优势，以及它对电力设备的保护作用。广州曼顿科技有限公司专注用户侧智慧数字电气产品研制，以及智慧电能服务大数据云平台建设。基于人工智能技术，大幅提升人触电时的生命安全保障，以及电气火灾
Python爬虫在社交平台数据挖掘中的应用：深入探索用户互动程序员威哥 python 爬虫数据挖掘
引言社交媒体已经成为全球用户互动的主要平台，每天都有大量的信息生成，用户之间的互动行为如点赞、评论、分享、转发等构成了宝贵的数据资源。如何利用这些互动数据为商业决策、用户行为分析以及产品优化提供支持，已经成为数据科学与大数据分析领域的一个重要课题。Python作为一款强大的编程语言，凭借其丰富的爬虫库和数据分析工具，已经成为挖掘社交平台数据的重要工具。在本文中，我们将通过Python爬虫技术，深入
突破性能瓶颈，几个高性能Python网络框架，高效实现网络应用
引言随着互联网和大数据时代的到来，高性能网络应用的需求日益增加。Python作为一种流行的编程语言，在高性能网络编程领域也具有广泛的应用。本文将深入探讨基于Python的几种高性能网络框架，分析它们各自的优势和适用场景，帮助开发者选择最适合自己需求的网络框架这里插播一条粉丝福利，如果你正在学习Python或者有计划学习Python，想要突破自我，对未来十分迷茫的，可以点击这里获取最新的Python
AI人工智能与机器学习的大数据融合应用 AI智能探索者人工智能机器学习大数据 ai
AI人工智能与机器学习的大数据融合应用关键词：AI人工智能、机器学习、大数据、融合应用、数据挖掘摘要：本文深入探讨了AI人工智能与机器学习在大数据融合应用方面的相关内容。首先介绍了研究的背景、目的、预期读者和文档结构，对核心术语进行了清晰定义。接着阐述了AI、机器学习和大数据的核心概念及相互联系，给出了形象的文本示意图和Mermaid流程图。详细讲解了核心算法原理，并通过Python源代码进行说明
百度地图迁徙大数据深度解析与实战指南
百度地图迁徙大数据深度解析与实战指南在数字化时代，人口流动数据已成为洞察社会经济活动的关键指标。百度地图依托海量位置数据和AI算法打造的"迁徙大数据"平台，为城市规划、交通管理、商业选址等领域提供了重要决策支持。本文将系统性解析百度地图迁徙大数据的查看方法、核心功能及实战应用场景，帮助读者快速掌握这一数据驱动的决策工具。一、迁徙大数据的核心价值迁徙大数据通过聚合手机用户的定位信息，构建全国范围的人
Python爬虫实战：利用Selenium与反反爬技术高效爬取天眼查企业信息 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy selenium
摘要本文将详细介绍如何使用Python爬虫技术获取天眼查的企业信息数据。我们将从爬虫基础开始，逐步深入到高级反反爬技术，最终构建一个能够稳定获取天眼查数据的爬虫系统。文章包含完整的代码实现、技术原理分析以及实际应用场景，帮助读者全面掌握企业信息爬取的核心技术。关键词：Python爬虫、天眼查、Selenium、反反爬技术、企业信息采集、数据挖掘一、引言在当今大数据时代，企业信息数据对于市场分析、商
智慧城市大脑解决方案
智慧城市大脑背景与意义智慧城市大脑作为城市管理的创新模式，通过集成大数据、人工智能等技术，实现了对城市运行的全面感知与智能决策。它不仅提升了城市管理效率，还为市民带来了更加便捷、安全的生活体验。智慧城市大脑建设历程某城市作为智慧城市大脑的创新策源地，自2016年起便与阿里巴巴集团深度合作，投入巨资自主研发城市数据大脑“交通小脑”平台。该平台成功接入了大量视频和数据，实现了对道路和时间资源的再分配，
智慧城市大脑：城市治理的新引擎 Fulima_cloud 智慧城市人工智能
在科技日新月异的今天，智慧城市的概念已经深入人心。而智慧城市大脑，作为智慧城市的中枢神经系统，运用大数据、云计算、物联网、人工智能等先进技术，构建的城市级智能化管理体系，正逐步成为提升城市治理能力、优化城市服务、推动城市可持续发展的重要力量。智慧城市大脑是什么，简而言之，是运用大数据、云计算、物联网、人工智能等先进技术，构建的城市级智能化管理体系。它如同城市的“智慧中枢”，通过对城市全域运行数据的
KaiwuDB X 济南大数据局：构建城市级重点车辆智慧监管中枢数据库
项目背景2022年2月14日，交通运输部联合多部门对《道路运输车辆动态监督管理办法》进行重要修订。新规突出"科技强监"理念，明确要求各级管理机构依托智能监管平台构建常态化监管机制：一方面强化对重点营运车辆的动态监测，另一方面建立事故预防预警体系。这一政策不仅为城市重点车辆监管提供了权威的政策指引，更在全国范围内掀起了监管平台智能化升级的热潮。作为城市治理的中枢部门，济南市大数据局肩负着重点车辆监管
Docker容器如何实现分布式微服务：从0到1的深度解析 cda2024 docker 分布式微服务
在当今云计算和大数据时代，企业面临的最大挑战之一是如何快速、稳定地部署和管理复杂的软件应用。传统的单体架构已难以满足现代互联网应用的需求，而分布式微服务架构成为了解决这一难题的关键。但问题随之而来：如何高效地构建和管理分布式微服务？Docker容器技术的出现为这个问题带来了新的曙光。它不仅简化了应用程序的打包和部署过程，还为微服务架构提供了强大的支持。本文将深入探讨Docker容器如何实现分布式微
2025年7月-9月广深地区学术会议征稿邀稿 | 2025年7-9月广州学术会议、深圳学术会议参会投稿 | 广深参会 EI 检索会议推荐 | 期待在广东与您相见，共襄学术盛举！
会议名称【点击会议名称查看详情】会议时间会议地点第四届能源与电力系统国际学术会议(ICEEPS2025)2025年7月17-19日广州第七届电子与通信，网络与计算机技术国际学术会议（ECNCT2025）2025年7月18-20日广州2025年人工智能与基础模型国际学术会议（AIFM2025）2025年7月18-20日广州第六届经济管理与大数据应用国际学术会议(ICEMBDA2025)2025年7月
Python爬企查查网站数据的爬虫代码如何写？ cda2024 python 爬虫开发语言
在大数据时代，数据的获取与分析变得尤为重要。企业信息查询平台“企查查”作为国内领先的企业信用信息查询工具，提供了丰富的企业数据资源。对于数据科学家和工程师而言，能够从这些平台高效地抓取数据，无疑是一项重要的技能。本文将详细介绍如何使用Python编写爬虫代码，从企查查网站抓取企业数据，并探讨其中的技术难点和解决方案。为什么选择Python？Python是一门广泛应用于数据科学和网络爬虫开发的语言，
如何利用AWS Lambda作为Serverless数据库进行大数据处理 AI天才研究院 AI人工智能与大数据自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术Serverless数据库一直是构建数据分析应用的主要选择之一。它能帮助客户节省运行服务所需的服务器成本、快速弹性扩展和自动伸缩能力，并且能提升整体性能，有效减少运维和开发资源投入。但是，在实际生产环境中，它们也面临着很多技术上的挑战，比如如何让Serverless数据库服务可以像传统数据库一样，做到高并发处理、实时计算等。而AWSLambda为Serverless数据
大数据领域数据产品的零售行业应用创新模式大数据洞察大数据与AI人工智能大数据零售单例模式 ai
大数据领域数据产品的零售行业应用创新模式关键词：大数据、零售行业、数据产品、应用创新、客户洞察、智能决策、数字化转型摘要：本文深入探讨了大数据技术在零售行业中的应用创新模式。我们将从零售行业数字化转型的背景出发，分析大数据产品如何重塑零售价值链，包括客户洞察、供应链优化、精准营销和智能决策等方面。文章将详细介绍相关技术原理、算法实现和实际应用案例，为零售企业提供可操作的大数据应用框架和创新思路。1
大数据如何助力企业文化“软实力”升级？深挖数据背后的文化密码 Echo_Wish 大数据高阶实战秘籍大数据
大数据如何助力企业文化“软实力”升级？深挖数据背后的文化密码今天我们聊一个听起来很“软”的话题——企业文化，但从一个不太“软”的角度来看：大数据如何参与企业文化的建设与提升。企业文化往往被看作无形资产，是团队凝聚力、创新力的源泉。但传统“喊口号”式的文化建设常常效果有限。大数据技术的兴起，给我们提供了洞察员工心理、量化文化影响的新思路，让文化建设从“感性”走向“理性”，从“盲目”变得“精准”。一、
Docker快速部署Hive服务长路 ㅤ 运维 Docker配置 Hive环境大数据远程调试
文章目录前言Docker快速配置hive环境资料获取前言博主介绍：✌目前全网粉丝4W+，csdn博客专家、Java领域优质创作者，博客之星、阿里云平台优质作者、专注于Java后端技术领域。涵盖技术内容：Java后端、大数据、算法、分布式微服务、中间件、前端、运维等。博主所有博客文件目录索引：博客目录索引(持续更新)CSDN搜索：长路视频平台：b站-Coder长路Docker快速配置hive环境Ap
从UI设计到数字孪生实战：构建智慧教育的个性化学习平台
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：数字孪生重构智慧教育的技术范式在教育数字化转型加速推进的背景下，传统在线教育正面临"个性化不足、学习体验单一、效果评估滞后"的瓶颈。教育部数据显示，采用数字孪生技术的智慧教育平台，学生学习效率平均提升35
每天一道大厂SQL题【Day25】脉脉真题实战(一)每日活跃用户_用户每日登陆脉脉会访问app不同的模块,现有两个表表1记录了每日脉脉活跃用户的ui(1)
文章目录每天一道大厂SQL题【Day25】脉脉真题实战(一)每日活跃用户每日语录第25题：1.需求列表1.初级题:每日活跃用户思路分析(1)创建表(2)思路答案获取加技术群讨论附表文末SQL小技巧后记每天一道大厂SQL题【Day25】脉脉真题实战(一)每日活跃用户大家好，我是Maynor。相信大家和我一样，都有一个大厂梦，作为一名资深大数据选手，深知SQL重要性，接下来我准备用100天时间，基于大
Spring Boot 项目启动时按需初始化加载数据我叫晨曦啊 spring boot spring boot java 后端
1、新建类，类上添加注解@Component，该类用于在项目启动时处理数据加载任务；2、该类实现ApplicationRunner接口，并重写run方法；3、在重写的run方法里处理数据加载任务；注意：有定时加载数据需求的话，添加定时任务即可；一次性加载大数据量时可能内存溢出；同一个项目中，可以定义多个ApplicationRunner的实现类；存在多个ApplicationRunner的实现类时
云原生--微服务、CICD、SaaS、PaaS、IaaS 青秋. 云原生 docker 云原生微服务 kubernetes serverless service_mesh ci/cd
往期推荐浅学React和JSX-CSDN博客一文搞懂大数据流式计算引擎Flink【万字详解，史上最全】-CSDN博客一文入门大数据准流式计算引擎Spark【万字详解，全网最新】_大数据spark-CSDN博客目录1.云原生概念和特点2.常见云模式3.云对外提供服务的架构模式3.1IaaS（Infrastructure-as-a-Service）3.2PaaS（Platform-as-a-Servi
Apache SeaTunnel × Hive 深度集成指南：原理、配置与实践数据库
在大数据处理的复杂生态中，数据的高效流转与整合是实现数据价值的关键。ApacheSeaTunnel作为一款高性能、分布式、易扩展的数据集成框架，能够快速实现海量数据的实时采集、转换和加载；而ApacheHive作为经典的数据仓库工具，为结构化数据的存储、查询和分析提供了坚实的基础。将ApacheSeaTunnel与Hive进行集成，能够充分发挥两者的优势，构建起高效的数据处理链路，满足企业多样化的
大数据平台之ranger与ldap集成，同步用户和组无级程序员大数据大数据 hadoop
ranger可以通过ranger-usersync与linux系统同步用户，但是，还有个问题，就是我们的hiveserver一般是集群，可以是多台服务器，那么我们空间同步哪一台呢，而且如果用户多了，如何管理用户登录密码呢，所以，还是要用ldap比较合理。首先是安装openldap:yum-yinstallopenldapcompat-openldapopenldap-clientsopenldap
vue-scrollto实现页面组件锚点定位长路 ㅤ 前端 vue.js 前端 javascript
文章目录前言背景操作指南安装及配置步骤vue组件中使用参考文章前言博主介绍：✌目前全网粉丝3W+，csdn博客专家、Java领域优质创作者，博客之星、阿里云平台优质作者、专注于Java后端技术领域。涵盖技术内容：Java后端、大数据、算法、分布式微服务、中间件、前端、运维等。博主所有博客文件目录索引：博客目录索引(持续更新)视频平台：b站-Coder长路背景vue中在hash模式下，页面的动态渲染
SQL Server 临时表、表变量与WITH语句的用法与区别 Favor_Yang SQL调优及高级SQL语法编写数据库 sql sqlserver
引言在SQLServer数据处理中，临时表、表变量和WITH语句（CTE）是关键的中间结果集管理工具。临时表适合大数据量操作，表变量优化小数据量场景，而CTE则简化复杂查询逻辑。三者选择需综合考量数据量级、事务需求及代码可读性。本文将深入解析其工作机制，通过实测对比指导场景化选型。1.临时表（TemporaryTables）定义与创建通过#（本地）或##（全局）前缀创建物理表：--本地临时表CRE
从0到1：Vue.js与D3.js搭建AI大数据动态看板
一、引言在当今AI和大数据盛行的时代，数据如同企业的“石油”，蕴含着巨大的价值。随着数据量呈指数级增长，如何从海量数据中快速提取有价值的信息，并以直观、易懂的方式呈现出来，成为了数据分析领域的关键挑战。数据看板作为一种强大的数据可视化工具，能够将复杂的数据转化为直观的图表、图形和指标，帮助用户快速理解数据背后的含义，做出更明智的决策。无论是企业的管理层、业务分析师还是数据科学家，都可以通过数据看板
Flink ClickHouse 连接器：实现 Flink 与 ClickHouse 无缝对接 Edingbrugh.南空大数据 flink flink clickhouse 大数据
引言在大数据处理领域，ApacheFlink是一款强大的流处理和批处理框架，而ClickHouse则是一个高性能的列式数据库，专为在线分析处理（OLAP）场景设计。FlinkClickHouse连接器为这两者之间搭建了一座桥梁，使得用户能够在Flink中方便地与ClickHouse数据库进行交互，实现数据的读写操作。本文将详细介绍FlinkClickHouse连接器的相关内容，包括其特点、使用方法
【前端开发】Uniapp分页器：新增输入框跳转功能
基于UniApp官方扩展组件库uni-ui中的uni-pagination分页器组件，针对大数据量场景进行优化主要优化以下内容：新增输入框跳转功能：在原有分页器基础上，新增了一个输入框区域，允许用户直接输入目标页码进行跳转双向页码绑定优化：实现了输入框与当前页码的双向绑定机制。当用户通过其他方式（如点击上一页、下一页、页码按钮）切换页面时，输入框会自动更新显示当前页码。同时，当用户在输入框中输入页
大数据技术之Flink
第1章Flink概述1.1Flink是什么1.2Flink特点1.3FlinkvsSparkStreaming表Flink和Streaming对比FlinkStreaming计算模型流计算微批处理时间语义事件时间、处理时间处理时间窗口多、灵活少、不灵活（窗口必须是批次的整数倍）状态有没有流式SQL有没有1.4Flink的应用场景1.5Flink分层API第2章Flink快速上手2.1创建项目在准备
如何在YashanDB中实现多级缓存策略数据库
随着大数据时代的到来，数据存储和访问的效率要求越来越高。数据库技术在面对海量数据、高并发访问时，性能瓶颈逐渐凸显，尤其是响应时间和系统吞吐量成为开发者和DBA关注的重点。为了解决这些问题，缓存策略被引入作为一种有效的解决方案。然而，不同类型的缓存（如内存缓存、磁盘缓存等）之间需要协调工作，以达到最佳性能。在此背景下，YashanDB作为一个云原生数据库，支持多级缓存策略，为数据访问提供了灵活的加速
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &

《大数据面试题》面试大数据这一篇就够了

文章目录

Hadoop 常见面试题

1. mr 工作原理 ☆☆☆☆

2. split 机制 ☆☆☆☆☆

3. namenode,datanode,secondaryNameNode分别是干什么的？☆☆☆☆☆

4. mr on yarn 工作原理 ☆☆☆☆☆

5. fsimage 和 edits 是干什么的？为什么要使用？☆☆☆☆

6. hdfs 工作原理 ☆☆☆☆

7. block 副本放置策略 ☆☆☆

Hive 常见面试题

1. 简述Hive工作原理 ☆☆☆☆☆

2. hive 内部表和外部表区别 ☆☆☆☆☆

3. 分区和分桶的区别 ☆☆☆☆

3.1 分区

3.2 分桶

4. 将数据直接上传到分区目录（hdfs）上，让分区表和数据产生关联有哪些方式？☆☆

5. 桶表是否可以通过直接load将数据导入？☆☆

6. order by,sort by,distribute by,cluster by的区别？☆☆☆☆

7. 聚合函数是否可以写在order by后面，为什么？☆☆☆☆

8. 导致数据倾斜的原因有哪些，有什么解决的方案？☆☆☆☆☆

什么是数据倾斜？

造成数据倾斜的原因

你是如何发现Hive数据倾斜？

解决办法

1 合理设置Map数

2 小文件合并

3 复杂文件增加Map数

4 合理设置Reduce数

9. Hive的四种排序 ☆☆☆

10. Hive的分区分桶 ☆☆☆☆☆

11. hive中分区可以提高查询效率，分区是否越多越好，为什么？☆☆☆

12. hive 调优 ☆☆☆☆☆

12.1 hive-site.xml 与 hive cli 调参 ☆☆☆☆☆

12.2 数据压缩 ☆☆☆☆☆

12.2.1 数据的压缩说明

12.2.2 压缩配置参数

12.3 文件压缩 ☆☆☆☆☆

12.3.1 列式存储和行式存储

12.3.2 TEXTFILE格式

12.3.3 ORC格式

12.3.4 PARQUET格式

Spark 常见面试题

1. 说出几个常见的rdd算子？ ☆☆☆☆

1.1 transformation算子

1.2 action 算子

2. rdd是什么？rdd的创建方式有几种？分别是怎么分区的？☆☆☆

2.1 rdd是什么？

2.2 rdd的创建方式

3. RDD的依赖关系 ☆☆☆☆☆

3.1 宽依赖：多个子RDD的分区依赖同一个父RDD的Partition

3.2 窄依赖：每一个父RDD的Partition最多被子RDD的 一个Partition使用

3.3 为什么要划分依赖关系？

4. task，stage，job分别是什么？ ☆☆☆☆☆

4.1 task

4.2 stage

4.3 job

4.4 为什么要划分 stage？

5. RDD的缓存持久化机制？☆☆☆☆☆

5.1 cache与persist：

5.2 checkpoint：

6. spark常见调优 ☆☆☆☆☆

6.1 修改序列化机制有效压缩数据量，通过使用Kryo优化序列化性能 ☆☆☆☆☆

6.2 在实际的生产环境中，提交spark任务时，使用spark-submit shell脚本，在里面调整对应的参数。☆☆☆☆

6.3 提高并行度 ☆☆☆☆

6.4 RDD 的重用和持久化 ☆☆☆☆☆

6.5 适当将那些多次使用变量广播出去 ☆☆

6.6 尽量避免shuffle ☆☆☆☆☆

6.7 使用map-side预聚合的shuffle操作 ☆☆☆

6.8 使用高性能的算子 ☆☆☆☆

6.8.1 使用reduceByKey/aggregateByKey替代groupByKey

6.8.2 使用mapPartitions替代普通map ☆☆☆☆

6.8.3 使用foreachPartitions替代foreach ☆☆☆☆

6.8.4 使用filter之后进行coalesce操作 ☆☆☆☆

6.8.5 使用repartitionAndSortWithinPartitions替代repartition与sort类操作 ☆☆☆

6.8.6 使用fastutil优化数据格式 ☆☆☆☆☆

Flume 常见面试题

1. Flume 工作机制 ☆☆☆☆

2. Flume 采集数据出现丢失怎么办？ ☆☆☆☆☆

3. Flume 高可用 ☆☆☆☆

3.2 窄依赖：每一个父RDD的Partition最多被子RDD的一个Partition使用

2. Redis 线程是否安全？☆☆☆☆

9. Redis 如何实现高可用？哨兵机制的作用？☆☆☆☆☆