黑泽君

大数据技术之_32_大数据面试题_01_Hive 基本面试 + Hive 数据分析面试 + Flume + Kafka 面试

大数据技术之_32_大数据面试题_01

一、Hive 基本面试

1、什么是 metastore
2、metastore 安装方式有什么区别
3、什么是 Managed Table 跟 External Table？
4、什么时候使用 Managed Table 跟 External Table？
5、hive 有哪些复合数据类型？
6、hive 分区有什么好处？
7、hive 分区跟分桶的区别
8、hive 如何动态分区
9、map join 优化手段
10、如何创建 bucket 表？
11、hive 有哪些 file formats
12、hive 最优的 file formats 是什么？
13、hive 传参
14、order by 和 sort by 的区别
15、hive 跟 hbase 的区别

二、Hive 数据分析面试

1、分组 TopN，选出今年每个学校、每个年级、分数前三的科目
2、今年，北航，每个班级，每科的分数，及分数上下浮动 2 分的总和
3、where 与 having：今年，清华 1 年级，总成绩大于 200 分的学生以及学生数

三、Flume + Kafka 面试

1、flume 如何保证数据的可靠性？
2、kafka 数据丢失问题，及如何保证？
3、kafka 工作流程原理
4、kafka 保证消息顺序
5、zero copy 原理及如何使用？
6、spark Join 常见分类以及基本实现机制

一、Hive 基本面试

1、什么是 metastore

metadata 即元数据。包含 database、tabel、column names、partitions 信息、bucketing 信息等的元数据信息。
元数据默认是存储在 Derby 中，建议存储在关系型数据库中。

2、metastore 安装方式有什么区别

内嵌模式
内嵌模式使用的是内嵌的 Derby 数据库来存储元数据，也不需要额外起 Metastore 服务。这个是默认的，配置简单，但是一次只能一个客户端连接，适用于用来实验，不适用于生产环境。

本地元存储
本地安装 mysql 替代 derby 存储元数据，这种安装方式和嵌入式的区别在于，不再使用内嵌的 Derby 作为元数据的存储介质，而是使用其他数据库比如 MySQL 来存储元数据。hive 服务和 metastore 服务运行在同一个进程中，mysql 是单独的进程，可以同一台机器，也可以在远程机器上。

远程元存储（HiveServer2）
Hive 服务和 metastore 在不同的进程内，可能是不同的机器，该模式需要将 hive.metastore.uris 设置为 metastore 服务器 URL，如果有多个 metastore 服务器，将 URL 之间用逗号分隔，metastore 服务器 URL 的格式为 thrift://127.0.0.1:9083。

3、什么是 Managed Table 跟 External Table？

1、Hive 有两种类型的表 Managed Table(内部表) 跟 External Table(外部表)。
2、Managed Table：也被称作 Internal table，这种表是 hive 的默认类型。如果你在创建表的时候没有指明 Managed 或者 External，那么默认就会给你创建 Managed Table。
a、Managed Table 的数据，会存放在 HDFS 中的特定的位置中，通常是 /user/username/hive/warehouse。
b、我们可以使用 describe formatted table_name; 命令来查看表的信息。
c、当你删除 drop table table_name; 删除表时，数据文件也会一并删除。
3、External Table：特别适用于想要在 Hive 之外使用表的数据的情况．当你删除 External Table 时，只是删除了表的元数据，它的数据并没有被删除。

4、什么时候使用 Managed Table 跟 External Table？

Managed Table
- 适用于临时创建的中间表
External Table
- 适用于数据多部门共享

5、hive 有哪些复合数据类型？

1、MAP

    a.Map 复合数据类型提供了 key-value 对存储，你可以通过 key 获取 value。
    b.zhangsan Math:90,Chinese:92,English:78
        i.create table score_map(name string, score map<string, int>) map keys terminated by ':';
        ii.select name, score['English'], size(score) from score_map;

2、STRUCT

    a.Struct 是不同数据类型元素的集合。
    b.zhangsan Math,90
        i.create table course_struct(name string, course struct<course: string, score: int>) collection items terminated by ',';
        ii.select name, course.score, course.course from course_struct;

3、ARRAY

    a.Array 是同类型元素的集合.
    b.zhangsan beijing,shanghai,hangzhou
        i.create table person_array(name string, work_locations array<string>) collection items terminated by ',';
        ii.select name, work_locations[0], size(work_locations) from person_array;

4、UNIONTYPE

    a.它代表一个可以具有属于你所选择的任何数据类型的值的列。
    b.官方支持不完整，在 join 查询中，group by 或者 where 字句会失败，目前可以不用这个集合。

6、hive 分区有什么好处？

最大的好处就是可以更快的执行查询。
在分区的帮助下，将使用分区列的名称创建一个子目录，并且当使用 WHERE 子句执行查询时，将只扫描特定的子目录，而不是扫描整个表。这时可以更快地执行查询。

7、hive 分区跟分桶的区别

分区: 是以字段的形式在表结构中存在，通过 describe table 命令可以查看到字段存在，但是该字段不存放实际的数据内容，仅仅是分区的表示（伪列）。
分桶:对于表（table）或者分区，Hive 可以进一步组织成桶，也就是说桶是更为细粒度的数据范围划分。Hive 也是针对某一列进行桶的组织。Hive 采用对列值哈希，然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。实际使用比较少。

8、hive 如何动态分区

与分区有关的有两种类型的分区：静态和动态。在静态分区中，您将在加载数据时（显式）指定分区列。
而在动态分区中，您将数据推送到 Hive，然后 Hive 决定哪个值应进入哪个分区。要启用动态分区，请设置下面的属性：hive.exec.dynamic.parition.mode=nonstrict;

insert overwrite table emp_details_partitioned partition(location)
select * from emp_details;

9、map join 优化手段

Hive 可以进行多表 Join。Join 操作尤其是 Join 大表的时候代价是非常大的。

表 Join 的顺序（大表放在后面）
    当 Hive 执行 Join 时，需要选择哪个表被流式传输（stream），哪个表被缓存（cache）。 Hive 将 JOIN 语句中的最后一个表用于流式传输，因此我们需要确保这个流表在两者之间是最大的。
    如果要在不同的 key 上 join 更多的表，那么对于每个 join 集，只需在 ON 条件右侧指定较大的表。 

Sort-Merge-Bucket(SMB) Map Join
    它是另一种 Hive join 优化技术，使用这个技术的前提是所有的表都必须是桶分区（bucket）和排序了的（sort）。
    set hive.enforce.sortmergebucketmapjoin=false;  -- 当用户执行 bucket map join 的时候，发现不能执行时，禁止查询。
    set hive.auto.convert.sortmerge.join=true;  -- 如果 join 的表通过 sort merge join 的条件，join 是否会自动转换为 sort merge join。
    set hive.optimize.bucketmapjoin=true;  -- bucket map join 优化
    set hive.optimize.bucketmapjoin.sortedmerge=true;  -- bucket map join 优化
    set hive.auto.convert.join=false;  -- 禁止自动 map side join 发生

10、如何创建 bucket 表？

默认情况下，在 Hive 中禁用分桶功能，可以通过设置下面的属性强制启用分桶功能：hive.enforce.bucketing=true;

11、hive 有哪些 file formats

Text File format : 默认格式，数据不做压缩，磁盘开销大，数据解析开销大。

Sequence File format :
    SequenceFile 是 Hadoop API 提供的一种二进制文件支持，其具有使用方便、可分割、可压缩的特点。
    SequenceFile 支持三种压缩选择：NONE, RECORD, BLOCK。 Record 压缩率低，一般建议使用 BLOCK 压缩。

RC file format : RCFILE 是一种行列存储相结合的存储方式。首先，其将数据按行分块，保证同一个 record 在一个块上，避免读一个记录需要读取多个 block。其次，块数据列式存储，有利于数据压缩和快速的列存取。RCFile 目前没有性能优势，只有存储上能省 10% 的空间。

Parquet : 列式数据存储。
AVRO : avro Schema 数据序列化。
ORC : 对RCFile做了一些优化，支持各种复杂的数据类型。

12、hive 最优的 file formats 是什么？

ORC file formats: 
    1、ORC 将行的集合存储在一个文件中，并且集合内的行数据将以列式存储。采用列式格式，压缩非常容易，从而降低了大量的存储成本。
    2、当查询时，会查询特定列而不是查询整行，因为记录是以列式存储的。
    3、ORC 会基于列创建索引，当查询的时候会很快。

13、hive 传参

使用 env 获取当前 shell 环境的环境变量
eg: export datatime=’2017-11-10’
select * from tabliname where datatime = ${env:datatime};

使用 --hivevar 方式传入
hive --hivevar datatime ='datatime' --hivevar limit=10 -f filename.sql
select * from tablename where datatime = ${hivevar:datatime} limit ${hivevar:limit}

14、order by 和 sort by 的区别

使用 order by 会引发全局排序，有可能会导致任务失败。
使用 distribute by + sort by 替代方案，进行优化。

15、hive 跟 hbase 的区别

hive 支持 sql 查询，hbase 不支持。
hive 不支持 record 级(一行记录)的更新，删除操作。
hive 定义为数据仓库，hbase 定义为 nosql 数据库。

二、Hive 数据分析面试

场景举例：北京市学生成绩分析
成绩的数据格式：时间,学校,年纪,姓名,科目,成绩
样例数据如下:

2013,北大,1,裘容絮,语文,97
2013,北大,1,庆眠拔,语文,52
2013,北大,1,乌洒筹,语文,85
2012,清华,0,钦尧,英语,61
2015,北理工,3,冼殿,物理,81
2016,北科,4,况飘索,化学,92
2014,北航,2,孔须,数学,70
2012,清华,0,王脊,英语,59
2014,北航,2,方部盾,数学,49
2014,北航,2,东门雹,数学,77

问题:

1、分组 TopN，选出今年每个学校、每个年级、分数前三的科目

hive -e "
set mapreduce.job.queuename=low;
select t.*
from
(
select
       school,
       class,
       subjects,
       score,
       row_number() over (partition by school, class, subjects order by score desc) rank_code
from spark_test_wx
where partition_id = "2017"
) t
where t.rank_code <= 3;
"

结果截图如下：
[外链图片转存失败(img-m4Vrl8PP-1569159476540)(https://s2.ax1x.com/2019/06/18/VLckJe.png)]
详解如下：
row_number函数：row_number() 按指定的列进行分组生成行序列，从 1 开始，如果两行记录的分组列相同，则行序列 +1。
over 函数：是一个窗口函数。
over (order by score) 按照 score 排序进行累计，order by 是个默认的开窗函数。
over (partition by class) 按照班级分区。
over (partition by class order by score) 按照班级分区，并按着分数排序。
over (order by score range between 2 preceding and 2 following) 窗口范围为当前行的数据幅度减2加2后的范围内的数据求和。

2、今年，北航，每个班级，每科的分数，及分数上下浮动 2 分的总和

select school, class, subjects, score,
sum(score) over (order by score range between 2 preceding and 2 following) sscore
from spark_test_wx
where partition_id = "2017" and school="北航";

结果截图如下：
[外链图片转存失败(img-bAl3MWSX-1569159476541)(https://s2.ax1x.com/2019/06/18/VLcARH.png)]

over (order by score rows between 2 preceding and 2 following)：窗口范围为当前行前后各移动2行。
[外链图片转存失败(img-MfPSI0Tw-1569159476541)(https://s2.ax1x.com/2019/06/18/VLcFiD.png)]

提问，上述 sql 有没有可优化的点？

row_number() over (distribute by school, class, subjects sort by score desc) rank_code

3、where 与 having：今年，清华 1 年级，总成绩大于 200 分的学生以及学生数

hive -e "
set mapreduce.job.queuename=low;
select school,class,name,sum(score) as total_score,
count(1) over (partition by school, class) nct
from spark_test_wx
where partition_id = "2017" and school="清华" and class = 1
group by school, class, name
having total_score > 200;
"

结果截图如下：
[外链图片转存失败(img-H6WLUFWL-1569159476541)(https://s2.ax1x.com/2019/06/18/VLcPIO.png)]

having 是分组（group by）后的筛选条件，分组后的数据组内再筛选，也就是说 HAVING 子句可以让我们筛选成组后的各组数据。
where 则是在分组，聚合前先筛选记录。也就是说作用在 GROUP BY 子句和 HAVING 子句前。

4、情景分析题
今年加入进来了 10 个学校，学校数据差异很大计算每个学校的平均分。
该题主要是考察数据倾斜的处理方式。
group by 方式很容易产生数据倾斜，需要注意一下几点：

Map 端部分聚合
hive.map.aggr=true（用于设定是否在 map 端进行聚合，默认值为真，相当于 combine） 
hive.groupby.mapaggr.checkinterval=100000（用于设定 map 端进行聚合操作的条数）

有数据倾斜时进行负载均衡
设定 hive.groupby.skewindata，当选项设定为 true 是，生成的查询计划有两个 MapReduce 任务。

（先打散数据）
第一个 MapReduce 中，map 的输出结果集合会随机分布到 reduce 中， 每个 reduce 做部分聚合操作，并输出结果。这样处理的结果是，相同的 group by key 有可能分发到不同的 reduce 中，从而达到负载均衡的目的；

第二个 MapReduce 任务再根据预处理的数据结果按照 group by key 分布到 reduce 中（这个过程可以保证相同的 group by key 分布到同一个 reduce 中），最后完成最终的聚合操作。

5、情景分析题
假设我创建了一张表，其中包含了 2016 年客户完成的所有交易的详细信息：

CREATE TABLE transaction_details (cust_id INT, amount FLOAT, month STRING, country STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘,’ ;

现在我插入了 100 万条数据，我想知道每个月的总收入。

问：如何高效的统计出结果，写出步骤即可。

1.首先分析这个需求,其实并不难,但是由于题目说了,要高效.而且数据量也不小,直接写sql查询估计肯定会挂.
2.分析:
    a.我们可以通过根据每个月对表进行分区来解决查询慢的问题。 因此，对于每个月我们将只扫描分区的数据，而不是整个数据集。
    b.但是我们不能直接对现有的非分区表进行分区。所以我们会采取以下步骤来解决这个问题：
    c.创建一个分区表，partitioned_transaction：
        i.create table partitioned_transaction (cust_id int, amount float, country string) partitioned by (month string) row format delimited fields terminated by ‘,’ ;
    d.在 Hive 中启用动态分区：
        i.SET hive.exec.dynamic.partition=true;
        ii.SET hive.exec.dynamic.partition.mode=nonstrict;
    e.将数据从非分区表导入到新创建的分区表中：
        i.insert overwrite table partitioned_transaction partition (month) select cust_id, amount, country, month from transaction_details;
    f.使用新建的分区表实现需求。

三、Flume + Kafka 面试

1、flume 如何保证数据的可靠性？

Flume 提供三种可靠性：JDBC、FILE、MEMORY
Flume 使用事务的办法来保证 event 的可靠传递。Source 和 Sink 分别被封装在事务中，这些事务由保存 event 的存储提供或者由 Channel 提供。这就保证了 event 在数据流的点对点传输中是可靠的。

2、kafka 数据丢失问题，及如何保证？

1、kafka 数据丢失问题

a、acks=1    的时候(只保证写入 leader 成功)，如果刚好 leader 挂了，则数据会丢失。
b、acks=0    的时候，使用异步模式的时候，该模式下 kafka 无法保证消息，有可能会丢。

2、brocker 如何保证不丢失

a、acks=all      所有副本都写入成功并确认。
b、retries=一个合理值        kafka 发送数据失败后的重试值。（如果总是失败，则可能是网络原因）
c、min.insync.replicas=2     消息至少要被写入到这么多副本才算成功。
d、unclean.leader.election.enable=false      关闭 unclean leader 选举，即不允许非 ISR 中的副本被选举为 leader，以避免数据丢失。

3、consumer 如何保证不丢失？

a、如果在消息处理完成前就提交了 offset，那么就有可能造成数据的丢失。
b、enable.auto.commit=false     关闭自动提交 offset。
c、处理完数据之后手动提交。

3、kafka 工作流程原理

大致原理即可。有几个点稍微详细即可。

4、kafka 保证消息顺序

1、全局顺序
a、全局使用一个生产者，一个分区，一个消费者。
2、局部顺序
a、每个分区是有序的，根据业务场景制定不同的 key 进入不同的分区。

5、zero copy 原理及如何使用？

1、zero copy 在内核层直接将文件内容传送给网络 socket，避免应用层数据拷贝，减小 IO 开销。
2、java.nio.channel.FileChannel 的 transferTo() 方法实现 zero copy。

6、spark Join 常见分类以及基本实现机制

1、shuffle hash join、broadcast hash join 以及 sort merge join。

2、shuffle hash join

小表 join 大表，依次读取小表的数据，对于每一行数据根据 join key 进行 hash，hash 到对应的 Bucket(桶)，生成 hash table 中的一条记录。
数据缓存在内存中，如果内存放不下需要 dump 到外存。
再依次扫描大表的数据，使用相同的 hash 函数映射 Hash Table 中的记录，映射成功之后再检查 join 条件，如果匹配成功就可以将两者 join 在一起。

3、broadcast hash join

如果小表数据量增大，内存不能放下的时候，分别将两个表按照 join key 进行分区，将相同 join key 的记录重分布到同一节点，两张表的数据会被重分布到集群中所有节点。这个过程称为 shuffle(网络混启)。
每个分区节点上的数据单独执行单机 hash join 算法。

4、sort merge join

两张大表 join 采用了 sort merge join 算法：
    shuffle 阶段：将两张大表根据 join key 进行重新分区，两张表数据会分布到整个集群，以便分布式并行处理。
    sort 阶段：对单个分区节点的两表数据，分别进行排序。
    merge 阶段：对排好序的两张分区表数据执行 join 操作。join 操作很简单，分别遍历两个有序序列，碰到相同 join key 就 merge 输出，否则取更小一边。

128G 内存、多磁盘、万兆网卡、吞吐（几千到一万）

360大数据面试题及参考答案大模型大数据攻城狮大数据数据治理 jvm内存 CAS 数据开发指标开发数据分析
数据清理有哪些方法？数据清理是指发现并纠正数据文件中可识别的错误，包括检查数据一致性，处理无效值和缺失值等。常见的数据清理方法有以下几种：去重处理：数据中可能存在重复的记录，这不仅会占用存储空间，还可能影响分析结果。通过对比每条记录的关键属性，若所有关键属性值都相同，则判定为重复记录，可保留其中一条，删除其余重复项。例如在客户信息表中，若有两条记录客户姓名、联系方式、地址等关键信息都一样，就可进行
大数据面试题：说下为什么要使用Hive？Hive的优缺点？Hive的作用是什么？蓦然_ 大数据面试题 hive 大数据开发面试题大数据面试
1、为什么要使用Hive？Hive是Hadoop生态系统中比不可少的一个工具，它提供了一种SQL(结构化查询语言)方言，可以查询存储在Hadoop分布式文件系统（HDFS）中的数据或其他和Hadoop集成的文件系统，如MapR-FS、Amazon的S3和像HBase（Hadoop数据仓库）和Cassandra这样的数据库中的数据。大多数数据仓库应用程序都是使用关系数据库进行实现的，并使用SQL作为
【大数据面试题】014 Flink CDC 用过吗，请简要描述 Jiweilai1 一天一道面试题 flink 大数据面试 flink cdc
一步一个脚印，一天一道面试题。FlinkCDC的诞生背景FlinkCDC的全称是ChangeDataCapture（变更数据捕获）每一项技术的诞生都是为了解决某个问题，某个痛点。而FlinkCDC的诞生就是为了解决在读取，监控MySQL这样的数据库时，不会因为读取数据库，对数据库本身造成压力，影响性能。同时，保证了数据源的准确，正确。FlinkCDC原理方式一：通过查询来获取更新的数据。如查询数据
【大数据面试题】009 Flink 有哪些机制实现故障恢复 Jiweilai1 大数据 flink
一步一个脚印，一天一道面试题（重点）容错检查点（Checkpoint）：Flink使用容错检查点来定期记录应用程序的状态。检查点包含了所有正在进行中的任务的状态信息。当发生故障时，Flink可以使用最近的检查点来恢复应用程序的状态。#从检查点恢复$bin/flinkrun-s:savepointPath容错恢复策略：Flink提供了多种容错恢复策略，可以根据具体的需求进行配置。例如，可以设置重启策
【大数据面试题】007 谈一谈 Flink 背压 Jiweilai1 一天一道面试题大数据 flink kafka hdfs hadoop
一步一个脚印，一天一道面试题（有些难点的面试题不一定每天都能发，但每天都会写）什么是背压Backpressure在流式处理框架中，如果下游的处理速度，比上游的输入数据小，就会导致程序处理慢，不稳定，甚至出现崩溃等问题。出现背压的原因上游数据突然增大比如数据源突然数据量增大多倍，下游处理速度跟不上。就像平时的小饭店能处理的很轻松，突然到了过年人多了很多，就会需要客人排队。网络，机器异常等这个也好理解
【大数据面试题】006介绍一下Parquet存储格式的优势 Jiweilai1 一天一道面试题大数据 spark hadoop
一步一个脚印，一天一道面试题列式存储同一列的数据是同一种数据类型，所以压缩比例可以更高。同时一般查询使用时不会使用所有列，而是只用到几列，所以查询速度会更快压缩比例高因为是列式存储，所以可以对同一类型的一段做压缩，压缩比例高支持的平台和框架多在Hadoop,Spark,Presto,Python等都支持，所以Parquet文件可以在不同系统和语言通用。这是我觉得比较实在的优势
【大数据面试题】008 谈一谈 Flink Slot 与并行度 Jiweilai1 一天一道面试题大数据 flink
【大数据面试题】008谈一谈FlinkSlot与并行度配置并行度Parallelism概念作用Slot概念作用如何设置TaskManager任务管理器Flinksubmit脚本一步一个脚印，一天一道面试题该文章有较多引用文章https://zhuanlan.zhihu.com/p/572170629?utm_id=0并行度Parallelism概念作用并行度是作用于算子的单位。Flink的每个算子
【大数据面试题】Flink第一弹60连发王知无(import_bigdata)
感谢胖子大佬提供的企业面试题。本文因为时间关系只有部分答案，后续的答案小编会持续补全，请持续关注本系列。年后升职加薪就靠它了。胖子大佬就在交流群里，需要加群的公众号回复【加群】。更多面试题可以参考：《Flink面试通关手册》1、Flink如何保证精确一次性消费Flink保证精确一次性消费主要依赖于两种Flink机制1、Checkpoint机制2、二阶段提交机制Checkpoint机制主要是当Fli
大数据面试题之 Flink 尚硅谷铁粉大数据 flink
Flink基础架构组成？Flink程序在运行时主要有TaskManager，JobManager，Client三种角色。JobManager是集群的老大，负责接收FlinkJob，协调检查点，Failover故障恢复等，同时管理TaskManager。包含：Dispatcher、ResourceManager、JobMaster。TaskManager是执行计算的节点，每个TaskManager负
【大数据面试题】004 Flink状态后端是什么 Jiweilai1 一天一道面试题大数据 flink
一步一个脚印，一天一道大数据面试题。在实时处理中，状态管理是十分常用的。比如监控某些数据是否一直快速增长。那就需要记录到之前的状态，数值。那作为最热门的实时处理框架，Flink对状态管理是有一套的。那就是状态后端，拿来管理，储存Flink里状态的东西，默认是用MemoryBackend。Flink默认有3个Backend-MemoryStateBackend将状态存储在内存中。不设置的话，默认用的
【大数据面试题】005 谈一谈 Flink Watermark 水印 Jiweilai1 一天一道面试题大数据 flink
一步一个脚印，一天一道面试题。感觉我现在很难把水印描述的很好，但，完成比完美更重要。后续我再补充。各位如果有什么建议或补充也欢迎留言。在实时处理任务时，由于网络延迟，人工异常，各种问题，数据往往会出现乱序，不按照我们的预期到达处理框架。WaterMark水印，就是为了一定程度的解决数据，延迟乱序问题的。使用WaterMark一般有以下几个步骤：定义时间特性（Flink1.12已废弃，默认使用事件时
【大数据面试题】002 Flink 如何实现 Exactly-Once 语义 Jiweilai1 一天一道面试题大数据 flink
一步一个脚印，一天一道大数据面试题。在流式大数据处理框架中，Exactly-Once语义对于确保每条数据精确地只被消费一次（避免重复读取和丢失读取）非常重要。下面将介绍Flink是如何实现Exactly-Once语义的。尽管在程序正常运行、资源充足的情况下实现Exactly-Once语义并不难，但实际生产环境中存在各种复杂情况和突发状况，因此为了可靠地实现Exactly-Once，需要以下容错机制
【大数据面试题】001 Flink 的 Checkpoint 原理 Jiweilai1 一天一道面试题大数据 flink
一步一个脚印，一天一道大数据面试题。Flink是大数据实时处理计算框架。实时框架对检查点，错误恢复的功能要比离线的更复杂，所以一起来了解Flink的Checkpoint机制吧。Checkpoint机制触发Checkpoint通过设置时间或数据量阈值来触发Checkpoint生成Barrier屏障，写入快照Flink触发Checkpoint后，会从数据源Source算子开始分发Barrier，算子收
大数据面试题 ---阿善有用 okbin1991 大数据 hadoop hdfs java 分布式
大数据工程师面试题1.选择题1.1.下面哪个程序负责HDFS数据存储。a)NameNodeb)Jobtrackerc)Datanoded)secondaryNameNodee)tasktracker答案Cdatanode1.2.HDfS中的block默认保存几份？答案A默认3份1.3.下列哪个程序通常与NameNode在一个节点启动?a)SecondaryNameNodeb)DataNodec)T
【大数据面试题】HBase面试题附答案话数Science 面试大数据大数据 hbase 数据库
目录1.介绍下HBase2.HBase优缺点3.介绍下的HBase的架构4.HBase的读写缓存5.在删除HBase中的一个数据的时候，它是立马就把数据删除掉了吗?6.HBase中的二级索引7.HBase的RegionServer宕机以后怎么恢复的?8.HBase的一个region由哪些东西组成?9.HBase高可用怎么实现的?10.为什么HBase适合写多读少业务?11.列式数据库的适用场景和优
大厂大数据面试题收录（1）后季暖 java 开发语言
目录1.java中object类有哪些方法?2.说一下==和equals的区别？3.为什么要重写equals和hashcode()方法？4.机器学习中，监督学习和无监督学习的区别是啥？？5.kafka组件熟悉吗,kafka如何实现消息的有序的？6.在大数据组件中，你们一般用的资源管理框架是哪个？7.那你能谈一下yarn的基础架构及调度流程吗？8.Hivesql到MapReduce转化的流程清楚吗？
大数据面试题-1 edwin1993
一、map-reduce原理map过程：1.1读取HDFS中的文件。每一行解析成一个。每一个键值对调用一次map函数。1.2覆盖map()，接收1.1产生的，进行处理，转换为新的输出。1.3对1.2输出的进行分区。默认分为一个区。1.4对不同分区中的数据进行排序（按照k）、分组。分组指的是相同key的value放到一个集合中。排序后：分组后：1.5（可选）对分组后的数据进行归约。Reduce任务处
【美团大数据面试】大数据面试题附答案话数Science 大数据面试大数据面试
目录1.hdfs读写流程解析2.hdfs副本机制，三副本原因，副本存放策略3.hdfs容错机制原理4.MapReduce执行流程详解5.spark和mr的区别6.TopN求法，大数据量无法完全写入内存解决方案，MapReduce实现方法7.spark部署、调度原理8.spark的stage划分方法9.reducejoin执行过程10.大数据量join优化方法11.hive优化手段12.hiveSQ
大数据面试题_实时计算部分执于代码
1.zookeeper在kafka中起到什么作用Controller选举Controller是一个特殊的Broker,其负责维护所有Partition的leader/follower关系。当有partition的leader挂掉之后，controller会重新从同步队列中选出一个leader。==Zookeeper负责从Broker中选举出一个作为Controller,并确保其唯一性。同时,当Co
大数据面试题2 添柴少年yyds 大数据 java 开发语言
1自我介绍2项目介绍3数据量+集群配置4遇到过哪些问题，反正数据倾斜5chlikhouse的计算引擎6接触过运维吗7flink版本8flink内存，托管内存干什么用的？9spark处理了哪些业务10flink类加载，两个类型了解吗11java垃圾回收机制12你感觉你的优势是什么13你工作的三年最有成就感的事应聘者二2022-11-26（1）介绍下你们项目的人员组成（2）你们集群规模（3）你们集群做
大数据面试题汇总 kuntoria
结合自身面试经历，包括BAT、SF、中信等等公司所做的面试题汇总。主要包括以下几大类：一、spark相关1.Spark的Shuffle原理及调优？2.hadoop和spark使用场景？3.spark如何保证宕机迅速恢复?4.hadoop和spark的相同点和不同点？5.RDD持久化原理？6.checkpoint检查点机制？7.checkpoint和持久化机制的区别？8.SparkStreaming
Flink去重第二弹：SQL方式王知无(import_bigdata) Flink系统性学习专栏 flink sql 爬虫
声明：本系列博客部分是根据SGG的视频整理而成，非常适合大家入门学习。部分文章是通过爬虫等技术手段采集的，目的是学习分享，如果有版权问题请留言，随时删除。《2021年最新版大数据面试题全面开启更新》本篇介绍如何使用sql方式完成去重。为了与离线分析保持一致的分析语义，FlinkSQL中提供了distinct去重方式，使用方式：SELECTDISTINCTdevIdFROMpv表示对设备ID进行去重
大数据面试题Hbase篇后季暖 hbase 大数据分布式
目录1.Hbase是什么？2.HBase的特点是什么？3.HBase和Hive的区别？4.描述HBase的rowKey的设计原则？5.请详细描述HBase中一个cell的结构？6.hbase中分布式存储的最小单元？7.简述HBase中compact用途是什么，什么时候触发，分为哪两种，有什么区别，有哪些相关配置参数？8.Region如何预建分区？9.HRegionServer宕机如何处理？10.H
大数据面试题：Spark和Flink的区别蓦然_ 大数据面试题大数据 spark flink
面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字可回答：1）SparkStreaming和Flink的区别问过的一些公司：杰创智能科技(2022.11)，阿里蚂蚁(2022.11)，阿里云(2022.10)(2019.03)，携程(2022.10)，银联(2022.10)，顺丰(2022.09)(2022.05)，贝壳(2022.09)，美团(2022.09
大数据面试题：Spark和MapReduce之间的区别？各自优缺点？蓦然_ 大数据面试题大数据面试
面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字可回答：1）spark和maprecude的对比；2）mapreduce与spark优劣好处问过的一些公司：阿里云(2022.10)，银联(2022.10)，携程(2022.09)，vivo(2022.09)，滴滴(2022.09)(2020.09)，网易云音乐(2022.09)，快手(2022.08)，字节(
【大数据面试题】Spark-Core&；Spark-SQL 2301_78234743 java
题解|#牛群排队#importjava.util.*;publicclassSolution{/***代码中的类名、方法名、参数名已经指定，请勿修改，题解|#计算一个数的阶乘##includeusingnamespacestd;intmain(){intn;cin&题解|#牛群喂食#importjava.util.*;publicclassSolution{/***代码中的类名、方法名、参数名已经
大数据面试题 _画一方禁地 hadoop hive
第1章核心技术1.1Linux&Shell1.1.1Shell常用工具及写过的脚本1）awk、sed、cut、sort1.2Hadoop1.2.1Hadoop常用端口号hadoop2.xhadoop3.x访问HDFS端口500709870访问MR执行情况端口80888088历史服务器1988819888客户端访问集群端口900080201.2.2Hadoop配置文件配置文件：hadoop2.xco
30个大数据常见面试题让您的薪资提升一个等级 JACKbayue
经历了水深火热的大数据学习，终于拨开云雾见天明了，但你离成功总是还差了一步，那就是拿到大数据工程师的Offer。在电脑旁奋斗了无数个日夜，代码敲了无数遍，项目整改了无数遍，只为了得到一份自己满意的高薪资高待遇的Offer。但这个收获不仅仅需要你学到娴熟的大数据技术，还需要在面试之前精心准备，了解自己要应聘的企业发展状况、自己应聘岗位的技术要求等等，除此之外，多看一些大数据面试题也是很有必要的，给自
2023年大数据面试题--转载李先生真号大数据 hadoop hdfs
@[TOC]2023年大数据面试题–转载(HDFS)和MapReduceHadoop是一个开源的分布式计算框架，由两部分组成：HadoopDistributedFileSystem(HDFS)和MapReduce。HDFS是Hadoop的存储系统，它将大文件分割为多个数据块，并存储在集群中多个节点上，在分布式环境下实现高可靠性和可用性。HDFS采用了主（NameNode）从（DataNode）结构
最全BAT 大数据面试题及答案疯狂的蚂蚁王
1kafka的message包括哪些信息一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic的值为1的时候，会在magic和crc32之间多一个字节的数据：attributes(保存一些相关属性，比如是否压缩、压缩格式等等)；如果magic
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分

大数据技术之_32_大数据面试题_01_Hive 基本面试 + Hive 数据分析面试 + Flume + Kafka 面试