面试系列-各种组件问一下(二)

欢迎大家对答案进行补充、勘误,可以私信或者文章底部评论

1、spark宽窄依赖区分
    宽依赖:是指一个父RDD分区对应多个子RDD的分区,比如map、filter等算子
    窄依赖:是指多个父RDD分区对应一个子RDD分区,比如groupByKey,reduceByKey等算子,会产生shuffler操作
    区分:可以通过stage划分,stage是根据是否产生shuffle(宽依赖)操作,将前后划分成2个stage
2、hbase元数据、数据写入
3、hdfs读写原理
4、hive内部表、外部表区别
    a.建表时外部表会多一个external关键字
    b.删除表时,内部表的原始数据、元数据全删,而外部表只删除外部表
5、hive分区与分桶区别
    a.从表现形式上:分区是目录形式,分桶是文件形式
    b.从建表语句上:分区是使用partitioned by指定,分桶是clustered by指定
    c.从作用上:分区是避免全表扫描,分桶是提高查询效率
6、hive为什么要分桶
    a. 获得更高的查询处理效率
    b. 使取样效率更高
7、kafka数据倾斜怎么处理
    a.在设计数据写入时,需要考虑key是否会重复
    b.如果数据确实发生了不均匀,需要重新增加随机前缀将数据重新分区
8、kafka如何保证数据一致性
    a.从生产者角度看:可以设置acks=-1,保证不丢数据
    b.kafka是有事务的,可以开启幂等性,保证了发送重复数据时,broker都指挥持久化一条,保证了数据不重复
    c.从消费者角度看:可以手动提交offset,保证数据不重复消费
9、flink水位介绍一下
    a.watermark是衡量event time的机制,可以理解为逻辑始终
    b.watermark是和窗口一起使用,触发窗口计算,用于处理迟到数据
10、hbase的rowkey设计原则有哪些
    a.rowkey长度原则
    b.rowkey散列原则
    c.rowkey唯一原则
11、clickhouse用过哪些组件
    a.replacingMergeTree引擎会根据主键去重
12、hbase中hmaster作用
    a.管理元数据
    b.接受用户的命令请求
    c.负责监控集群中所有的regionserver,进行负载均衡、故障转移和region的拆分
13、hbase中region server的作用   
    a.负责数据cell的处理,比如数据写入和查询
    b.拆分和合并region的执行
14、介绍下region
    a.region是Hbase数据管理的基本单位
    
15、hdfs数据块损坏怎么处理?
    a.检查数据块丢失情况
    b.修复指定路径的hdfs文件
    
    
    

你可能感兴趣的:(面试,大数据,面试)