大数据面试题

360大数据面试题及参考答案

数据清理有哪些方法？数据清理是指发现并纠正数据文件中可识别的错误，包括检查数据一致性，处理无效值和缺失值等。常见的数据清理方法有以下几种：去重处理：数据中可能存在重复的记录，这不仅会占用存储空间，还可能影响分析结果。通过对比每条记录的关键属性，若所有关键属性值都相同，则判定为重复记录，可保留其中一条，删除其余重复项。例如在客户信息表中，若有两条记录客户姓名、联系方式、地址等关键信息都一样，就可进行

大模型大数据攻城狮·2025-01-28 12:42

大数据面试题：说下为什么要使用Hive？Hive的优缺点？Hive的作用是什么？

1、为什么要使用Hive？Hive是Hadoop生态系统中比不可少的一个工具，它提供了一种SQL(结构化查询语言)方言，可以查询存储在Hadoop分布式文件系统（HDFS）中的数据或其他和Hadoop集成的文件系统，如MapR-FS、Amazon的S3和像HBase（Hadoop数据仓库）和Cassandra这样的数据库中的数据。大多数数据仓库应用程序都是使用关系数据库进行实现的，并使用SQL作为

蓦然_·2024-09-08 15:50

【大数据面试题】014 Flink CDC 用过吗，请简要描述

一步一个脚印，一天一道面试题。FlinkCDC的诞生背景FlinkCDC的全称是ChangeDataCapture（变更数据捕获）每一项技术的诞生都是为了解决某个问题，某个痛点。而FlinkCDC的诞生就是为了解决在读取，监控MySQL这样的数据库时，不会因为读取数据库，对数据库本身造成压力，影响性能。同时，保证了数据源的准确，正确。FlinkCDC原理方式一：通过查询来获取更新的数据。如查询数据

Jiweilai1·2024-03-20 04:43

【大数据面试题】009 Flink 有哪些机制实现故障恢复

一步一个脚印，一天一道面试题（重点）容错检查点（Checkpoint）：Flink使用容错检查点来定期记录应用程序的状态。检查点包含了所有正在进行中的任务的状态信息。当发生故障时，Flink可以使用最近的检查点来恢复应用程序的状态。#从检查点恢复$bin/flinkrun-s:savepointPath容错恢复策略：Flink提供了多种容错恢复策略，可以根据具体的需求进行配置。例如，可以设置重启策

Jiweilai1·2024-02-19 13:05

【大数据面试题】007 谈一谈 Flink 背压

一步一个脚印，一天一道面试题（有些难点的面试题不一定每天都能发，但每天都会写）什么是背压Backpressure在流式处理框架中，如果下游的处理速度，比上游的输入数据小，就会导致程序处理慢，不稳定，甚至出现崩溃等问题。出现背压的原因上游数据突然增大比如数据源突然数据量增大多倍，下游处理速度跟不上。就像平时的小饭店能处理的很轻松，突然到了过年人多了很多，就会需要客人排队。网络，机器异常等这个也好理解

Jiweilai1·2024-02-19 13:35

【大数据面试题】006介绍一下Parquet存储格式的优势

一步一个脚印，一天一道面试题列式存储同一列的数据是同一种数据类型，所以压缩比例可以更高。同时一般查询使用时不会使用所有列，而是只用到几列，所以查询速度会更快压缩比例高因为是列式存储，所以可以对同一类型的一段做压缩，压缩比例高支持的平台和框架多在Hadoop,Spark,Presto,Python等都支持，所以Parquet文件可以在不同系统和语言通用。这是我觉得比较实在的优势

Jiweilai1·2024-02-19 13:34

【大数据面试题】008 谈一谈 Flink Slot 与并行度

【大数据面试题】008谈一谈FlinkSlot与并行度配置并行度Parallelism概念作用Slot概念作用如何设置TaskManager任务管理器Flinksubmit脚本一步一个脚印，一天一道面试题该文章有较多引用文章

Jiweilai1·2024-02-19 13:01

【大数据面试题】Flink第一弹60连发

感谢胖子大佬提供的企业面试题。本文因为时间关系只有部分答案，后续的答案小编会持续补全，请持续关注本系列。年后升职加薪就靠它了。胖子大佬就在交流群里，需要加群的公众号回复【加群】。更多面试题可以参考：《Flink面试通关手册》1、Flink如何保证精确一次性消费Flink保证精确一次性消费主要依赖于两种Flink机制1、Checkpoint机制2、二阶段提交机制Checkpoint机制主要是当Fli

王知无(import_bigdata)·2024-02-08 14:26

大数据面试题之 Flink

Flink基础架构组成？Flink程序在运行时主要有TaskManager，JobManager，Client三种角色。JobManager是集群的老大，负责接收FlinkJob，协调检查点，Failover故障恢复等，同时管理TaskManager。包含：Dispatcher、ResourceManager、JobMaster。TaskManager是执行计算的节点，每个TaskManager负

尚硅谷铁粉·2024-02-08 14:26

【大数据面试题】004 Flink状态后端是什么

一步一个脚印，一天一道大数据面试题。在实时处理中，状态管理是十分常用的。比如监控某些数据是否一直快速增长。那就需要记录到之前的状态，数值。那作为最热门的实时处理框架，Flink对状态管理是有一套的。

Jiweilai1·2024-02-08 14:25

【大数据面试题】005 谈一谈 Flink Watermark 水印

一步一个脚印，一天一道面试题。感觉我现在很难把水印描述的很好，但，完成比完美更重要。后续我再补充。各位如果有什么建议或补充也欢迎留言。在实时处理任务时，由于网络延迟，人工异常，各种问题，数据往往会出现乱序，不按照我们的预期到达处理框架。WaterMark水印，就是为了一定程度的解决数据，延迟乱序问题的。使用WaterMark一般有以下几个步骤：定义时间特性（Flink1.12已废弃，默认使用事件时

Jiweilai1·2024-02-08 07:54

【大数据面试题】002 Flink 如何实现 Exactly-Once 语义

一步一个脚印，一天一道大数据面试题。在流式大数据处理框架中，Exactly-Once语义对于确保每条数据精确地只被消费一次（避免重复读取和丢失读取）非常重要。

Jiweilai1·2024-02-05 13:54

【大数据面试题】001 Flink 的 Checkpoint 原理

一步一个脚印，一天一道大数据面试题。Flink是大数据实时处理计算框架。实时框架对检查点，错误恢复的功能要比离线的更复杂，所以一起来了解Flink的Checkpoint机制吧。

Jiweilai1·2024-02-04 07:13

大数据面试题 ---阿善有用

大数据工程师面试题1.选择题1.1.下面哪个程序负责HDFS数据存储。a)NameNodeb)Jobtrackerc)Datanoded)secondaryNameNodee)tasktracker答案Cdatanode1.2.HDfS中的block默认保存几份？答案A默认3份1.3.下列哪个程序通常与NameNode在一个节点启动?a)SecondaryNameNodeb)DataNodec)T

okbin1991·2024-02-03 15:21

【大数据面试题】HBase面试题附答案

目录1.介绍下HBase2.HBase优缺点3.介绍下的HBase的架构4.HBase的读写缓存5.在删除HBase中的一个数据的时候，它是立马就把数据删除掉了吗?6.HBase中的二级索引7.HBase的RegionServer宕机以后怎么恢复的?8.HBase的一个region由哪些东西组成?9.HBase高可用怎么实现的?10.为什么HBase适合写多读少业务?11.列式数据库的适用场景和优

话数Science·2024-01-26 19:42

大厂大数据面试题收录（1）

目录1.java中object类有哪些方法?2.说一下==和equals的区别？3.为什么要重写equals和hashcode()方法？4.机器学习中，监督学习和无监督学习的区别是啥？？5.kafka组件熟悉吗,kafka如何实现消息的有序的？6.在大数据组件中，你们一般用的资源管理框架是哪个？7.那你能谈一下yarn的基础架构及调度流程吗？8.Hivesql到MapReduce转化的流程清楚吗？

后季暖·2024-01-23 11:49

大数据面试题-1

一、map-reduce原理map过程：1.1读取HDFS中的文件。每一行解析成一个。每一个键值对调用一次map函数。1.2覆盖map()，接收1.1产生的，进行处理，转换为新的输出。1.3对1.2输出的进行分区。默认分为一个区。1.4对不同分区中的数据进行排序（按照k）、分组。分组指的是相同key的value放到一个集合中。排序后：分组后：1.5（可选）对分组后的数据进行归约。Reduce任务处

edwin1993·2023-12-27 19:29

【美团大数据面试】大数据面试题附答案

目录1.hdfs读写流程解析2.hdfs副本机制，三副本原因，副本存放策略3.hdfs容错机制原理4.MapReduce执行流程详解5.spark和mr的区别6.TopN求法，大数据量无法完全写入内存解决方案，MapReduce实现方法7.spark部署、调度原理8.spark的stage划分方法9.reducejoin执行过程10.大数据量join优化方法11.hive优化手段12.hiveSQ

话数Science·2023-12-25 11:19

大数据面试题_实时计算部分

1.zookeeper在kafka中起到什么作用Controller选举Controller是一个特殊的Broker,其负责维护所有Partition的leader/follower关系。当有partition的leader挂掉之后，controller会重新从同步队列中选出一个leader。==Zookeeper负责从Broker中选举出一个作为Controller,并确保其唯一性。同时,当Co

执于代码·2023-11-01 02:01

大数据面试题2

1自我介绍2项目介绍3数据量+集群配置4遇到过哪些问题，反正数据倾斜5chlikhouse的计算引擎6接触过运维吗7flink版本8flink内存，托管内存干什么用的？9spark处理了哪些业务10flink类加载，两个类型了解吗11java垃圾回收机制12你感觉你的优势是什么13你工作的三年最有成就感的事应聘者二2022-11-26（1）介绍下你们项目的人员组成（2）你们集群规模（3）你们集群做

添柴少年yyds·2023-10-28 08:17

大数据面试题汇总

结合自身面试经历，包括BAT、SF、中信等等公司所做的面试题汇总。主要包括以下几大类：一、spark相关1.Spark的Shuffle原理及调优？2.hadoop和spark使用场景？3.spark如何保证宕机迅速恢复?4.hadoop和spark的相同点和不同点？5.RDD持久化原理？6.checkpoint检查点机制？7.checkpoint和持久化机制的区别？8.SparkStreaming

kuntoria·2023-10-25 20:28

Flink去重第二弹：SQL方式

王知无(import_bigdata)·2023-10-23 02:14

大数据面试题Hbase篇

目录1.Hbase是什么？2.HBase的特点是什么？3.HBase和Hive的区别？4.描述HBase的rowKey的设计原则？5.请详细描述HBase中一个cell的结构？6.hbase中分布式存储的最小单元？7.简述HBase中compact用途是什么，什么时候触发，分为哪两种，有什么区别，有哪些相关配置参数？8.Region如何预建分区？9.HRegionServer宕机如何处理？10.H

后季暖·2023-10-13 23:23

大数据面试题：Spark和Flink的区别

面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字可回答：1）SparkStreaming和Flink的区别问过的一些公司：杰创智能科技(2022.11)，阿里蚂蚁

蓦然_·2023-10-12 08:54

大数据面试题：Spark和MapReduce之间的区别？各自优缺点？

面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字可回答：1）spark和maprecude的对比；2）mapreduce与spark优劣好处问过的一些公司：阿里云

蓦然_·2023-10-08 20:23

【大数据面试题】Spark-Core&；Spark-SQL

题解|#牛群排队#importjava.util.*;publicclassSolution{/***代码中的类名、方法名、参数名已经指定，请勿修改，题解|#计算一个数的阶乘##includeusingnamespacestd;intmain(){intn;cin&题解|#牛群喂食#importjava.util.*;publicclassSolution{/***代码中的类名、方法名、参数名已经

2301_78234743·2023-10-07 00:39

大数据面试题

第1章核心技术1.1Linux&Shell1.1.1Shell常用工具及写过的脚本1）awk、sed、cut、sort1.2Hadoop1.2.1Hadoop常用端口号hadoop2.xhadoop3.x访问HDFS端口500709870访问MR执行情况端口80888088历史服务器1988819888客户端访问集群端口900080201.2.2Hadoop配置文件配置文件：hadoop2.xco

_画一方禁地·2023-10-04 20:48

30个大数据常见面试题让您的薪资提升一个等级

但这个收获不仅仅需要你学到娴熟的大数据技术，还需要在面试之前精心准备，了解自己要应聘的企业发展状况、自己应聘岗位的技术要求等等，除此之外，多看一些大数据面试题也是很有必要的，给自

JACKbayue·2023-10-02 04:31

2023年大数据面试题--转载

@[TOC]2023年大数据面试题–转载(HDFS)和MapReduceHadoop是一个开源的分布式计算框架，由两部分组成：HadoopDistributedFileSystem(HDFS)和MapReduce

李先生真号·2023-09-29 01:22

最全BAT 大数据面试题及答案

1kafka的message包括哪些信息一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic的值为1的时候，会在magic和crc32之间多一个字节的数据：attributes(保存一些相关属性，比如是否压缩、压缩格式等等)；如果magic

疯狂的蚂蚁王·2023-09-27 03:20

大数据面试题：介绍下Kafka，Kafka的作用？Kafka的组件？适用场景？

Kafka是一种分布式、高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据，主要应用于大数据实时处理领域。简单地说，Kafka就相比是一个邮箱，生产者是发送邮件的人，消费者是接收邮件的人，Kafka就是用来存东西的，只不过它提供了一些处理邮件的机制。1、作用1）发布和订阅消息流2）以容错的方式记录消息流，kafka以文件的方式来存储消息流3）可以在消息发布的时候进行处理

蓦然_·2023-09-25 16:45

大数据面试题：Flink延迟数据是怎么解决的

最近朋友面试某猪的时候，被问到一个问题答得面试官不太满意，问的是前司数据延迟问题是怎么解决的，我稍作整理。一、什么是延迟数据大数据处理过程中Join的场景太多太多了，几乎所有公司的APP都会涉及到两条流数据之间的维度拼接，将表变宽等场景，避免不了进行多流Join操作。同时join场景中受网络或物理设备等因素影响也有可能，以致出现不同的流式数据到达计算引擎的时间不一定，那这些数据称为延迟数据。即延迟

后季暖·2023-09-25 16:12

Flink intervalJoin 使用与原理分析

王知无(import_bigdata)·2023-09-25 06:53

无精疯·2023-09-24 20:59

阿里大数据架构师告诉你这些大数据面试题！你不看？

随着云时代的来临，大数据（Bigdata）也吸引了越来越多的关注。分析师团队认为，大数据（Bigdata）通常用来形容一个公司创造的大量非结构化数据和半结构化数据，这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起，因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。在这里相信有许多想要学习大数据的同学，大家可以

大数据学习02·2023-09-18 09:15

大数据面试题

Hadoop1,Hadoop集群中都需要启动那些进程,它们的作用分别是什么?NameNode:在hadoop的主服务器,在内存中保存整个文件系统的名称空间和文件数据块的地址映射.整个HDFS可存储的文件数量受限于NameNode的内存大小.NameNode负责文件元数据的操作.SecondaryNameNode:不是NameNode的冗余守护进程,而是提供周期检查和清理任务,帮助NameNode合

牛壹壹·2023-09-07 07:13

大数据面试题：MapReduce压缩方式

面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字可回答：1）Hadoop常见的压缩算法有哪些？

蓦然_·2023-09-03 05:46

大数据面试题6 ---前面有用后面没用前面介绍真实情况算法

4.LVS和HAProxy相比，它的缺点是什么?之前，的确是用LVS进行过MySQL集群的负载均衡，对HAProxy也有过了解，但是将这两者放在眼前进行比较，还真没试着了解过。面试中出现了这么一题，面试官给予的答案是LVS的配置相当繁琐，后来查找了相关资料，对这两种负载均衡方案有了更进一步的了解。LVS的负载均衡性能之强悍已经达到硬件负载均衡的F5的百分之60了，而HAproxy的负载均衡和Ngi

okbin1991·2023-09-01 04:05

听说这10道大数据面试题把 98% 的求职者拒之BAT大厂门外（附解题方法）

写在前面最近不少读者找我要大数据面试题，我整理了很久，筛选出这10道容易出错的大数据面试题，希望对大家有所帮助。题目与解答整理自互联网，感谢分享这些面经的技术大牛们！

Java柚子·2023-08-30 11:25

大数据面试题：Spark的任务执行流程

面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字可回答：1）Spark的工作流程？

蓦然_·2023-08-20 20:02

大数据面试题：说下Spark中的Transform和Action，为什么Spark要把操作分为Transform和Action？

面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字可回答：Spark常见的算子介绍一下参考答案：我们先来看下Spark算子的作用：下图描述了Spark在运行转换中通过算子对

蓦然_·2023-08-15 01:37

字节电商大数据开发一面，已过，面试题已配答案

面试题答案参考大数据面试题V3.0，523道题，679页，46w字1、实习经历这点不多说了，根据自己的来就行2、工作中最难的点一般都会提前回顾之前自己遇到的问题，根据自己的来3、如何保证数据质量这里主要是阿里对数仓的一些数据质量保证原则

蓦然_·2023-08-15 01:36

大数据面试题全面总结（范围广超详细）

（一）Hadoop面试题总结（二）——HDFSHadoop面试题总结（三）——MapReduceHadoop面试题（四）——YARNHadoop面试题总结（五）——优化问题Zookeeper面试题总结大数据面试题

蓦然_·2023-08-15 01:06

大数据面试题V2.0，641页，39w字

大家好，我是蓦然原文链接如下：大数据面试题V2.0，641页，39w字面试题来源：牛客网大数据面经，从约500篇面经选取。https://mp.weixin.qq.com/s?

蓦然_·2023-08-15 01:06

大数据面试题：介绍下Hadoop

1、先说下Hadoop是什么Hadoop是一个分布式系统基础架构，主要是为了解决海量数据的存储和海量数据的分析计算问题。2、说下Hadoop核心组件Hadoop自诞生以来，主要有Hadoop1.x、2.x、3.x三个系列多个版本；Hadoop1.x组成：HDFS（具有高可靠性、高吞吐量的分布式文件系统，用于数据存储），MapReduce（同时处理业务逻辑运算和资源的调度），Common（辅助工具，

蓦然_·2023-08-15 01:06

大数据面试题——HBase面试题总结

1、HBase的特点是什么？1）大：一个表可以有数十亿行，上百万列；2）无模式：每行都有一个可排序的主键和任意多的列，列可以根据需要动态的增加，同一张表中不同的行可以有截然不同的列；3）面向列：面向列（族）的存储和权限控制，列（族）独立检索；4）稀疏：空（null）列并不占用存储空间，表可以设计的非常稀疏；5）数据多版本：每个单元中的数据可以有多个版本，默认情况下版本号自动分配，是单元格插入时的时

蓦然_·2023-08-15 01:36

大数据面试题：Hadoop中的几个进程和作用

面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字可回答：1）启动Hadoop，都会有什么进程参考答案：1）NameNode：Master，它是一个主管、管理者管理

蓦然_·2023-08-15 01:06

Spark学习之路（七）Spark 运行流程

王知无(import_bigdata)·2023-08-14 14:09

大数据面试题：Kafka的ISR机制

面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字可回答：1）从ISR踢出去之后呢；2）一般Leader怎么判断Follower挂掉？

蓦然_·2023-08-10 09:09

大数据面试题：HBase的读写缓存

面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字参考答案：HBase上RegionServer的cache主要分为两个部分：MemStore&BlockCache

蓦然_·2023-08-06 09:59

推荐频道

大数据面试题

360大数据面试题及参考答案

大数据面试题：说下为什么要使用Hive？Hive的优缺点？Hive的作用是什么？

【大数据面试题】014 Flink CDC 用过吗，请简要描述

【大数据面试题】009 Flink 有哪些机制实现故障恢复

【大数据面试题】007 谈一谈 Flink 背压

【大数据面试题】006介绍一下Parquet存储格式的优势

【大数据面试题】008 谈一谈 Flink Slot 与 并行度

【大数据面试题】Flink第一弹60连发

大数据面试题之 Flink

【大数据面试题】004 Flink状态后端是什么

【大数据面试题】005 谈一谈 Flink Watermark 水印

【大数据面试题】002 Flink 如何实现 Exactly-Once 语义

【大数据面试题】001 Flink 的 Checkpoint 原理

大数据面试题 ---阿善有用

【大数据面试题】HBase面试题附答案

大厂大数据面试题收录（1）

大数据面试题-1

【美团大数据面试】大数据面试题附答案

大数据面试题_实时计算部分

大数据面试题2

大数据面试题汇总

Flink去重第二弹：SQL方式

大数据面试题Hbase篇

大数据面试题：Spark和Flink的区别

大数据面试题：Spark和MapReduce之间的区别？各自优缺点？

【大数据面试题】Spark-Core&；Spark-SQL

大数据面试题

30个大数据常见面试题 让您的薪资提升一个等级

2023年大数据面试题--转载

最全BAT 大数据面试题及答案

大数据面试题：介绍下Kafka，Kafka的作用？Kafka的组件？适用场景？

大数据面试题：Flink延迟数据是怎么解决的

Flink intervalJoin 使用与原理分析

5W字讲解最新大数据面试题

阿里大数据架构师告诉你这些大数据面试题！你不看？

大数据面试题

大数据面试题：MapReduce压缩方式

大数据面试题6 ---前面有用 后面没用 前面介绍真实情况算法

听说这10道大数据面试题把 98% 的求职者拒之BAT大厂门外（附解题方法）

大数据面试题：Spark的任务执行流程

大数据面试题：说下Spark中的Transform和Action，为什么Spark要把操作分为Transform和Action？

字节电商大数据开发一面，已过，面试题已配答案

大数据面试题全面总结（范围广超详细）

大数据面试题V2.0，641页，39w字

大数据面试题：介绍下Hadoop

大数据面试题——HBase面试题总结

大数据面试题：Hadoop中的几个进程和作用

Spark学习之路 （七）Spark 运行流程

大数据面试题：Kafka的ISR机制

大数据面试题：HBase的读写缓存

【大数据面试题】008 谈一谈 Flink Slot 与并行度

30个大数据常见面试题让您的薪资提升一个等级

大数据面试题6 ---前面有用后面没用前面介绍真实情况算法

Spark学习之路（七）Spark 运行流程