大数据面试题第2页

大数据面试题：超详细版MapReduce工作原理

面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字参考答案：MapReduce详细流程：1、准备待处理文件（200M）2、submit()对原始文件进行切片分析（128M

蓦然_·2023-07-31 11:41

大数据面试题：Kafka的单播和多播

面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字参考答案：1、单播一条消息只能被某一个消费者消费的模式称为单播。

蓦然_·2023-07-31 11:10

大数据面试题之Elasticsearch:每日三题(六)

大数据面试题之Elasticsearch:每日三题1.为什么要使用Elasticsearch？2.Elasticsearch的master选举流程？3.Elasticsearch集群脑裂问题？

（YSY_YSY）·2023-07-28 18:06

大数据面试题之Elasticsearch:每日三题(七)

大数据面试题之Elasticsearch:每日三题1.Elasticsearch索引文档的流程？2.Elasticsearch更新和删除文档的流程？3.Elasticsearch搜索的流程？

（YSY_YSY）·2023-07-28 18:04

大数据面试题（三）Kafka

三.Kafka目录1.Kafka名词解释和工作方式2.Consumer与topic关系3.kafka中生产数据的时候，如何保证写入的容错性？4.如何保证kafka消费者消费数据是全局有序的5.列举kafka的优点，简述kafka为什么可以做到每秒数十万甚至上百万消息的高效分发？6.为什么离线分析要用kafka7.kafka怎么进行监控8.kafka与传统消息队列有什么不同9.kafka的ISR副本

敲代码的彭于晏·2023-07-27 23:18

大数据面试题

MySQL索引有哪些1.普通索引index:加速查找2.唯一索引主键索引:primarykey:加速查找+约束(不为空且唯一)唯一索引:unique:加速查找+约束(唯一)3.联合索引-primarykey(id,name):联合主键索引-unique(id,name):联合唯一索引-index(id,name):联合普通索引4.全文索引fulltext:用于搜索很长一篇文章的时候，效果最好。5.

陪自己长大·2023-07-25 04:22

大数据面试题：Kafka怎么保证数据不丢失，不重复？

面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字可回答：Kafka如何保证生产者不丢失数据，消费者不丢失数据？

蓦然_·2023-07-25 04:52

大数据面试题：HBase读写数据流程

面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字参考答案：1、写数据流程1）Client先访问zookeeper，获取hbase:meta表位于哪个RegionServer

蓦然_·2023-07-25 04:51

必问207道java架构和大数据面试题及答案

前言相信大家在面试中都会遇到很多很难回答的问题，以至于面试不是很成功，进入公司后薪资会偏少一些！有的人会说，这面试官是不是故意刁难我呢？怎么这些问题我都不会啊！小编觉得呢，说到底还是大家的知识储备或者面试经验太少了，知识储备和面试经验都是是可以靠自己来学习积累的，下面小编就分享下总结的面试四点经验：1.不会就不会。我比较爽快，如果遇到的不会的甚至是不确定的，都直接说：“对不起，我答不上来”之类的。

Java技术那些事儿·2023-07-25 04:48

大数据面试题：Zookeeper架构

面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字可回答：1）说一说Zookeeper中的角色问过的一些公司：京东提前批(2020.07)，蘑菇街实习(2020.03

蓦然_·2023-07-25 04:17

大数据面试题：Kafka怎么保证数据不丢失，不重复？

面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字参考答案：存在数据丢失的几种情况使用同步模式的时候，有3种状态保证消息被安全生产，在配置为1（只保证写入leader

蓦然_·2023-07-24 17:36

6道经典大数据面试题（ChatGPT回答版）

1、HDFS读写流程是什么？HDFS（HadoopDistributedFileSystem）的读写流程如下：写流程：客户端向NameNode发送写请求，请求在HDFS上创建一个新的文件。NameNode为该文件分配一些数据块（默认情况下为128MB）以及在哪些DataNode上存储这些数据块的信息。NameNode向客户端返回可用于写入数据的DataNode列表。客户端选择最近的DataNode

大数据流动·2023-07-23 13:29

大数据面试题之Mysql:每日三题(四)

大数据面试题之Mysql:每日三题为什么使用索引1.索引的优缺点2.普通索引，唯一索引，主键索引，联合索引的区别3.MySQL有哪些锁我很喜欢的一句勉励今天的自己和大家：“人生当中成功只是一时，失败却是主旋律

（YSY_YSY）·2023-07-22 06:51

大数据面试题之Mysql:每日三题(五)

大数据面试题之Mysql:每日三题1.MySQL索引存储结构(六种)2.on和where的区别3.mysql是怎么查重的？

（YSY_YSY）·2023-07-22 06:51

大数据面试题Spark篇（1）

目录1.spark数据倾斜2.Spark为什么比mapreduce快？3.hadoop和spark使用场景？4.spark宕机怎么迅速恢复？5.RDD持久化原理？6.checkpoint检查点机制7.checkpoint和持久化的区别8.说一下RDD的血缘9.宽依赖函数，窄依赖函数分别有哪些？10.谈一谈RDD的容错机制？11.谈一谈你对RDD的理解12.Spark主备切换机制原理知道吗1.spa

后季暖·2023-07-15 02:24

HBase为什么查询快

面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字可回答：1）HBase为什么读快；2）HBase是根据rowkey查询，当数据量相当大的时候，是怎么读的很快的参考答案

蓦然_·2023-06-23 10:28

大数据面试题：Hive的cluster by 、sort by、distribute by 、order by 区别？

面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字参考答案：可回答：1）Hive的排序函数；2）Hive的排序，以及各自的区别；3）四个by的区别？

蓦然_·2023-06-20 20:36

Hive的用户自定义函数实现步骤与流程

面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字参考答案：1、如何构建UDF？

蓦然_·2023-06-18 14:09

Hadoop的mapper和reducer的个数如何确定？reducer的个数依据是什么？

面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字参考答案：map数量影响map个数（split个数）的主要因素有：文件的大小。

蓦然_·2023-06-18 14:09

spark 面试题汇总

大数据面试题汇总大数据面试题汇总-简书spark资源调优1、列式存储和行式存储的区别行存储，数据行存储，一个文件可表达一个二维表。

四月天03·2023-06-16 22:44

大数据面试题V3.0，约870篇牛客大数据面经480道面试题_笔经面经_牛客网

作者：蓦_然链接：大数据面试题V3.0，约870篇牛客大数据面经480道面试题_笔经面经_牛客网来源：牛客网大数据面试题V3.0一、前言大家好，我是蓦然。

javastart·2023-06-15 18:55

大数据面试题汇总

Hadoop基础介绍下HadoopHadoop的特点说下Hadoop生态圈组件及其作用Hadoop主要分哪几个部分?他们有什么作用?Hadoop1.x，2x，3.x的区别Hadoop集群工作时启动哪些进程?它们有什么作用?在集群计算的时候，什么是集群的主要瓶颈搭建Hadoop集群的xml文件有哪些?Hadoop的checkpoint流程Hadoop的默认块大小是多少?为什么要设置这么大?Block

添柴少年yyds·2023-06-10 04:33

大数据面试题总结

1.说一下最近做的项目(1)我把实时简单说了一下，说的一般2.说一说为什么要数仓分层(1)把维度建模随便说了下，又扯了一下分层3.说一下数据倾斜(1)没回答好，hive只说了groupbyflink说了一下keyby的三种情况4.说一下hive小文件问题1.介绍了一下最近的项目，说的实时架构，又说了一下建模2.问hive优化3.问小文件问题4.问combinehiveinputformat是逻辑优

添柴少年yyds·2023-06-10 04:03

大数据面试题

1.说一下最近做的项目(1)我把实时简单说了一下，说的一般2.说一说为什么要数仓分层(1)把维度建模随便说了下，又扯了一下分层3.说一下数据倾斜(1)没回答好，hive只说了groupbyflink说了一下keyby的三种情况4.说一下hive小文件问题1.介绍了一下最近的项目，说的实时架构，又说了一下建模2.问hive优化3.问小文件问题4.问combinehiveinputformat是逻辑优

添柴少年yyds·2023-06-10 04:02

大数据面试题目（第一部分）

您对“大数据”一词有什么了解？当谈到"大数据"时，它是指处理和分析规模巨大、多样化且高速增长的数据集的技术和方法。这些数据通常无法在传统的数据库系统中轻松存储、处理和分析。大数据的特点包括数据量大、速度快、多样性高和价值密度低。以下是一些关键概念和技术与大数据相关：概念/技术说明分布式文件系统大数据通常存储在分布式文件系统中，例如HadoopDistributedFileSystem(HDFS)。

码视野·2023-06-07 02:54

大数据面试题汇总

自我介绍hr常问的几道面试题SparkSpark有什么优缺点？SparkRDD有什么特性kafkaKafka为什么这么快？hbaseHbase系统架构Hbase数据模型HBasevsRDBMSHBaserowkey设计原则HBase预分区HiveHiveorder/sort/distribute/clusterby有什么区别？

CodeYangX·2023-04-15 01:50

2020哔哩哔哩大数据面试题整理

网上能搜到的B站的大数据面试题太少了，博主有点找不到了，而且最近B站的校招的效率似乎不是很高，简历投进去一个多星期了，一点反应都没有，别问，问就是在池子里.jpg1.数仓与关系数据库区别1.数据库有相对复杂的表格结构

艾姆鸥·2023-04-14 22:29

大数据面试题集锦-Hadoop面试题(四)-YARN

你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。如果你需要更多的面试经验和面试题，关注一下"张飞的猪大数据分享"吧，公众号会不定时的分享相关的知识和资料。文章目录1、为什么会产生yarn,它解决了什么问题，有什么优势？2、简述hadoop1与hadoop2的架构异同3、Hadoop的调度器总结4、MapReduce2.0容错性5、HDFS的数据压缩算法?6、mapreduce推

张飞的猪大数据·2023-04-13 01:13

大数据面试题集锦-Hadoop面试题(三)-MapReduce

你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。如果你需要更多的面试经验和面试题，关注一下"张飞的猪大数据分享"吧，公众号会不定时的分享相关的知识和资料。文章目录1、谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化?2、FileInputFormat切片机制3、在一个Hadoop任务中，什么是InputSplit（切片），以及切片是用来做什么的，切片与block有

张飞的猪大数据·2023-04-13 01:43

大数据面试题集锦-Hadoop面试题(五)-优化

你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。如果你需要更多的面试经验和面试题，关注一下"张飞的猪大数据分享"吧，公众号会不定时的分享相关的知识和资料。文章目录1、MapReduce优化方法2、MapReduce跑得慢的原因？3、HDFS小文件优化方法1、MapReduce优化方法1）数据输入（1）合并小文件：在执行mr任务前将小文件进行合并，大量的小文件会产生大量的map

张飞的猪大数据·2023-04-13 01:43

大数据面试题

行走的数据智能·2023-04-10 17:41

【面试题】京东大数据面试真题汇总，收藏必备

今年冬天冷的好慢，现在空气中吹的风还是暖的...京东大数据面试题_hive中都有哪些join操作？leftjoin：以左侧为主表，返回记录与主表记录数相同，关联不上的字段为空。

OnlyCoding…·2023-04-09 01:37

大数据面试题_Impala等查询组件(除Hive外的其它组件)

大数据面试题_Impala等查询组件(除Hive外的其它组件)一、Impala1、什么是Impala?

Jerry Hong·2023-04-08 07:55

大数据面试题4 ---一般有用太多

第1部分选择题1.1Hadoop选择题1.1.1Hdfs1.下面哪个程序负责HDFS数据存储？a)NameNodeb)Jobtrackerc)Datanoded)secondaryNameNodee)tasktracker2.HDfS中的block默认保存几份？a)3份b)2份c)1份d)不确定3.下列哪个程序通常与NameNode在一个节点启动？a)SecondaryNameNodeb)Data

okbin1991·2023-04-06 13:17

大数据面试题：介绍下HBase架构

从Hbase的架构图上可以看出，Hbase中的存储包括HMaster、HRegionSever、HRegion、HLog、Store、MemStore、StoreFile、HFile等。Hbase中的每张表都通过键按照一定的范围被分割成多个子表（HRegion），默认一个HRegion超过256M就要被分割成两个，这个过程由HRegionServer管理,而HRegion的分配由HMaster管理

蓦然_·2023-03-31 22:11

大数据面试题以及答案整理（一）

hadoop的shuffle过程一、Map端的shuffleMap端会处理输入数据并产生中间结果，这个中间结果会写到本地磁盘，而不是HDFS。每个Map的输出会先写到内存缓冲区中，当写入的数据达到设定的阈值时，系统将会启动一个线程将缓冲区的数据写到磁盘，这个过程叫做spill。在spill写入之前，会先进行二次排序，首先根据数据所属的partition进行排序，然后每个partition中的数据再

在远方的你等我·2023-03-26 22:27

数据仓库面试题——数据仓库分层

答案来源：大数据面试题V3.0，523道题，679页，46w字问过的一些公司：字节x2，字节(2021.07)-(2021.08)-(2021.10)，阿里x2，爱奇艺，百度x2，百度(2021.08)

蓦然_·2023-03-10 07:56

2023版最新最强大数据面试宝典

·2023-02-21 15:19

大数据面试题整理 -- hadoop 部分

Map端优化参数选项类型默认值描述io.sort.mbint100缓存map中间结果的buffer大小(MB)io.sort.record.percentfloat0.05io.sort.mb中用来保存mapoutput记录边界的百分比，其他缓存用来保存数据io.sort.spill.percentfloat0.80map开始做spill操作的阈值io.sort.factorint10做merge

thoughtCodes·2023-01-25 08:36

大数据面试题(二)----HDFS面试题

老王的小知识·2023-01-25 08:35

大数据面试题(一)----HADOOP 面试题

老王的小知识·2023-01-25 08:35

大数据面试题--MapReduce篇

MapReduce任务执行的11个步骤1.运行job任务2.获取ApplicationID|JobID3.CopyJob资源到HDFS-切片信息、配置信息、代码片段4.提交任务给ResourceManager5.RM->NM消耗一个Container资源，用于启动MRAppMaster6.MRAppMaster初始化任务，完成任务调度前的准备工作7.MRAppMaster查询输入切片信息、配置，进

丿沐染烟忱丶·2023-01-25 08:01

大数据面试题--HDFS篇

NameNode和SecondaryNameNode区别？第一阶段：NameNode启动（1）NameNode服务工作，第一次启动格式化后，创建fsimage和editlog文件。如果不是第一次启动，直接加载镜像文件和日志到内存。（2）处理客户端对元数据进行增删改的请求。（3）NameNode记录操作日志，更新滚动日志。（4）NameNode在内存中对数据进行增删改查。第二阶段：Secondary

丿沐染烟忱丶·2023-01-25 08:30

大数据面试题之葵花宝典------Hadoop

葵花宝典------Hadoop1.hdfs读写流程2.hdfs的体系结构3.一个datanode宕机,怎么一个流程恢复4.hadoop的namenode宕机,怎么解决5.namenode对元数据的管理6.元数据的checkpoint7.yarn资源调度流程8.hadoop中combiner和partition的作用9.用mapreduce怎么处理数据倾斜问题？10.shuffle阶段,你怎么理解

海鸥~·2023-01-25 07:35

大数据面试题集锦-Hadoop面试题(二)-HDFS

你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。如果你需要更多的面试经验和面试题，关注一下"张飞的猪大数据分享"吧，公众号会不定时的分享相关的知识和资料。1、HDFS中的block默认保存几份？默认保存3份2、HDFS默认BlockSize是多大？默认64MB3、负责HDFS数据存储的是哪一部分？DataNode负责数据存储4、SecondaryNameNode的目的是什么？他

张飞的猪大数据·2023-01-25 07:32

【大数据面试题】（八）Spark 相关面试题

1.spark中的RDD是什么，有哪些特性？答：RDD（ResilientDistributedDataset）叫做分布式数据集，是spark中最基本的数据抽象，它代表一个不可变，可分区，里面的元素可以并行计算的集合Dataset：就是一个集合，用于存放数据的Destributed：分布式，可以并行在集群计算Resilient：表示弹性的，弹性表示1.RDD中的数据可以存储在内存或者磁盘中；2.R

云祁·2023-01-13 09:21

大数据面试题——Spark数据倾斜调优（五）

1、数据倾斜数据倾斜指的是，并行处理的数据集中，某一部分（如Spark或Kafka的一个Partition）的数据显著多于其它部分，从而使得该部分的处理速度成为整个数据集处理的瓶颈。数据倾斜俩大直接致命后果。1、数据倾斜直接会导致一种情况：OutOfMemory。2、运行速度慢。主要是发生在Shuffle阶段。同样Key的数据条数太多了。导致了某个key(下图中的80亿条)所在的Task数据量太大

蓦然_·2023-01-02 11:19

阿里云大数据开发一面面经，已过，面试题已配答案

参考答案来源：大数据面试题V3.0，523道题，679页，46w字二面：阿里云大数据开发二面面经，已过，面试题已配答案_蓦然_的博客-CSDN博客1、实习经历这一点就不多说了，每个人都不一样，根据自己的介绍就行

蓦然_·2022-12-31 16:35

大数据面试题：介绍下YARN

介绍YARN，可以先考虑下面两个问题1）如何管理集群资源？2）如何给任务合理分配资源？YARN是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。YARN作为一个资源管理、任务调度的框架，主要包含ResourceManager、NodeManager、ApplicationMaster和Conta

蓦然_·2022-12-18 22:59

大数据面试题（四）：Yarn核心高频面试题

文章目录Yarn核心高频面试题一、简述Hadoop1与Hadoop2的架构异同二、为什么会产生yarn，它解决了什么问题，有什么优势？三、HDFS的数据压缩算法？及每种算法的应用场景？1、gzip压缩2、Bzip2压缩3、Lzo压缩4、Snappy压缩四、Hadoop的调度器总结五、Mapreduce推测执行算法及原理Yarn核心高频面试题一、简述Hadoop1与Hadoop2的架构异同加入了ya

Lansonli·2022-12-18 22:40

推荐频道

大数据面试题

大数据面试题：超详细版MapReduce工作原理

大数据面试题：Kafka的单播和多播

大数据面试题之Elasticsearch:每日三题(六)

大数据面试题之Elasticsearch:每日三题(七)

大数据面试题（三）Kafka

大数据面试题

大数据面试题：Kafka怎么保证数据不丢失，不重复？

大数据面试题：HBase读写数据流程

必问207道java架构和大数据面试题及答案

大数据面试题：Zookeeper架构

大数据面试题：Kafka怎么保证数据不丢失，不重复？

6道经典大数据面试题（ChatGPT回答版）

大数据面试题之Mysql:每日三题(四)

大数据面试题之Mysql:每日三题(五)

大数据面试题Spark篇（1）

HBase为什么查询快

大数据面试题：Hive的cluster by 、sort by、distribute by 、order by 区别？

Hive的用户自定义函数实现步骤与流程

Hadoop的mapper和reducer的个数如何确定？reducer的个数依据是什么？

spark 面试题汇总

大数据面试题V3.0，约870篇牛客大数据面经480道面试题_笔经面经_牛客网

大数据面试题汇总

大数据面试题总结

大数据面试题

大数据面试题目（第一部分）

大数据面试题汇总

2020哔哩哔哩大数据面试题整理

大数据面试题集锦-Hadoop面试题(四)-YARN

大数据面试题集锦-Hadoop面试题(三)-MapReduce

大数据面试题集锦-Hadoop面试题(五)-优化

大数据面试题

【面试题】京东大数据面试真题汇总，收藏必备

大数据面试题_Impala等查询组件(除Hive外的其它组件)

大数据面试题4 ---一般有用太多

大数据面试题：介绍下HBase架构

大数据面试题以及答案整理（一）

数据仓库面试题——数据仓库分层

2023版最新最强大数据面试宝典

大数据面试题整理 -- hadoop 部分

大数据面试题(二)----HDFS面试题

大数据面试题(一)----HADOOP 面试题

大数据面试题--MapReduce篇

大数据面试题--HDFS篇

大数据面试题之葵花宝典------Hadoop

大数据面试题集锦-Hadoop面试题(二)-HDFS

【大数据面试题】（八）Spark 相关面试题

大数据面试题——Spark数据倾斜调优（五）

阿里云大数据开发一面面经，已过，面试题已配答案

大数据面试题：介绍下YARN

大数据面试题（四）：Yarn核心高频面试题