大数据面试第3页

大数据面试题——HBase面试题总结

1、HBase的特点是什么？1）大：一个表可以有数十亿行，上百万列；2）无模式：每行都有一个可排序的主键和任意多的列，列可以根据需要动态的增加，同一张表中不同的行可以有截然不同的列；3）面向列：面向列（族）的存储和权限控制，列（族）独立检索；4）稀疏：空（null）列并不占用存储空间，表可以设计的非常稀疏；5）数据多版本：每个单元中的数据可以有多个版本，默认情况下版本号自动分配，是单元格插入时的时

蓦然_·2023-08-15 01:36

大数据面试题：Hadoop中的几个进程和作用

面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字可回答：1）启动Hadoop，都会有什么进程参考答案：1）NameNode：Master，它是一个主管、管理者管理

蓦然_·2023-08-15 01:06

Spark学习之路（七）Spark 运行流程

王知无(import_bigdata)·2023-08-14 14:09

SparkSQL操作Hudi指南

全网最全大数据面试提升手册！

王知无(import_bigdata)·2023-08-13 02:21

大数据面试题：Kafka的ISR机制

面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字可回答：1）从ISR踢出去之后呢；2）一般Leader怎么判断Follower挂掉？

蓦然_·2023-08-10 09:09

大数据面试题：HBase的读写缓存

面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字参考答案：HBase上RegionServer的cache主要分为两个部分：MemStore&BlockCache

蓦然_·2023-08-06 09:59

大数据面试题：HBase的RegionServer宕机以后怎么恢复的？

面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字可回答：1）HBase一个节点宕机了怎么办；2）HBase故障恢复参考答案：1、HBase常见故障导致RegionServer

蓦然_·2023-08-01 01:29

大数据面试题：超详细版MapReduce工作原理

面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字参考答案：MapReduce详细流程：1、准备待处理文件（200M）2、submit()对原始文件进行切片分析（128M

蓦然_·2023-07-31 11:41

大数据面试题：Kafka的单播和多播

面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字参考答案：1、单播一条消息只能被某一个消费者消费的模式称为单播。

蓦然_·2023-07-31 11:10

大数据面试小抄

项目地址：https://github.com/GTyingzi/BigDATA该项目是自己在学习大数据过程中整理、总结下来的一份面试小抄。涵盖Hadoop、Spark、Flink、Hive、HBae、Kafka、ES、Zookeeper等。开源给大家，若感觉不错欢迎star~摘取Flink部分如下文章目录FlinkFlink介绍Flink架构(重点)作业提交流程高层级视角独立模式YARN集群Fl

未来影子·2023-07-29 18:30

大数据面试题之Elasticsearch:每日三题(六)

大数据面试题之Elasticsearch:每日三题1.为什么要使用Elasticsearch？2.Elasticsearch的master选举流程？3.Elasticsearch集群脑裂问题？

（YSY_YSY）·2023-07-28 18:06

大数据面试题之Elasticsearch:每日三题(七)

大数据面试题之Elasticsearch:每日三题1.Elasticsearch索引文档的流程？2.Elasticsearch更新和删除文档的流程？3.Elasticsearch搜索的流程？

（YSY_YSY）·2023-07-28 18:04

大数据面试题（三）Kafka

三.Kafka目录1.Kafka名词解释和工作方式2.Consumer与topic关系3.kafka中生产数据的时候，如何保证写入的容错性？4.如何保证kafka消费者消费数据是全局有序的5.列举kafka的优点，简述kafka为什么可以做到每秒数十万甚至上百万消息的高效分发？6.为什么离线分析要用kafka7.kafka怎么进行监控8.kafka与传统消息队列有什么不同9.kafka的ISR副本

敲代码的彭于晏·2023-07-27 23:18

大数据面试-20210312

目录基础题1、介绍一下拉链表的原理，以及适用于哪些场景?2、如果使用spark遇到了OOM，你会怎么处理？智力题3、A文件有50亿条URL，B文件也有50亿条URL，每条URL大小为64B，在一台只有4G内存的机器上，怎么找出A、B中相同的URL？基础题1、介绍一下拉链表的原理，以及适用于哪些场景?拉链表是一种数据模型，主要是针对数据仓库设计中表存储数据的方式而定义的；顾名思义，所谓拉链表，就是记

大数据架构师Pony·2023-07-25 04:53

大数据面试题

MySQL索引有哪些1.普通索引index:加速查找2.唯一索引主键索引:primarykey:加速查找+约束(不为空且唯一)唯一索引:unique:加速查找+约束(唯一)3.联合索引-primarykey(id,name):联合主键索引-unique(id,name):联合唯一索引-index(id,name):联合普通索引4.全文索引fulltext:用于搜索很长一篇文章的时候，效果最好。5.

陪自己长大·2023-07-25 04:22

大数据面试题：Kafka怎么保证数据不丢失，不重复？

面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字可回答：Kafka如何保证生产者不丢失数据，消费者不丢失数据？

蓦然_·2023-07-25 04:52

大数据面试题：HBase读写数据流程

面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字参考答案：1、写数据流程1）Client先访问zookeeper，获取hbase:meta表位于哪个RegionServer

蓦然_·2023-07-25 04:51

必问207道java架构和大数据面试题及答案

前言相信大家在面试中都会遇到很多很难回答的问题，以至于面试不是很成功，进入公司后薪资会偏少一些！有的人会说，这面试官是不是故意刁难我呢？怎么这些问题我都不会啊！小编觉得呢，说到底还是大家的知识储备或者面试经验太少了，知识储备和面试经验都是是可以靠自己来学习积累的，下面小编就分享下总结的面试四点经验：1.不会就不会。我比较爽快，如果遇到的不会的甚至是不确定的，都直接说：“对不起，我答不上来”之类的。

Java技术那些事儿·2023-07-25 04:48

大数据面试题：Zookeeper架构

面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字可回答：1）说一说Zookeeper中的角色问过的一些公司：京东提前批(2020.07)，蘑菇街实习(2020.03

蓦然_·2023-07-25 04:17

大数据面试题：Kafka怎么保证数据不丢失，不重复？

面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字参考答案：存在数据丢失的几种情况使用同步模式的时候，有3种状态保证消息被安全生产，在配置为1（只保证写入leader

蓦然_·2023-07-24 17:36

史上最全Hive面试题，高薪必备，架构必备

说在前面本文《尼恩大数据面试宝典》是《尼恩Java面试宝典》姊妹篇。

40岁资深老架构师尼恩·2023-07-24 07:22

6道经典大数据面试题（ChatGPT回答版）

1、HDFS读写流程是什么？HDFS（HadoopDistributedFileSystem）的读写流程如下：写流程：客户端向NameNode发送写请求，请求在HDFS上创建一个新的文件。NameNode为该文件分配一些数据块（默认情况下为128MB）以及在哪些DataNode上存储这些数据块的信息。NameNode向客户端返回可用于写入数据的DataNode列表。客户端选择最近的DataNode

大数据流动·2023-07-23 13:29

大数据_大数据常见面试问题

下面分为几个方向罗列一下最近遇到的大数据面试问题数据仓库大数据_面试_数据仓库基础概念_高达一号的博客-CSDN博客ETL组件相关，spark,flink大数据_ETL组件常见问题_spark&flink

高达一号·2023-07-22 08:37

大数据面试题之Mysql:每日三题(四)

大数据面试题之Mysql:每日三题为什么使用索引1.索引的优缺点2.普通索引，唯一索引，主键索引，联合索引的区别3.MySQL有哪些锁我很喜欢的一句勉励今天的自己和大家：“人生当中成功只是一时，失败却是主旋律

（YSY_YSY）·2023-07-22 06:51

大数据面试题之Mysql:每日三题(五)

大数据面试题之Mysql:每日三题1.MySQL索引存储结构(六种)2.on和where的区别3.mysql是怎么查重的？

（YSY_YSY）·2023-07-22 06:51

大数据面试基础回答

以下是Hive大数据领域的一些常见问题：数据倾斜：在Hive中，数据倾斜是一个常见的问题，它会导致查询结果不准确或查询过程异常。为了解决数据倾斜问题，可以尝试以下方法：使用更高效的数据倾斜处理工具，例如ApacheSpark的DataFrame和PySpark等。对查询进行重写，以避免数据倾斜。例如，将查询转换为等效的但不会导致数据倾斜的形式。对数据分布进行随机化，以减少数据倾斜的可能性。数据存储

饭九钦vlog·2023-07-21 20:47

2023大数据面试总结

本文就是我在学习过程中记录下，所遇到的一些大数据面试的提问，仅供参考。

fx67ll·2023-07-19 17:31

绝密100个Spark面试题，熟背100遍，猛拿高薪

说在前面《尼恩大数据面试宝典》是《尼恩Java面试宝典》姊妹篇。

40岁资深老架构师尼恩·2023-07-15 07:03

大数据面试题Spark篇（1）

目录1.spark数据倾斜2.Spark为什么比mapreduce快？3.hadoop和spark使用场景？4.spark宕机怎么迅速恢复？5.RDD持久化原理？6.checkpoint检查点机制7.checkpoint和持久化的区别8.说一下RDD的血缘9.宽依赖函数，窄依赖函数分别有哪些？10.谈一谈RDD的容错机制？11.谈一谈你对RDD的理解12.Spark主备切换机制原理知道吗1.spa

后季暖·2023-07-15 02:24

HBase为什么查询快

面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字可回答：1）HBase为什么读快；2）HBase是根据rowkey查询，当数据量相当大的时候，是怎么读的很快的参考答案

蓦然_·2023-06-23 10:28

2020-10-24 大数据面试问题

上周面试数据开发职位主要从公司的视角讲一下记录下面试流水。1.三面技术一轮hr，面到了cto整体来看是这一周技术含量最高信息量最大的一个，1到4轮过了4个小时，技术上的问题主要问的对数据分层的理解。1.一面自我介绍、目前团队的规模多大（20）、你负责的模块是那些（购物、短信、增长）、那几个人在做2.数据架构图划分（五层架构讲了7分钟左右）3.指标口径怎么统一、那些工作（定标准、报表和核心、场景）、

浩海紫冰·2023-06-22 13:26

史上最全Hadoop面试题：尼恩大数据面试宝典专题1

说在前面：《尼恩大数据面试宝典》是《尼恩Java面试宝典》姊妹篇。

40岁资深老架构师尼恩·2023-06-20 23:20

大数据面试题：Hive的cluster by 、sort by、distribute by 、order by 区别？

面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字参考答案：可回答：1）Hive的排序函数；2）Hive的排序，以及各自的区别；3）四个by的区别？

蓦然_·2023-06-20 20:36

Hive的用户自定义函数实现步骤与流程

面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字参考答案：1、如何构建UDF？

蓦然_·2023-06-18 14:09

Hadoop的mapper和reducer的个数如何确定？reducer的个数依据是什么？

面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字参考答案：map数量影响map个数（split个数）的主要因素有：文件的大小。

蓦然_·2023-06-18 14:09

Hadoop的shuffle过程及调优

由于该过程涉及排序、磁盘IO、以及网络IO等消耗资源和CPU比较大的操作，因此该过程是重点优化的一个地方，因此也是大数据面试中经常会被重点考察的地方。本文力求通俗、简单地将Sh

RainTicking·2023-06-18 06:30

spark 面试题汇总

大数据面试题汇总大数据面试题汇总-简书spark资源调优1、列式存储和行式存储的区别行存储，数据行存储，一个文件可表达一个二维表。

四月天03·2023-06-16 22:44

spark面试题总结（大数据面试）

Spark概述Spark是一种快速、通用、可扩展的大数据分析引擎。Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算，提高了在大数据环境下数据处理实时性，同时保证了高容错性和高可伸缩性，允许用户将Spark部署在大量廉价硬件之上，形成集群。1、核心组件SparkCore:核心部分包含Spark基本功能（任务调度内存管理容错机制等）SparkSQL:Spark中交互式处理模块Spa

404个问号·2023-06-16 22:43

【大数据面试】【项目开发经验】Hadoop、Flume、Kafka、Hive、MySQL、Sqoop、Azkaban、Spark...

主要内容：框架层面的调优、业务经验一、Hadoop1、Hadoop基准测试(HDFS的读写性能、MapReduce的计算能力测试)(1)测试内容：文件上传下载的时间(2)服务器有几个硬盘插槽2/4块问题：2块4T和一块8T的哪个贵2块4T的贵，可靠性更高一些(3)加了磁盘，默认情况下不会直接能够使用需要负载均衡，保证每个目录数据均衡开启数据均衡命令：bin/start-balancer.sh–th

哥们要飞·2023-06-16 10:57

大数据面试题V3.0，约870篇牛客大数据面经480道面试题_笔经面经_牛客网

作者：蓦_然链接：大数据面试题V3.0，约870篇牛客大数据面经480道面试题_笔经面经_牛客网来源：牛客网大数据面试题V3.0一、前言大家好，我是蓦然。

javastart·2023-06-15 18:55

小白转行大数据的思考

背景通过大数据面试经验总结这篇文章遇到很多朋友，大多都在做一件事，开始学大数据了。

xwc35047·2023-06-12 04:49

大数据面试题汇总

Hadoop基础介绍下HadoopHadoop的特点说下Hadoop生态圈组件及其作用Hadoop主要分哪几个部分?他们有什么作用?Hadoop1.x，2x，3.x的区别Hadoop集群工作时启动哪些进程?它们有什么作用?在集群计算的时候，什么是集群的主要瓶颈搭建Hadoop集群的xml文件有哪些?Hadoop的checkpoint流程Hadoop的默认块大小是多少?为什么要设置这么大?Block

添柴少年yyds·2023-06-10 04:33

大数据面试题总结

1.说一下最近做的项目(1)我把实时简单说了一下，说的一般2.说一说为什么要数仓分层(1)把维度建模随便说了下，又扯了一下分层3.说一下数据倾斜(1)没回答好，hive只说了groupbyflink说了一下keyby的三种情况4.说一下hive小文件问题1.介绍了一下最近的项目，说的实时架构，又说了一下建模2.问hive优化3.问小文件问题4.问combinehiveinputformat是逻辑优

添柴少年yyds·2023-06-10 04:03

大数据面试题

1.说一下最近做的项目(1)我把实时简单说了一下，说的一般2.说一说为什么要数仓分层(1)把维度建模随便说了下，又扯了一下分层3.说一下数据倾斜(1)没回答好，hive只说了groupbyflink说了一下keyby的三种情况4.说一下hive小文件问题1.介绍了一下最近的项目，说的实时架构，又说了一下建模2.问hive优化3.问小文件问题4.问combinehiveinputformat是逻辑优

添柴少年yyds·2023-06-10 04:02

大数据面试题目（第一部分）

您对“大数据”一词有什么了解？当谈到"大数据"时，它是指处理和分析规模巨大、多样化且高速增长的数据集的技术和方法。这些数据通常无法在传统的数据库系统中轻松存储、处理和分析。大数据的特点包括数据量大、速度快、多样性高和价值密度低。以下是一些关键概念和技术与大数据相关：概念/技术说明分布式文件系统大数据通常存储在分布式文件系统中，例如HadoopDistributedFileSystem(HDFS)。

码视野·2023-06-07 02:54

大数据面试核心101问【大厂超级喜欢这些题】

之前出过《史上最全的大数据开发八股文》这篇文章，同学们都觉得还不错，但是有些同学觉得那个背起来还是有些吃力，于是我再次回顾了自己之前面试所有大厂的一些面试题以及牛客上面的一些面经，然后总结了频率问的最高的101问，包括了大数据、java、计算机网络、操作系统、数据库、HQL、场景题等内容注意：以下顺序就是按照科目来进行划分的，重要性不分先后HDFS的架构7HDFS的读写流程7小文件过多有什么危害，

三石大数据·2023-04-21 20:16

史上最全的2023最新大数据面试笔记【200+页，10w+字】

简介：我本硕都是双非计算机专业，研二开始学习大数据开发的相关知识，从找实习到秋招，投递过100+公司，拿到过10+的offer，包括滴滴、字节、蚂蚁、携程、蔚来、去哪儿等大厂，现在已经签约蚂蚁数据研发工程师。依稀还记得刚开始找工作，从零开始准备八股文的时候，心情超级浮躁，不知道该准备哪些内容（大数据组件实在太多了！！！），不知道哪些是重点，在这里感谢一下CSDN平台，提供了大量的面经，让我更快的抓

三石大数据·2023-04-21 20:39

Hive SQL经典面试题：统计连续登陆的三天及以上的用户

HiveSQL经典面试题最近发现一道大数据面试经常会问的SQL题目：统计连续登录的三天及以上的用户（或者类似的：连续3个月充值会员用户、连续N天购买商品的用户等），下面就来记录一下解题思路。

此木Y·2023-04-21 17:09

2023年大数据面试开胃菜

1、RDD中reduceBykey与groupByKey哪个性能好，为什么reduceByKey：reduceByKey会在结果发送至reducer之前会对每个mapper在本地进行merge，有点类似于在MapReduce中的combiner。这样做的好处在于，在map端进行一次reduce之后，数据量会大幅度减小，从而减小传输，保证reduce端能够更快的进行结果计算。groupByKey：g

风月歌·2023-04-18 11:12

2023年大数据面试开胃菜

1、kafka的message包括哪些信息一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成，header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic的值为1的时候，会在magic和crc32之间多一个字节的数据：attributes(保存一些相关属性，比如是否压缩、压缩格式等等)；如果mag

风月歌·2023-04-18 11:42

推荐频道

大数据面试

大数据面试题——HBase面试题总结

大数据面试题：Hadoop中的几个进程和作用

Spark学习之路 （七）Spark 运行流程

SparkSQL操作Hudi指南

大数据面试题：Kafka的ISR机制

大数据面试题：HBase的读写缓存

大数据面试题：HBase的RegionServer宕机以后怎么恢复的？

大数据面试题：超详细版MapReduce工作原理

大数据面试题：Kafka的单播和多播

大数据面试小抄

大数据面试题之Elasticsearch:每日三题(六)

大数据面试题之Elasticsearch:每日三题(七)

大数据面试题（三）Kafka

大数据面试-20210312

大数据面试题

大数据面试题：Kafka怎么保证数据不丢失，不重复？

大数据面试题：HBase读写数据流程

必问207道java架构和大数据面试题及答案

大数据面试题：Zookeeper架构

大数据面试题：Kafka怎么保证数据不丢失，不重复？

史上最全Hive面试题，高薪必备，架构必备

6道经典大数据面试题（ChatGPT回答版）

大数据_大数据常见面试问题

大数据面试题之Mysql:每日三题(四)

大数据面试题之Mysql:每日三题(五)

大数据面试基础回答

2023大数据面试总结

绝密100个Spark面试题，熟背100遍，猛拿高薪

大数据面试题Spark篇（1）

HBase为什么查询快

2020-10-24 大数据面试问题

史上最全Hadoop面试题：尼恩大数据面试宝典专题1

大数据面试题：Hive的cluster by 、sort by、distribute by 、order by 区别？

Hive的用户自定义函数实现步骤与流程

Hadoop的mapper和reducer的个数如何确定？reducer的个数依据是什么？

Hadoop的shuffle过程及调优

spark 面试题汇总

spark面试题总结（大数据面试）

【大数据面试】【项目开发经验】Hadoop、Flume、Kafka、Hive、MySQL、Sqoop、Azkaban、Spark...

大数据面试题V3.0，约870篇牛客大数据面经480道面试题_笔经面经_牛客网

小白转行大数据的思考

大数据面试题汇总

大数据面试题总结

大数据面试题

大数据面试题目（第一部分）

大数据面试核心101问【大厂超级喜欢这些题】

史上最全的2023最新大数据面试笔记【200+页，10w+字】

Hive SQL经典面试题：统计连续登陆的三天及以上的用户

2023年大数据面试开胃菜

2023年大数据面试开胃菜

Spark学习之路（七）Spark 运行流程