大数据面试第2页

大数据面试题2

1自我介绍2项目介绍3数据量+集群配置4遇到过哪些问题，反正数据倾斜5chlikhouse的计算引擎6接触过运维吗7flink版本8flink内存，托管内存干什么用的？9spark处理了哪些业务10flink类加载，两个类型了解吗11java垃圾回收机制12你感觉你的优势是什么13你工作的三年最有成就感的事应聘者二2022-11-26（1）介绍下你们项目的人员组成（2）你们集群规模（3）你们集群做

添柴少年yyds·2023-10-28 08:17

Apache Calcite 框架原理入门和生产应用

全网最全大数据面试提升手册！1.简介Calcite是什么？如果用一句话形容Calcite，Calcite是一个用于优化异构数据源的查询处理的基础框架。最近十几年来，出现了很多专门的数据处理引擎。

王知无(import_bigdata)·2023-10-27 16:47

大数据面试题汇总

结合自身面试经历，包括BAT、SF、中信等等公司所做的面试题汇总。主要包括以下几大类：一、spark相关1.Spark的Shuffle原理及调优？2.hadoop和spark使用场景？3.spark如何保证宕机迅速恢复?4.hadoop和spark的相同点和不同点？5.RDD持久化原理？6.checkpoint检查点机制？7.checkpoint和持久化机制的区别？8.SparkStreaming

kuntoria·2023-10-25 20:28

Flink去重第二弹：SQL方式

王知无(import_bigdata)·2023-10-23 02:14

大数据面试

转自：https://blog.csdn.net/qq_44868502/article/details/103202702山岭巨人杨尚桑大数据面试分享给大家一篇很好的面试题ConcurrentHashMap

takeuheart·2023-10-21 12:40

「硬刚Doris系列」官方常见问题小汇总

点击上方蓝色字体，选择“设为星标”回复"面试"获取更多惊喜轻戳有惊喜：全网最全大数据面试提升手册！

王知无(import_bigdata)·2023-10-14 04:50

大数据面试题Hbase篇

目录1.Hbase是什么？2.HBase的特点是什么？3.HBase和Hive的区别？4.描述HBase的rowKey的设计原则？5.请详细描述HBase中一个cell的结构？6.hbase中分布式存储的最小单元？7.简述HBase中compact用途是什么，什么时候触发，分为哪两种，有什么区别，有哪些相关配置参数？8.Region如何预建分区？9.HRegionServer宕机如何处理？10.H

后季暖·2023-10-13 23:23

大数据面试题：Spark和Flink的区别

面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字可回答：1）SparkStreaming和Flink的区别问过的一些公司：杰创智能科技(2022.11)，阿里蚂蚁

蓦然_·2023-10-12 08:54

大数据面试题：Spark和MapReduce之间的区别？各自优缺点？

面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字可回答：1）spark和maprecude的对比；2）mapreduce与spark优劣好处问过的一些公司：阿里云

蓦然_·2023-10-08 20:23

【大数据面试题】Spark-Core&；Spark-SQL

题解|#牛群排队#importjava.util.*;publicclassSolution{/***代码中的类名、方法名、参数名已经指定，请勿修改，题解|#计算一个数的阶乘##includeusingnamespacestd;intmain(){intn;cin&题解|#牛群喂食#importjava.util.*;publicclassSolution{/***代码中的类名、方法名、参数名已经

2301_78234743·2023-10-07 00:39

大数据面试题

第1章核心技术1.1Linux&Shell1.1.1Shell常用工具及写过的脚本1）awk、sed、cut、sort1.2Hadoop1.2.1Hadoop常用端口号hadoop2.xhadoop3.x访问HDFS端口500709870访问MR执行情况端口80888088历史服务器1988819888客户端访问集群端口900080201.2.2Hadoop配置文件配置文件：hadoop2.xco

_画一方禁地·2023-10-04 20:48

30个大数据常见面试题让您的薪资提升一个等级

但这个收获不仅仅需要你学到娴熟的大数据技术，还需要在面试之前精心准备，了解自己要应聘的企业发展状况、自己应聘岗位的技术要求等等，除此之外，多看一些大数据面试题也是很有必要的，给自

JACKbayue·2023-10-02 04:31

2023年大数据面试题--转载

@[TOC]2023年大数据面试题–转载(HDFS)和MapReduceHadoop是一个开源的分布式计算框架，由两部分组成：HadoopDistributedFileSystem(HDFS)和MapReduce

李先生真号·2023-09-29 01:22

最全BAT 大数据面试题及答案

1kafka的message包括哪些信息一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic的值为1的时候，会在magic和crc32之间多一个字节的数据：attributes(保存一些相关属性，比如是否压缩、压缩格式等等)；如果magic

疯狂的蚂蚁王·2023-09-27 03:20

大数据面试题：介绍下Kafka，Kafka的作用？Kafka的组件？适用场景？

Kafka是一种分布式、高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据，主要应用于大数据实时处理领域。简单地说，Kafka就相比是一个邮箱，生产者是发送邮件的人，消费者是接收邮件的人，Kafka就是用来存东西的，只不过它提供了一些处理邮件的机制。1、作用1）发布和订阅消息流2）以容错的方式记录消息流，kafka以文件的方式来存储消息流3）可以在消息发布的时候进行处理

蓦然_·2023-09-25 16:45

大数据面试题：Flink延迟数据是怎么解决的

最近朋友面试某猪的时候，被问到一个问题答得面试官不太满意，问的是前司数据延迟问题是怎么解决的，我稍作整理。一、什么是延迟数据大数据处理过程中Join的场景太多太多了，几乎所有公司的APP都会涉及到两条流数据之间的维度拼接，将表变宽等场景，避免不了进行多流Join操作。同时join场景中受网络或物理设备等因素影响也有可能，以致出现不同的流式数据到达计算引擎的时间不一定，那这些数据称为延迟数据。即延迟

后季暖·2023-09-25 16:12

Flink intervalJoin 使用与原理分析

王知无(import_bigdata)·2023-09-25 06:53

无精疯·2023-09-24 20:59

丢雷劳谋·2023-09-21 18:43

2023年大数据面试通关文牒系列篇

大数据面试通关文牒系列篇第二篇：Hadoop生态链Round1:HIVEHIVE基础篇1、Hive内部表和外部表的区别未被external修饰的是内部表，被external修饰的为外部表。

AuZn666·2023-09-20 19:42

阿里大数据架构师告诉你这些大数据面试题！你不看？

随着云时代的来临，大数据（Bigdata）也吸引了越来越多的关注。分析师团队认为，大数据（Bigdata）通常用来形容一个公司创造的大量非结构化数据和半结构化数据，这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起，因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。在这里相信有许多想要学习大数据的同学，大家可以

大数据学习02·2023-09-18 09:15

大数据面试知识点

大数据：1.离线数仓【ERP、电商、业务清楚、】1.业务熟悉2.技术架构3.数仓建设4.指标【5个】做过哪些指标如何做的2.spark工具：1.技术架构2.优点：3.实时指标yarn：1.背景2.好处3.具体实现3.回答技术点【简历上的】1.linux：1.pidport2.tail-f-F3.cat4.环境变量：个人全局5.常用的linux命令有哪些：ps-efnetstatfreetoptai

ODzongzi·2023-09-14 14:24

大数据面试总结《九》

上午去明略数据，面试官一直不到，有个临时的面试官先面了一次：1hdfsapi新特性2java7新特性3hive的默认分隔符4eclipse版本号之后正式面试官面试：1shell脚本sort，uniq-u，uniq-t，uniq-d，cat组合使用，解决从不同文件中找出相同数据的问题，还有解决只在一个文件中出现的数据的问题2java实现上述功能，在TB级别数据情况下，实现方案3java实现取出两个文

豆浆~油条·2023-09-09 15:14

大数据面试总结《八》

今天面了一家，上午两个小时技术面，下午两个小时hr面试问题如下：1jvm调优2redis工作原理LRU算法3hive原理，优化4线程同步5ha原理6mr数据倾斜解决办法7hive数据倾斜优化8远程通信技术9hdfs文件创建–工作流程10hbase部署11hdfs异步读12hdfsapi源码解答：文件创建工作流程13hive执行sql时的工作流程14webservice生命周期15对spring的理

豆浆~油条·2023-09-09 15:14

大数据面试总结《七》

上午第一家被虐的很惨，一直在追问项目中的一个项目，从设计架构，业务实现，为什么这样做，性能如何，等等问题，很多地方深入到项目中实现细节，没有答出来，1项目规模2000万用户日志数据总量在50-100TB每日数据500GB-1TB服务器16GB+8TB数据节点20台集群规模在30节点2lvs和nginx比较浮动ip，负载均衡面试官说，实际nginx就足够了，不需要lvs做高可用3sparkonyar

豆浆~油条·2023-09-09 15:44

大数据面试总结

目录前言一、Hadoop1.简要概念2.组件&作用3.守护线程&作用4.安全模式5.HDFS优缺点6.HDFS读写流程7.HDFS脑裂8.HA&Federation9.Yarn的请求&调度10.MapReduce的过程11.MR的代码&如何使用12.常用命令13.搭建&各配置文件作用14.遇到的问题&一些优化1.HDFS参数调优2.节点间数据均衡3.基准测试4.小文件问题5.Hadoop宕机处理二

起名到半夜·2023-09-09 15:44

2023大数据面试总结

进击的Z同学·2023-09-09 15:43

大数据面试题

Hadoop1,Hadoop集群中都需要启动那些进程,它们的作用分别是什么?NameNode:在hadoop的主服务器,在内存中保存整个文件系统的名称空间和文件数据块的地址映射.整个HDFS可存储的文件数量受限于NameNode的内存大小.NameNode负责文件元数据的操作.SecondaryNameNode:不是NameNode的冗余守护进程,而是提供周期检查和清理任务,帮助NameNode合

牛壹壹·2023-09-07 07:13

大数据面试题：MapReduce压缩方式

面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字可回答：1）Hadoop常见的压缩算法有哪些？

蓦然_·2023-09-03 05:46

大数据HBase学习圣经：一本书实现HBase学习自由

学习目标：三栖合一架构师本文是《大数据HBase学习圣经》V1版本，是《尼恩大数据面试宝典》姊妹篇。

40岁资深老架构师尼恩·2023-09-02 05:50

大数据面试题6 ---前面有用后面没用前面介绍真实情况算法

4.LVS和HAProxy相比，它的缺点是什么?之前，的确是用LVS进行过MySQL集群的负载均衡，对HAProxy也有过了解，但是将这两者放在眼前进行比较，还真没试着了解过。面试中出现了这么一题，面试官给予的答案是LVS的配置相当繁琐，后来查找了相关资料，对这两种负载均衡方案有了更进一步的了解。LVS的负载均衡性能之强悍已经达到硬件负载均衡的F5的百分之60了，而HAproxy的负载均衡和Ngi

okbin1991·2023-09-01 04:05

听说这10道大数据面试题把 98% 的求职者拒之BAT大厂门外（附解题方法）

写在前面最近不少读者找我要大数据面试题，我整理了很久，筛选出这10道容易出错的大数据面试题，希望对大家有所帮助。题目与解答整理自互联网，感谢分享这些面经的技术大牛们！

Java柚子·2023-08-30 11:25

Flink Table Store 独立孵化启动， Apache Paimon 诞生

全网最全大数据面试提升手册！

王知无(import_bigdata)·2023-08-30 03:48

大数据面试题：Spark的任务执行流程

面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字可回答：1）Spark的工作流程？

蓦然_·2023-08-20 20:02

大数据Flink学习圣经：一本书实现大数据Flink自由

学习目标：三栖合一架构师本文是《大数据Flink学习圣经》V1版本，是《尼恩大数据面试宝典》姊妹篇。

40岁资深老架构师尼恩·2023-08-19 10:47

大数据面试 | 05 分点整理后Shuffle也可以很简单

目录1.Shuffle的引入2.Shuffle过程3.Map端Shuffle4.ReduceShuffle1.Shuffle的引入Map是映射，负责数据的过滤分法，将原始数据转化为键值对;Reduce是合并，将具有相同的key值的value进行处理后再输出新的键值对作为最终结果。为了让Reduce可以并行处理Map的结果，必须对Map的输出进行一定的排序与分割，然后再交给对应的Reduce，Map

彬彬有李学数据·2023-08-17 19:20

大数据面试实际场景类问题怎么准备，实在遭不住了！

300万字！全网最全大数据学习面试社区等你来！前几天我发了一个面试总结的文章，实际场景类问题在大数据领域面试的占比越来越多。大家面试开始「务实」，在实际场景问题中，顺便增加对框架原理性内容的考察，这绝对是大数据领域内的一个进步，但是同时对工作经验较浅，平时缺少思考的同学们提出了巨大挑战！这篇文章总结一下，此类问题的背景和应对方式。背景我站在面试官的角度，认为实际场景问题的考察越来越多的原因主要是以

王知无(import_bigdata)·2023-08-16 18:02

大数据面试(java)题库汇总

文章目录大数据面试1.HDFS读写流程？1.1HDFS写流程1.2HDFS读流程2HDFSHA架构3小文件给hadoop带来的瓶劲问题3.1造成问题3.2IO问题，性能问题如何解决？

老鼠扛刀满街找猫@·2023-08-16 04:15

大数据面试题：说下Spark中的Transform和Action，为什么Spark要把操作分为Transform和Action？

面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字可回答：Spark常见的算子介绍一下参考答案：我们先来看下Spark算子的作用：下图描述了Spark在运行转换中通过算子对

蓦然_·2023-08-15 01:37

字节电商大数据开发一面，已过，面试题已配答案

面试题答案参考大数据面试题V3.0，523道题，679页，46w字1、实习经历这点不多说了，根据自己的来就行2、工作中最难的点一般都会提前回顾之前自己遇到的问题，根据自己的来3、如何保证数据质量这里主要是阿里对数仓的一些数据质量保证原则

蓦然_·2023-08-15 01:36

大数据面试题全面总结（范围广超详细）

（一）Hadoop面试题总结（二）——HDFSHadoop面试题总结（三）——MapReduceHadoop面试题（四）——YARNHadoop面试题总结（五）——优化问题Zookeeper面试题总结大数据面试题

蓦然_·2023-08-15 01:06

大数据面试题V2.0，641页，39w字

大家好，我是蓦然原文链接如下：大数据面试题V2.0，641页，39w字面试题来源：牛客网大数据面经，从约500篇面经选取。https://mp.weixin.qq.com/s?

蓦然_·2023-08-15 01:06

大数据面试题：介绍下Hadoop

1、先说下Hadoop是什么Hadoop是一个分布式系统基础架构，主要是为了解决海量数据的存储和海量数据的分析计算问题。2、说下Hadoop核心组件Hadoop自诞生以来，主要有Hadoop1.x、2.x、3.x三个系列多个版本；Hadoop1.x组成：HDFS（具有高可靠性、高吞吐量的分布式文件系统，用于数据存储），MapReduce（同时处理业务逻辑运算和资源的调度），Common（辅助工具，

蓦然_·2023-08-15 01:06

大数据面试题——HBase面试题总结

1、HBase的特点是什么？1）大：一个表可以有数十亿行，上百万列；2）无模式：每行都有一个可排序的主键和任意多的列，列可以根据需要动态的增加，同一张表中不同的行可以有截然不同的列；3）面向列：面向列（族）的存储和权限控制，列（族）独立检索；4）稀疏：空（null）列并不占用存储空间，表可以设计的非常稀疏；5）数据多版本：每个单元中的数据可以有多个版本，默认情况下版本号自动分配，是单元格插入时的时

蓦然_·2023-08-15 01:36

大数据面试题：Hadoop中的几个进程和作用

面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字可回答：1）启动Hadoop，都会有什么进程参考答案：1）NameNode：Master，它是一个主管、管理者管理

蓦然_·2023-08-15 01:06

Spark学习之路（七）Spark 运行流程

王知无(import_bigdata)·2023-08-14 14:09

SparkSQL操作Hudi指南

全网最全大数据面试提升手册！

王知无(import_bigdata)·2023-08-13 02:21

大数据面试题：Kafka的ISR机制

面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字可回答：1）从ISR踢出去之后呢；2）一般Leader怎么判断Follower挂掉？

蓦然_·2023-08-10 09:09

大数据面试题：HBase的读写缓存

面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字参考答案：HBase上RegionServer的cache主要分为两个部分：MemStore&BlockCache

蓦然_·2023-08-06 09:59

大数据面试题：HBase的RegionServer宕机以后怎么恢复的？

面试题来源：《大数据面试题V4.0》大数据面试题V3.0，523道题，679页，46w字可回答：1）HBase一个节点宕机了怎么办；2）HBase故障恢复参考答案：1、HBase常见故障导致RegionServer

蓦然_·2023-08-01 01:29

推荐频道

大数据面试

大数据面试题2

Apache Calcite 框架原理入门和生产应用

大数据面试题汇总

Flink去重第二弹：SQL方式

大数据面试

「硬刚Doris系列」官方常见问题小汇总

大数据面试题Hbase篇

大数据面试题：Spark和Flink的区别

大数据面试题：Spark和MapReduce之间的区别？各自优缺点？

【大数据面试题】Spark-Core&；Spark-SQL

大数据面试题

30个大数据常见面试题 让您的薪资提升一个等级

2023年大数据面试题--转载

最全BAT 大数据面试题及答案

大数据面试题：介绍下Kafka，Kafka的作用？Kafka的组件？适用场景？

大数据面试题：Flink延迟数据是怎么解决的

Flink intervalJoin 使用与原理分析

5W字讲解最新大数据面试题

大数据面试相关

2023年大数据面试通关文牒系列篇

阿里大数据架构师告诉你这些大数据面试题！你不看？

大数据面试知识点

大数据面试总结《九》

大数据面试总结《八》

大数据面试总结《七》

大数据面试总结

2023大数据面试总结

大数据面试题

大数据面试题：MapReduce压缩方式

大数据HBase学习圣经：一本书实现HBase学习自由

大数据面试题6 ---前面有用 后面没用 前面介绍真实情况算法

听说这10道大数据面试题把 98% 的求职者拒之BAT大厂门外（附解题方法）

Flink Table Store 独立孵化启动 ， Apache Paimon 诞生

大数据面试题：Spark的任务执行流程

大数据Flink学习圣经：一本书实现大数据Flink自由

大数据面试 | 05 分点整理后Shuffle也可以很简单

大数据面试实际场景类问题怎么准备，实在遭不住了！

大数据面试(java)题库汇总

大数据面试题：说下Spark中的Transform和Action，为什么Spark要把操作分为Transform和Action？

字节电商大数据开发一面，已过，面试题已配答案

大数据面试题全面总结（范围广超详细）

大数据面试题V2.0，641页，39w字

大数据面试题：介绍下Hadoop

大数据面试题——HBase面试题总结

大数据面试题：Hadoop中的几个进程和作用

Spark学习之路 （七）Spark 运行流程

SparkSQL操作Hudi指南

大数据面试题：Kafka的ISR机制

大数据面试题：HBase的读写缓存

大数据面试题：HBase的RegionServer宕机以后怎么恢复的？

30个大数据常见面试题让您的薪资提升一个等级

大数据面试题6 ---前面有用后面没用前面介绍真实情况算法

Flink Table Store 独立孵化启动， Apache Paimon 诞生

Spark学习之路（七）Spark 运行流程