E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
大数据面试题
大数据面试题
:说下为什么要使用Hive?Hive的优缺点?Hive的作用是什么?
1、为什么要使用Hive?Hive是Hadoop生态系统中比不可少的一个工具,它提供了一种SQL(结构化查询语言)方言,可以查询存储在Hadoop分布式文件系统(HDFS)中的数据或其他和Hadoop集成的文件系统,如MapR-FS、Amazon的S3和像HBase(Hadoop数据仓库)和Cassandra这样的数据库中的数据。大多数数据仓库应用程序都是使用关系数据库进行实现的,并使用SQL作为
蓦然_
·
2024-09-08 15:50
大数据面试题
hive
大数据开发面试题
大数据面试
【
大数据面试题
】014 Flink CDC 用过吗,请简要描述
一步一个脚印,一天一道面试题。FlinkCDC的诞生背景FlinkCDC的全称是ChangeDataCapture(变更数据捕获)每一项技术的诞生都是为了解决某个问题,某个痛点。而FlinkCDC的诞生就是为了解决在读取,监控MySQL这样的数据库时,不会因为读取数据库,对数据库本身造成压力,影响性能。同时,保证了数据源的准确,正确。FlinkCDC原理方式一:通过查询来获取更新的数据。如查询数据
Jiweilai1
·
2024-03-20 04:43
一天一道面试题
flink
大数据
面试
flink
cdc
【
大数据面试题
】009 Flink 有哪些机制实现故障恢复
一步一个脚印,一天一道面试题(重点)容错检查点(Checkpoint):Flink使用容错检查点来定期记录应用程序的状态。检查点包含了所有正在进行中的任务的状态信息。当发生故障时,Flink可以使用最近的检查点来恢复应用程序的状态。#从检查点恢复$bin/flinkrun-s:savepointPath容错恢复策略:Flink提供了多种容错恢复策略,可以根据具体的需求进行配置。例如,可以设置重启策
Jiweilai1
·
2024-02-19 13:05
大数据
flink
【
大数据面试题
】007 谈一谈 Flink 背压
一步一个脚印,一天一道面试题(有些难点的面试题不一定每天都能发,但每天都会写)什么是背压Backpressure在流式处理框架中,如果下游的处理速度,比上游的输入数据小,就会导致程序处理慢,不稳定,甚至出现崩溃等问题。出现背压的原因上游数据突然增大比如数据源突然数据量增大多倍,下游处理速度跟不上。就像平时的小饭店能处理的很轻松,突然到了过年人多了很多,就会需要客人排队。网络,机器异常等这个也好理解
Jiweilai1
·
2024-02-19 13:35
一天一道面试题
大数据
flink
kafka
hdfs
hadoop
【
大数据面试题
】006介绍一下Parquet存储格式的优势
一步一个脚印,一天一道面试题列式存储同一列的数据是同一种数据类型,所以压缩比例可以更高。同时一般查询使用时不会使用所有列,而是只用到几列,所以查询速度会更快压缩比例高因为是列式存储,所以可以对同一类型的一段做压缩,压缩比例高支持的平台和框架多在Hadoop,Spark,Presto,Python等都支持,所以Parquet文件可以在不同系统和语言通用。这是我觉得比较实在的优势
Jiweilai1
·
2024-02-19 13:34
一天一道面试题
大数据
spark
hadoop
【
大数据面试题
】008 谈一谈 Flink Slot 与 并行度
【
大数据面试题
】008谈一谈FlinkSlot与并行度配置并行度Parallelism概念作用Slot概念作用如何设置TaskManager任务管理器Flinksubmit脚本一步一个脚印,一天一道面试题该文章有较多引用文章
Jiweilai1
·
2024-02-19 13:01
一天一道面试题
大数据
flink
【
大数据面试题
】Flink第一弹60连发
感谢胖子大佬提供的企业面试题。本文因为时间关系只有部分答案,后续的答案小编会持续补全,请持续关注本系列。年后升职加薪就靠它了。胖子大佬就在交流群里,需要加群的公众号回复【加群】。更多面试题可以参考:《Flink面试通关手册》1、Flink如何保证精确一次性消费Flink保证精确一次性消费主要依赖于两种Flink机制1、Checkpoint机制2、二阶段提交机制Checkpoint机制主要是当Fli
王知无(import_bigdata)
·
2024-02-08 14:26
大数据面试题
之 Flink
Flink基础架构组成?Flink程序在运行时主要有TaskManager,JobManager,Client三种角色。JobManager是集群的老大,负责接收FlinkJob,协调检查点,Failover故障恢复等,同时管理TaskManager。包含:Dispatcher、ResourceManager、JobMaster。TaskManager是执行计算的节点,每个TaskManager负
尚硅谷铁粉
·
2024-02-08 14:26
大数据
flink
【
大数据面试题
】004 Flink状态后端是什么
一步一个脚印,一天一道
大数据面试题
。在实时处理中,状态管理是十分常用的。比如监控某些数据是否一直快速增长。那就需要记录到之前的状态,数值。那作为最热门的实时处理框架,Flink对状态管理是有一套的。
Jiweilai1
·
2024-02-08 14:25
一天一道面试题
大数据
flink
【
大数据面试题
】005 谈一谈 Flink Watermark 水印
一步一个脚印,一天一道面试题。感觉我现在很难把水印描述的很好,但,完成比完美更重要。后续我再补充。各位如果有什么建议或补充也欢迎留言。在实时处理任务时,由于网络延迟,人工异常,各种问题,数据往往会出现乱序,不按照我们的预期到达处理框架。WaterMark水印,就是为了一定程度的解决数据,延迟乱序问题的。使用WaterMark一般有以下几个步骤:定义时间特性(Flink1.12已废弃,默认使用事件时
Jiweilai1
·
2024-02-08 07:54
一天一道面试题
大数据
flink
【
大数据面试题
】002 Flink 如何实现 Exactly-Once 语义
一步一个脚印,一天一道
大数据面试题
。在流式大数据处理框架中,Exactly-Once语义对于确保每条数据精确地只被消费一次(避免重复读取和丢失读取)非常重要。
Jiweilai1
·
2024-02-05 13:54
一天一道面试题
大数据
flink
【
大数据面试题
】001 Flink 的 Checkpoint 原理
一步一个脚印,一天一道
大数据面试题
。Flink是大数据实时处理计算框架。实时框架对检查点,错误恢复的功能要比离线的更复杂,所以一起来了解Flink的Checkpoint机制吧。
Jiweilai1
·
2024-02-04 07:13
一天一道面试题
大数据
flink
大数据面试题
---阿善有用
大数据工程师面试题1.选择题1.1.下面哪个程序负责HDFS数据存储。a)NameNodeb)Jobtrackerc)Datanoded)secondaryNameNodee)tasktracker答案Cdatanode1.2.HDfS中的block默认保存几份?答案A默认3份1.3.下列哪个程序通常与NameNode在一个节点启动?a)SecondaryNameNodeb)DataNodec)T
okbin1991
·
2024-02-03 15:21
大数据
hadoop
hdfs
java
分布式
【
大数据面试题
】HBase面试题附答案
目录1.介绍下HBase2.HBase优缺点3.介绍下的HBase的架构4.HBase的读写缓存5.在删除HBase中的一个数据的时候,它是立马就把数据删除掉了吗?6.HBase中的二级索引7.HBase的RegionServer宕机以后怎么恢复的?8.HBase的一个region由哪些东西组成?9.HBase高可用怎么实现的?10.为什么HBase适合写多读少业务?11.列式数据库的适用场景和优
话数Science
·
2024-01-26 19:42
面试
大数据
大数据
hbase
数据库
大厂
大数据面试题
收录(1)
目录1.java中object类有哪些方法?2.说一下==和equals的区别?3.为什么要重写equals和hashcode()方法?4.机器学习中,监督学习和无监督学习的区别是啥??5.kafka组件熟悉吗,kafka如何实现消息的有序的?6.在大数据组件中,你们一般用的资源管理框架是哪个?7.那你能谈一下yarn的基础架构及调度流程吗?8.Hivesql到MapReduce转化的流程清楚吗?
后季暖
·
2024-01-23 11:49
java
开发语言
大数据面试题
-1
一、map-reduce原理map过程:1.1读取HDFS中的文件。每一行解析成一个。每一个键值对调用一次map函数。1.2覆盖map(),接收1.1产生的,进行处理,转换为新的输出。1.3对1.2输出的进行分区。默认分为一个区。1.4对不同分区中的数据进行排序(按照k)、分组。分组指的是相同key的value放到一个集合中。排序后:分组后:1.5(可选)对分组后的数据进行归约。Reduce任务处
edwin1993
·
2023-12-27 19:29
【美团大数据面试】
大数据面试题
附答案
目录1.hdfs读写流程解析2.hdfs副本机制,三副本原因,副本存放策略3.hdfs容错机制原理4.MapReduce执行流程详解5.spark和mr的区别6.TopN求法,大数据量无法完全写入内存解决方案,MapReduce实现方法7.spark部署、调度原理8.spark的stage划分方法9.reducejoin执行过程10.大数据量join优化方法11.hive优化手段12.hiveSQ
话数Science
·
2023-12-25 11:19
大数据
面试
大数据
面试
大数据面试题
_实时计算部分
1.zookeeper在kafka中起到什么作用Controller选举Controller是一个特殊的Broker,其负责维护所有Partition的leader/follower关系。当有partition的leader挂掉之后,controller会重新从同步队列中选出一个leader。==Zookeeper负责从Broker中选举出一个作为Controller,并确保其唯一性。同时,当Co
执于代码
·
2023-11-01 02:01
大数据面试题
2
1自我介绍2项目介绍3数据量+集群配置4遇到过哪些问题,反正数据倾斜5chlikhouse的计算引擎6接触过运维吗7flink版本8flink内存,托管内存干什么用的?9spark处理了哪些业务10flink类加载,两个类型了解吗11java垃圾回收机制12你感觉你的优势是什么13你工作的三年最有成就感的事应聘者二2022-11-26(1)介绍下你们项目的人员组成(2)你们集群规模(3)你们集群做
添柴少年yyds
·
2023-10-28 08:17
大数据
java
开发语言
大数据面试题
汇总
结合自身面试经历,包括BAT、SF、中信等等公司所做的面试题汇总。主要包括以下几大类:一、spark相关1.Spark的Shuffle原理及调优?2.hadoop和spark使用场景?3.spark如何保证宕机迅速恢复?4.hadoop和spark的相同点和不同点?5.RDD持久化原理?6.checkpoint检查点机制?7.checkpoint和持久化机制的区别?8.SparkStreaming
kuntoria
·
2023-10-25 20:28
Flink去重第二弹:SQL方式
《2021年最新版
大数据面试题
全面开启更新》本篇介绍如何使用sql方式完成去重。
王知无(import_bigdata)
·
2023-10-23 02:14
Flink系统性学习专栏
flink
sql
爬虫
大数据面试题
Hbase篇
目录1.Hbase是什么?2.HBase的特点是什么?3.HBase和Hive的区别?4.描述HBase的rowKey的设计原则?5.请详细描述HBase中一个cell的结构?6.hbase中分布式存储的最小单元?7.简述HBase中compact用途是什么,什么时候触发,分为哪两种,有什么区别,有哪些相关配置参数?8.Region如何预建分区?9.HRegionServer宕机如何处理?10.H
后季暖
·
2023-10-13 23:23
hbase
大数据
分布式
大数据面试题
:Spark和Flink的区别
面试题来源:《
大数据面试题
V4.0》
大数据面试题
V3.0,523道题,679页,46w字可回答:1)SparkStreaming和Flink的区别问过的一些公司:杰创智能科技(2022.11),阿里蚂蚁
蓦然_
·
2023-10-12 08:54
大数据面试题
大数据
spark
flink
大数据面试题
:Spark和MapReduce之间的区别?各自优缺点?
面试题来源:《
大数据面试题
V4.0》
大数据面试题
V3.0,523道题,679页,46w字可回答:1)spark和maprecude的对比;2)mapreduce与spark优劣好处问过的一些公司:阿里云
蓦然_
·
2023-10-08 20:23
大数据面试题
大数据
面试
【
大数据面试题
】Spark-Core&;Spark-SQL
题解|#牛群排队#importjava.util.*;publicclassSolution{/***代码中的类名、方法名、参数名已经指定,请勿修改,题解|#计算一个数的阶乘##includeusingnamespacestd;intmain(){intn;cin&题解|#牛群喂食#importjava.util.*;publicclassSolution{/***代码中的类名、方法名、参数名已经
2301_78234743
·
2023-10-07 00:39
java
大数据面试题
第1章核心技术1.1Linux&Shell1.1.1Shell常用工具及写过的脚本1)awk、sed、cut、sort1.2Hadoop1.2.1Hadoop常用端口号hadoop2.xhadoop3.x访问HDFS端口500709870访问MR执行情况端口80888088历史服务器1988819888客户端访问集群端口900080201.2.2Hadoop配置文件配置文件:hadoop2.xco
_画一方禁地
·
2023-10-04 20:48
hadoop
hive
30个大数据常见面试题 让您的薪资提升一个等级
但这个收获不仅仅需要你学到娴熟的大数据技术,还需要在面试之前精心准备,了解自己要应聘的企业发展状况、自己应聘岗位的技术要求等等,除此之外,多看一些
大数据面试题
也是很有必要的,给自
JACKbayue
·
2023-10-02 04:31
2023年
大数据面试题
--转载
@[TOC]2023年
大数据面试题
–转载(HDFS)和MapReduceHadoop是一个开源的分布式计算框架,由两部分组成:HadoopDistributedFileSystem(HDFS)和MapReduce
李先生真号
·
2023-09-29 01:22
大数据
hadoop
hdfs
最全BAT
大数据面试题
及答案
1kafka的message包括哪些信息一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic的值为1的时候,会在magic和crc32之间多一个字节的数据:attributes(保存一些相关属性,比如是否压缩、压缩格式等等);如果magic
疯狂的蚂蚁王
·
2023-09-27 03:20
大数据面试题
:介绍下Kafka,Kafka的作用?Kafka的组件?适用场景?
Kafka是一种分布式、高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据,主要应用于大数据实时处理领域。简单地说,Kafka就相比是一个邮箱,生产者是发送邮件的人,消费者是接收邮件的人,Kafka就是用来存东西的,只不过它提供了一些处理邮件的机制。1、作用1)发布和订阅消息流2)以容错的方式记录消息流,kafka以文件的方式来存储消息流3)可以在消息发布的时候进行处理
蓦然_
·
2023-09-25 16:45
大数据面试题
kafka
大数据面试题
大数据开发
大数据面试题
:Flink延迟数据是怎么解决的
最近朋友面试某猪的时候,被问到一个问题答得面试官不太满意,问的是前司数据延迟问题是怎么解决的,我稍作整理。一、什么是延迟数据大数据处理过程中Join的场景太多太多了,几乎所有公司的APP都会涉及到两条流数据之间的维度拼接,将表变宽等场景,避免不了进行多流Join操作。同时join场景中受网络或物理设备等因素影响也有可能,以致出现不同的流式数据到达计算引擎的时间不一定,那这些数据称为延迟数据。即延迟
后季暖
·
2023-09-25 16:12
flink
大数据
Flink intervalJoin 使用与原理分析
《2021年最新版
大数据面试题
全面开启更新》在上一篇的分析【FlinkDataStream中CoGroup实现原理与三种join实现】中基于DataStream的join只能实现在同一个窗口的两个数据流之间进行
王知无(import_bigdata)
·
2023-09-25 06:53
Flink系统性学习专栏
flink
爬虫
面试
5W字讲解最新
大数据面试题
此套面试题来自于各大厂的真实面试题及常问的知识点,如果能理解吃透这些问题,你的大数据能力将会大大提升,进入大厂指日可待复习
大数据面试题
,看这一套就够了!
无精疯
·
2023-09-24 20:59
lamp
scipy
zk
makefile
crm
阿里大数据架构师告诉你这些
大数据面试题
!你不看?
随着云时代的来临,大数据(Bigdata)也吸引了越来越多的关注。分析师团队认为,大数据(Bigdata)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。在这里相信有许多想要学习大数据的同学,大家可以
大数据学习02
·
2023-09-18 09:15
大数据面试题
Hadoop1,Hadoop集群中都需要启动那些进程,它们的作用分别是什么?NameNode:在hadoop的主服务器,在内存中保存整个文件系统的名称空间和文件数据块的地址映射.整个HDFS可存储的文件数量受限于NameNode的内存大小.NameNode负责文件元数据的操作.SecondaryNameNode:不是NameNode的冗余守护进程,而是提供周期检查和清理任务,帮助NameNode合
牛壹壹
·
2023-09-07 07:13
大数据
java
开发语言
大数据面试题
:MapReduce压缩方式
面试题来源:《
大数据面试题
V4.0》
大数据面试题
V3.0,523道题,679页,46w字可回答:1)Hadoop常见的压缩算法有哪些?
蓦然_
·
2023-09-03 05:46
大数据面试题
大数据
mapreduce
面试
大数据面试题
6 ---前面有用 后面没用 前面介绍真实情况算法
4.LVS和HAProxy相比,它的缺点是什么?之前,的确是用LVS进行过MySQL集群的负载均衡,对HAProxy也有过了解,但是将这两者放在眼前进行比较,还真没试着了解过。面试中出现了这么一题,面试官给予的答案是LVS的配置相当繁琐,后来查找了相关资料,对这两种负载均衡方案有了更进一步的了解。LVS的负载均衡性能之强悍已经达到硬件负载均衡的F5的百分之60了,而HAproxy的负载均衡和Ngi
okbin1991
·
2023-09-01 04:05
大数据
java
服务器
负载均衡
开发语言
听说这10道
大数据面试题
把 98% 的求职者拒之BAT大厂门外(附解题方法)
写在前面最近不少读者找我要
大数据面试题
,我整理了很久,筛选出这10道容易出错的
大数据面试题
,希望对大家有所帮助。题目与解答整理自互联网,感谢分享这些面经的技术大牛们!
Java柚子
·
2023-08-30 11:25
大数据面试题
:Spark的任务执行流程
面试题来源:《
大数据面试题
V4.0》
大数据面试题
V3.0,523道题,679页,46w字可回答:1)Spark的工作流程?
蓦然_
·
2023-08-20 20:02
大数据面试题
大数据
spark
面试
大数据面试题
:说下Spark中的Transform和Action,为什么Spark要把操作分为Transform和Action?
面试题来源:《
大数据面试题
V4.0》
大数据面试题
V3.0,523道题,679页,46w字可回答:Spark常见的算子介绍一下参考答案:我们先来看下Spark算子的作用:下图描述了Spark在运行转换中通过算子对
蓦然_
·
2023-08-15 01:37
大数据面试题
大数据
spark
面试
字节电商大数据开发一面,已过,面试题已配答案
面试题答案参考
大数据面试题
V3.0,523道题,679页,46w字1、实习经历这点不多说了,根据自己的来就行2、工作中最难的点一般都会提前回顾之前自己遇到的问题,根据自己的来3、如何保证数据质量这里主要是阿里对数仓的一些数据质量保证原则
蓦然_
·
2023-08-15 01:36
大数据面试题
数据仓库
大数据
面试
大数据面试题
全面总结(范围广超详细)
(一)Hadoop面试题总结(二)——HDFSHadoop面试题总结(三)——MapReduceHadoop面试题(四)——YARNHadoop面试题总结(五)——优化问题Zookeeper面试题总结
大数据面试题
蓦然_
·
2023-08-15 01:06
大数据面试题
大数据面试总结
Spark
大数据
Hadoop
Kafka
大数据面试题
V2.0,641页,39w字
大家好,我是蓦然原文链接如下:
大数据面试题
V2.0,641页,39w字面试题来源:牛客网大数据面经,从约500篇面经选取。https://mp.weixin.qq.com/s?
蓦然_
·
2023-08-15 01:06
大数据面试题
大数据
大数据开发面试题
大数据面试
大数据面试题
:介绍下Hadoop
1、先说下Hadoop是什么Hadoop是一个分布式系统基础架构,主要是为了解决海量数据的存储和海量数据的分析计算问题。2、说下Hadoop核心组件Hadoop自诞生以来,主要有Hadoop1.x、2.x、3.x三个系列多个版本;Hadoop1.x组成:HDFS(具有高可靠性、高吞吐量的分布式文件系统,用于数据存储),MapReduce(同时处理业务逻辑运算和资源的调度),Common(辅助工具,
蓦然_
·
2023-08-15 01:06
大数据面试题
hadoop
mapreduce
hdfs
yarn
大数据面试题
——HBase面试题总结
1、HBase的特点是什么?1)大:一个表可以有数十亿行,上百万列;2)无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态的增加,同一张表中不同的行可以有截然不同的列;3)面向列:面向列(族)的存储和权限控制,列(族)独立检索;4)稀疏:空(null)列并不占用存储空间,表可以设计的非常稀疏;5)数据多版本:每个单元中的数据可以有多个版本,默认情况下版本号自动分配,是单元格插入时的时
蓦然_
·
2023-08-15 01:36
大数据面试题
hbase
大数据
大数据面试题
大数据面试题
:Hadoop中的几个进程和作用
面试题来源:《
大数据面试题
V4.0》
大数据面试题
V3.0,523道题,679页,46w字可回答:1)启动Hadoop,都会有什么进程参考答案:1)NameNode:Master,它是一个主管、管理者管理
蓦然_
·
2023-08-15 01:06
大数据面试题
大数据
hadoop
面试
Spark学习之路 (七)Spark 运行流程
《2021年最新版
大数据面试题
全面开启更新》欢迎关注github《大数据成神之路》目录一、Spark中的基本概念二、Spark的运行流程2.1Spark的基本运行流程三、Spark在不同集群中的运行架构
王知无(import_bigdata)
·
2023-08-14 14:09
Spark系统性学习专栏
大数据面试题
:Kafka的ISR机制
面试题来源:《
大数据面试题
V4.0》
大数据面试题
V3.0,523道题,679页,46w字可回答:1)从ISR踢出去之后呢;2)一般Leader怎么判断Follower挂掉?
蓦然_
·
2023-08-10 09:09
大数据
kafka
分布式
大数据面试题
:HBase的读写缓存
面试题来源:《
大数据面试题
V4.0》
大数据面试题
V3.0,523道题,679页,46w字参考答案:HBase上RegionServer的cache主要分为两个部分:MemStore&BlockCache
蓦然_
·
2023-08-06 09:59
大数据面试题
大数据
hbase
面试
大数据面试题
:HBase的RegionServer宕机以后怎么恢复的?
面试题来源:《
大数据面试题
V4.0》
大数据面试题
V3.0,523道题,679页,46w字可回答:1)HBase一个节点宕机了怎么办;2)HBase故障恢复参考答案:1、HBase常见故障导致RegionServer
蓦然_
·
2023-08-01 01:29
大数据面试题
大数据
hbase
面试
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他