E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
大数据面试题
大数据面试题
:超详细版MapReduce工作原理
面试题来源:《
大数据面试题
V4.0》
大数据面试题
V3.0,523道题,679页,46w字参考答案:MapReduce详细流程:1、准备待处理文件(200M)2、submit()对原始文件进行切片分析(128M
蓦然_
·
2023-07-31 11:41
大数据面试题
大数据
mapreduce
面试
大数据面试题
:Kafka的单播和多播
面试题来源:《
大数据面试题
V4.0》
大数据面试题
V3.0,523道题,679页,46w字参考答案:1、单播一条消息只能被某一个消费者消费的模式称为单播。
蓦然_
·
2023-07-31 11:10
大数据面试题
大数据
面试
kafka
大数据面试题
之Elasticsearch:每日三题(六)
大数据面试题
之Elasticsearch:每日三题1.为什么要使用Elasticsearch?2.Elasticsearch的master选举流程?3.Elasticsearch集群脑裂问题?
(YSY_YSY)
·
2023-07-28 18:06
大数据
elasticsearch
搜索引擎
大数据面试题
之Elasticsearch:每日三题(七)
大数据面试题
之Elasticsearch:每日三题1.Elasticsearch索引文档的流程?2.Elasticsearch更新和删除文档的流程?3.Elasticsearch搜索的流程?
(YSY_YSY)
·
2023-07-28 18:04
大数据
elasticsearch
搜索引擎
大数据面试题
(三)Kafka
三.Kafka目录1.Kafka名词解释和工作方式2.Consumer与topic关系3.kafka中生产数据的时候,如何保证写入的容错性?4.如何保证kafka消费者消费数据是全局有序的5.列举kafka的优点,简述kafka为什么可以做到每秒数十万甚至上百万消息的高效分发?6.为什么离线分析要用kafka7.kafka怎么进行监控8.kafka与传统消息队列有什么不同9.kafka的ISR副本
敲代码的彭于晏
·
2023-07-27 23:18
大数据
kafka
big
data
java
大数据面试题
MySQL索引有哪些1.普通索引index:加速查找2.唯一索引主键索引:primarykey:加速查找+约束(不为空且唯一)唯一索引:unique:加速查找+约束(唯一)3.联合索引-primarykey(id,name):联合主键索引-unique(id,name):联合唯一索引-index(id,name):联合普通索引4.全文索引fulltext:用于搜索很长一篇文章的时候,效果最好。5.
陪自己长大
·
2023-07-25 04:22
大数据
hadoop
hdfs
大数据面试题
:Kafka怎么保证数据不丢失,不重复?
面试题来源:《
大数据面试题
V4.0》
大数据面试题
V3.0,523道题,679页,46w字可回答:Kafka如何保证生产者不丢失数据,消费者不丢失数据?
蓦然_
·
2023-07-25 04:52
大数据面试题
大数据
kafka
面试
大数据面试题
:HBase读写数据流程
面试题来源:《
大数据面试题
V4.0》
大数据面试题
V3.0,523道题,679页,46w字参考答案:1、写数据流程1)Client先访问zookeeper,获取hbase:meta表位于哪个RegionServer
蓦然_
·
2023-07-25 04:51
大数据面试题
大数据
hbase
面试
必问207道java架构和
大数据面试题
及答案
前言相信大家在面试中都会遇到很多很难回答的问题,以至于面试不是很成功,进入公司后薪资会偏少一些!有的人会说,这面试官是不是故意刁难我呢?怎么这些问题我都不会啊!小编觉得呢,说到底还是大家的知识储备或者面试经验太少了,知识储备和面试经验都是是可以靠自己来学习积累的,下面小编就分享下总结的面试四点经验:1.不会就不会。我比较爽快,如果遇到的不会的甚至是不确定的,都直接说:“对不起,我答不上来”之类的。
Java技术那些事儿
·
2023-07-25 04:48
java
面试
大数据
后端
大数据面试题
:Zookeeper架构
面试题来源:《
大数据面试题
V4.0》
大数据面试题
V3.0,523道题,679页,46w字可回答:1)说一说Zookeeper中的角色问过的一些公司:京东提前批(2020.07),蘑菇街实习(2020.03
蓦然_
·
2023-07-25 04:17
大数据面试题
大数据
zookeeper
架构
大数据面试题
:Kafka怎么保证数据不丢失,不重复?
面试题来源:《
大数据面试题
V4.0》
大数据面试题
V3.0,523道题,679页,46w字参考答案:存在数据丢失的几种情况使用同步模式的时候,有3种状态保证消息被安全生产,在配置为1(只保证写入leader
蓦然_
·
2023-07-24 17:36
大数据面试题
大数据
kafka
面试
6道经典
大数据面试题
(ChatGPT回答版)
1、HDFS读写流程是什么?HDFS(HadoopDistributedFileSystem)的读写流程如下:写流程:客户端向NameNode发送写请求,请求在HDFS上创建一个新的文件。NameNode为该文件分配一些数据块(默认情况下为128MB)以及在哪些DataNode上存储这些数据块的信息。NameNode向客户端返回可用于写入数据的DataNode列表。客户端选择最近的DataNode
大数据流动
·
2023-07-23 13:29
大数据
hadoop
hdfs
mapreduce
java
大数据面试题
之Mysql:每日三题(四)
大数据面试题
之Mysql:每日三题为什么使用索引1.索引的优缺点2.普通索引,唯一索引,主键索引,联合索引的区别3.MySQL有哪些锁我很喜欢的一句勉励今天的自己和大家:“人生当中成功只是一时,失败却是主旋律
(YSY_YSY)
·
2023-07-22 06:51
大数据面试题
mysql
数据库
java
大数据面试题
之Mysql:每日三题(五)
大数据面试题
之Mysql:每日三题1.MySQL索引存储结构(六种)2.on和where的区别3.mysql是怎么查重的?
(YSY_YSY)
·
2023-07-22 06:51
大数据
mysql
数据结构
大数据面试题
Spark篇(1)
目录1.spark数据倾斜2.Spark为什么比mapreduce快?3.hadoop和spark使用场景?4.spark宕机怎么迅速恢复?5.RDD持久化原理?6.checkpoint检查点机制7.checkpoint和持久化的区别8.说一下RDD的血缘9.宽依赖函数,窄依赖函数分别有哪些?10.谈一谈RDD的容错机制?11.谈一谈你对RDD的理解12.Spark主备切换机制原理知道吗1.spa
后季暖
·
2023-07-15 02:24
大数据
spark
分布式
HBase为什么查询快
面试题来源:《
大数据面试题
V4.0》
大数据面试题
V3.0,523道题,679页,46w字可回答:1)HBase为什么读快;2)HBase是根据rowkey查询,当数据量相当大的时候,是怎么读的很快的参考答案
蓦然_
·
2023-06-23 10:28
大数据面试题
hbase
大数据
面试
大数据面试题
:Hive的cluster by 、sort by、distribute by 、order by 区别?
面试题来源:《
大数据面试题
V4.0》
大数据面试题
V3.0,523道题,679页,46w字参考答案:可回答:1)Hive的排序函数;2)Hive的排序,以及各自的区别;3)四个by的区别?
蓦然_
·
2023-06-20 20:36
大数据面试题
hive
面试
大数据
Hive的用户自定义函数实现步骤与流程
面试题来源:《
大数据面试题
V4.0》
大数据面试题
V3.0,523道题,679页,46w字参考答案:1、如何构建UDF?
蓦然_
·
2023-06-18 14:09
大数据面试题
Hive
hive
大数据
面试
Hadoop的mapper和reducer的个数如何确定?reducer的个数依据是什么?
面试题来源:《
大数据面试题
V4.0》
大数据面试题
V3.0,523道题,679页,46w字参考答案:map数量影响map个数(split个数)的主要因素有:文件的大小。
蓦然_
·
2023-06-18 14:09
大数据面试题
Hadoop
hadoop
大数据
面试
spark 面试题汇总
大数据面试题
汇总
大数据面试题
汇总-简书spark资源调优1、列式存储和行式存储的区别行存储,数据行存储,一个文件可表达一个二维表。
四月天03
·
2023-06-16 22:44
Spark
spark
big
data
hadoop
大数据面试题
V3.0,约870篇牛客大数据面经480道面试题_笔经面经_牛客网
作者:蓦_然链接:
大数据面试题
V3.0,约870篇牛客大数据面经480道面试题_笔经面经_牛客网来源:牛客网
大数据面试题
V3.0一、前言大家好,我是蓦然。
javastart
·
2023-06-15 18:55
大数据
hadoop
hdfs
大数据
大数据面试题
汇总
Hadoop基础介绍下HadoopHadoop的特点说下Hadoop生态圈组件及其作用Hadoop主要分哪几个部分?他们有什么作用?Hadoop1.x,2x,3.x的区别Hadoop集群工作时启动哪些进程?它们有什么作用?在集群计算的时候,什么是集群的主要瓶颈搭建Hadoop集群的xml文件有哪些?Hadoop的checkpoint流程Hadoop的默认块大小是多少?为什么要设置这么大?Block
添柴少年yyds
·
2023-06-10 04:33
hadoop
大数据
hdfs
大数据面试题
总结
1.说一下最近做的项目(1)我把实时简单说了一下,说的一般2.说一说为什么要数仓分层(1)把维度建模随便说了下,又扯了一下分层3.说一下数据倾斜(1)没回答好,hive只说了groupbyflink说了一下keyby的三种情况4.说一下hive小文件问题1.介绍了一下最近的项目,说的实时架构,又说了一下建模2.问hive优化3.问小文件问题4.问combinehiveinputformat是逻辑优
添柴少年yyds
·
2023-06-10 04:03
大数据
hive
hadoop
大数据面试题
1.说一下最近做的项目(1)我把实时简单说了一下,说的一般2.说一说为什么要数仓分层(1)把维度建模随便说了下,又扯了一下分层3.说一下数据倾斜(1)没回答好,hive只说了groupbyflink说了一下keyby的三种情况4.说一下hive小文件问题1.介绍了一下最近的项目,说的实时架构,又说了一下建模2.问hive优化3.问小文件问题4.问combinehiveinputformat是逻辑优
添柴少年yyds
·
2023-06-10 04:02
大数据
hadoop
java
大数据面试题
目(第一部分)
您对“大数据”一词有什么了解?当谈到"大数据"时,它是指处理和分析规模巨大、多样化且高速增长的数据集的技术和方法。这些数据通常无法在传统的数据库系统中轻松存储、处理和分析。大数据的特点包括数据量大、速度快、多样性高和价值密度低。以下是一些关键概念和技术与大数据相关:概念/技术说明分布式文件系统大数据通常存储在分布式文件系统中,例如HadoopDistributedFileSystem(HDFS)。
码视野
·
2023-06-07 02:54
程序人生
大数据面试题
汇总
自我介绍hr常问的几道面试题SparkSpark有什么优缺点?SparkRDD有什么特性kafkaKafka为什么这么快?hbaseHbase系统架构Hbase数据模型HBasevsRDBMSHBaserowkey设计原则HBase预分区HiveHiveorder/sort/distribute/clusterby有什么区别?
CodeYangX
·
2023-04-15 01:50
2020哔哩哔哩
大数据面试题
整理
网上能搜到的B站的
大数据面试题
太少了,博主有点找不到了,而且最近B站的校招的效率似乎不是很高,简历投进去一个多星期了,一点反应都没有,别问,问就是在池子里.jpg1.数仓与关系数据库区别1.数据库有相对复杂的表格结构
艾姆鸥
·
2023-04-14 22:29
大数据面试
大数据面试题
集锦-Hadoop面试题(四)-YARN
你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。如果你需要更多的面试经验和面试题,关注一下"张飞的猪大数据分享"吧,公众号会不定时的分享相关的知识和资料。文章目录1、为什么会产生yarn,它解决了什么问题,有什么优势?2、简述hadoop1与hadoop2的架构异同3、Hadoop的调度器总结4、MapReduce2.0容错性5、HDFS的数据压缩算法?6、mapreduce推
张飞的猪大数据
·
2023-04-13 01:13
Hadoop大数据面试
hadoop
大数据
yarn
大数据面试题
集锦-Hadoop面试题(三)-MapReduce
你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。如果你需要更多的面试经验和面试题,关注一下"张飞的猪大数据分享"吧,公众号会不定时的分享相关的知识和资料。文章目录1、谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化?2、FileInputFormat切片机制3、在一个Hadoop任务中,什么是InputSplit(切片),以及切片是用来做什么的,切片与block有
张飞的猪大数据
·
2023-04-13 01:43
Hadoop大数据面试
大数据
hadoop
面试
大数据面试题
集锦-Hadoop面试题(五)-优化
你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。如果你需要更多的面试经验和面试题,关注一下"张飞的猪大数据分享"吧,公众号会不定时的分享相关的知识和资料。文章目录1、MapReduce优化方法2、MapReduce跑得慢的原因?3、HDFS小文件优化方法1、MapReduce优化方法1)数据输入 (1)合并小文件:在执行mr任务前将小文件进行合并,大量的小文件会产生大量的map
张飞的猪大数据
·
2023-04-13 01:43
Hadoop大数据面试
大数据
hadoop
面试
大数据面试题
BigData面试题总结JAVA相关1-1)List与set的区别?老掉牙的问题了,还在这里老生常谈:List特点:元素有放入顺序,元素可重复,Set特点:元素无放入顺序,元素不可重复。1-2)数据库的三大范式?原子性、一致性、唯一性1-3)java的io类的图解1-4)对象与引用对象的区别对象就是好没有初始化的对象,引用对象即使对这个对象进行了初始化,这个初始化可以使自己的直接new的也可以是直
行走的数据智能
·
2023-04-10 17:41
计算机求职面试
大数据面试
【面试题】京东大数据面试真题汇总,收藏必备
今年冬天冷的好慢,现在空气中吹的风还是暖的...京东
大数据面试题
_hive中都有哪些join操作?leftjoin:以左侧为主表,返回记录与主表记录数相同,关联不上的字段为空。
OnlyCoding…
·
2023-04-09 01:37
大数据
面试
hive
职场和发展
hadoop
大数据面试题
_Impala等查询组件(除Hive外的其它组件)
大数据面试题
_Impala等查询组件(除Hive外的其它组件)一、Impala1、什么是Impala?
Jerry Hong
·
2023-04-08 07:55
数据仓库
即席查询
大数据面试
hive
大数据
hadoop
大数据面试题
4 ---一般有用太多
第1部分选择题1.1Hadoop选择题1.1.1Hdfs1.下面哪个程序负责HDFS数据存储?a)NameNodeb)Jobtrackerc)Datanoded)secondaryNameNodee)tasktracker2.HDfS中的block默认保存几份?a)3份b)2份c)1份d)不确定3.下列哪个程序通常与NameNode在一个节点启动?a)SecondaryNameNodeb)Data
okbin1991
·
2023-04-06 13:17
大数据
hadoop
mapreduce
hdfs
分布式
大数据面试题
:介绍下HBase架构
从Hbase的架构图上可以看出,Hbase中的存储包括HMaster、HRegionSever、HRegion、HLog、Store、MemStore、StoreFile、HFile等。Hbase中的每张表都通过键按照一定的范围被分割成多个子表(HRegion),默认一个HRegion超过256M就要被分割成两个,这个过程由HRegionServer管理,而HRegion的分配由HMaster管理
蓦然_
·
2023-03-31 22:11
大数据面试题
大数据开发面试题
面试题
hbase
大数据面试题
以及答案整理(一)
hadoop的shuffle过程一、Map端的shuffleMap端会处理输入数据并产生中间结果,这个中间结果会写到本地磁盘,而不是HDFS。每个Map的输出会先写到内存缓冲区中,当写入的数据达到设定的阈值时,系统将会启动一个线程将缓冲区的数据写到磁盘,这个过程叫做spill。在spill写入之前,会先进行二次排序,首先根据数据所属的partition进行排序,然后每个partition中的数据再
在远方的你等我
·
2023-03-26 22:27
数据仓库面试题——数据仓库分层
答案来源:
大数据面试题
V3.0,523道题,679页,46w字问过的一些公司:字节x2,字节(2021.07)-(2021.08)-(2021.10),阿里x2,爱奇艺,百度x2,百度(2021.08)
蓦然_
·
2023-03-10 07:56
大数据面试题
数据仓库
数据仓库
数据挖掘
数据库
2023版最新最强大数据面试宝典
参考链接:2023版最新最强大数据面试宝典,附答案解析复习
大数据面试题
,看这一套就够了!本文目录:一、Hadoop\二、Hive\三、Spark\四、
·
2023-02-21 15:19
大数据
大数据面试题
整理 -- hadoop 部分
Map端优化参数选项类型默认值描述io.sort.mbint100缓存map中间结果的buffer大小(MB)io.sort.record.percentfloat0.05io.sort.mb中用来保存mapoutput记录边界的百分比,其他缓存用来保存数据io.sort.spill.percentfloat0.80map开始做spill操作的阈值io.sort.factorint10做merge
thoughtCodes
·
2023-01-25 08:36
大数据面试题
(二)----HDFS面试题
版权声明:本文为CSDN博主「北京小辉」的原创文章,遵循CC4.0BY-SA版权协议,转载请附上原文出处链接及本声明。原文链接:https://blog.csdn.net/silentwolfyh/article/details/103863381———————————————————————————————————“无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗
老王的小知识
·
2023-01-25 08:35
#
【大数据】面试题
大数据
分布式
hdfs
面试
大数据面试题
(一)----HADOOP 面试题
版权声明:本文为CSDN博主「北京小辉」的原创文章,遵循CC4.0BY-SA版权协议,转载请附上原文出处链接及本声明。原文链接:https://blog.csdn.net/silentwolfyh/article/details/103857911———————————————————————————————————大数据面试宝典目录,请点击“无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大
老王的小知识
·
2023-01-25 08:35
#
【大数据】面试题
大数据
hadoop
面试
大数据面试题
--MapReduce篇
MapReduce任务执行的11个步骤1.运行job任务2.获取ApplicationID|JobID3.CopyJob资源到HDFS-切片信息、配置信息、代码片段4.提交任务给ResourceManager5.RM->NM消耗一个Container资源,用于启动MRAppMaster6.MRAppMaster初始化任务,完成任务调度前的准备工作7.MRAppMaster查询输入切片信息、配置,进
丿沐染烟忱丶
·
2023-01-25 08:01
大数据面试题
面试题
大数据
mapreduce
大数据面试题
--HDFS篇
NameNode和SecondaryNameNode区别?第一阶段:NameNode启动(1)NameNode服务工作,第一次启动格式化后,创建fsimage和editlog文件。如果不是第一次启动,直接加载镜像文件和日志到内存。(2)处理客户端对元数据进行增删改的请求。(3)NameNode记录操作日志,更新滚动日志。(4)NameNode在内存中对数据进行增删改查。第二阶段:Secondary
丿沐染烟忱丶
·
2023-01-25 08:30
大数据面试题
大数据
面试题
大数据面试题
之葵花宝典------Hadoop
葵花宝典------Hadoop1.hdfs读写流程2.hdfs的体系结构3.一个datanode宕机,怎么一个流程恢复4.hadoop的namenode宕机,怎么解决5.namenode对元数据的管理6.元数据的checkpoint7.yarn资源调度流程8.hadoop中combiner和partition的作用9.用mapreduce怎么处理数据倾斜问题?10.shuffle阶段,你怎么理解
海鸥~
·
2023-01-25 07:35
Big
Data
------
面试题
面试
大数据面试题
集锦-Hadoop面试题(二)-HDFS
你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。如果你需要更多的面试经验和面试题,关注一下"张飞的猪大数据分享"吧,公众号会不定时的分享相关的知识和资料。1、HDFS中的block默认保存几份?默认保存3份2、HDFS默认BlockSize是多大?默认64MB3、负责HDFS数据存储的是哪一部分?DataNode负责数据存储4、SecondaryNameNode的目的是什么?他
张飞的猪大数据
·
2023-01-25 07:32
Hadoop大数据面试
hadoop
hdfs
大数据
面试
面试题
【
大数据面试题
】(八)Spark 相关面试题
1.spark中的RDD是什么,有哪些特性?答:RDD(ResilientDistributedDataset)叫做分布式数据集,是spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可以并行计算的集合Dataset:就是一个集合,用于存放数据的Destributed:分布式,可以并行在集群计算Resilient:表示弹性的,弹性表示1.RDD中的数据可以存储在内存或者磁盘中;2.R
云 祁
·
2023-01-13 09:21
#
----
面试总结
大数据
spark
大数据面试题
——Spark数据倾斜调优(五)
1、数据倾斜数据倾斜指的是,并行处理的数据集中,某一部分(如Spark或Kafka的一个Partition)的数据显著多于其它部分,从而使得该部分的处理速度成为整个数据集处理的瓶颈。数据倾斜俩大直接致命后果。1、数据倾斜直接会导致一种情况:OutOfMemory。2、运行速度慢。主要是发生在Shuffle阶段。同样Key的数据条数太多了。导致了某个key(下图中的80亿条)所在的Task数据量太大
蓦然_
·
2023-01-02 11:19
大数据面试题
1024程序员节
Spark面试题总结
数据倾斜总结
大数据面试题总结
大数据
阿里云大数据开发一面面经,已过,面试题已配答案
参考答案来源:
大数据面试题
V3.0,523道题,679页,46w字二面:阿里云大数据开发二面面经,已过,面试题已配答案_蓦然_的博客-CSDN博客1、实习经历这一点就不多说了,每个人都不一样,根据自己的介绍就行
蓦然_
·
2022-12-31 16:35
大数据面试题
hadoop
面试
大数据
大数据面试题
:介绍下YARN
介绍YARN,可以先考虑下面两个问题1)如何管理集群资源?2)如何给任务合理分配资源?YARN是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。YARN作为一个资源管理、任务调度的框架,主要包含ResourceManager、NodeManager、ApplicationMaster和Conta
蓦然_
·
2022-12-18 22:59
大数据面试题
大数据开发面试题
大数据面试题
大数据面试题
(四):Yarn核心高频面试题
文章目录Yarn核心高频面试题一、简述Hadoop1与Hadoop2的架构异同二、为什么会产生yarn,它解决了什么问题,有什么优势?三、HDFS的数据压缩算法?及每种算法的应用场景?1、gzip压缩2、Bzip2压缩3、Lzo压缩4、Snappy压缩四、Hadoop的调度器总结五、Mapreduce推测执行算法及原理Yarn核心高频面试题一、简述Hadoop1与Hadoop2的架构异同加入了ya
Lansonli
·
2022-12-18 22:40
大数据入门核心技术
大数据
大数据核心面试题
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他