E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
大数据面试
大数据面试
题:超详细版MapReduce工作原理
面试题来源:《
大数据面试
题V4.0》
大数据面试
题V3.0,523道题,679页,46w字参考答案:MapReduce详细流程:1、准备待处理文件(200M)2、submit()对原始文件进行切片分析(128M
蓦然_
·
2023-07-31 11:41
大数据面试题
大数据
mapreduce
面试
大数据面试
题:Kafka的单播和多播
面试题来源:《
大数据面试
题V4.0》
大数据面试
题V3.0,523道题,679页,46w字参考答案:1、单播一条消息只能被某一个消费者消费的模式称为单播。
蓦然_
·
2023-07-31 11:10
大数据面试题
大数据
面试
kafka
大数据面试
小抄
项目地址:https://github.com/GTyingzi/BigDATA该项目是自己在学习大数据过程中整理、总结下来的一份面试小抄。涵盖Hadoop、Spark、Flink、Hive、HBae、Kafka、ES、Zookeeper等。开源给大家,若感觉不错欢迎star~摘取Flink部分如下文章目录FlinkFlink介绍Flink架构(重点)作业提交流程高层级视角独立模式YARN集群Fl
未来影子
·
2023-07-29 18:30
面试
大数据
面试
Flink
hadoop
Spark
大数据面试
题之Elasticsearch:每日三题(六)
大数据面试
题之Elasticsearch:每日三题1.为什么要使用Elasticsearch?2.Elasticsearch的master选举流程?3.Elasticsearch集群脑裂问题?
(YSY_YSY)
·
2023-07-28 18:06
大数据
elasticsearch
搜索引擎
大数据面试
题之Elasticsearch:每日三题(七)
大数据面试
题之Elasticsearch:每日三题1.Elasticsearch索引文档的流程?2.Elasticsearch更新和删除文档的流程?3.Elasticsearch搜索的流程?
(YSY_YSY)
·
2023-07-28 18:04
大数据
elasticsearch
搜索引擎
大数据面试
题(三)Kafka
三.Kafka目录1.Kafka名词解释和工作方式2.Consumer与topic关系3.kafka中生产数据的时候,如何保证写入的容错性?4.如何保证kafka消费者消费数据是全局有序的5.列举kafka的优点,简述kafka为什么可以做到每秒数十万甚至上百万消息的高效分发?6.为什么离线分析要用kafka7.kafka怎么进行监控8.kafka与传统消息队列有什么不同9.kafka的ISR副本
敲代码的彭于晏
·
2023-07-27 23:18
大数据
kafka
big
data
java
大数据面试
-20210312
目录基础题1、介绍一下拉链表的原理,以及适用于哪些场景?2、如果使用spark遇到了OOM,你会怎么处理?智力题3、A文件有50亿条URL,B文件也有50亿条URL,每条URL大小为64B,在一台只有4G内存的机器上,怎么找出A、B中相同的URL?基础题1、介绍一下拉链表的原理,以及适用于哪些场景?拉链表是一种数据模型,主要是针对数据仓库设计中表存储数据的方式而定义的;顾名思义,所谓拉链表,就是记
大数据架构师Pony
·
2023-07-25 04:53
大数据之Spark
大数据之面试
大数据之Hive
spark
hive
hadoop
大数据面试
题
MySQL索引有哪些1.普通索引index:加速查找2.唯一索引主键索引:primarykey:加速查找+约束(不为空且唯一)唯一索引:unique:加速查找+约束(唯一)3.联合索引-primarykey(id,name):联合主键索引-unique(id,name):联合唯一索引-index(id,name):联合普通索引4.全文索引fulltext:用于搜索很长一篇文章的时候,效果最好。5.
陪自己长大
·
2023-07-25 04:22
大数据
hadoop
hdfs
大数据面试
题:Kafka怎么保证数据不丢失,不重复?
面试题来源:《
大数据面试
题V4.0》
大数据面试
题V3.0,523道题,679页,46w字可回答:Kafka如何保证生产者不丢失数据,消费者不丢失数据?
蓦然_
·
2023-07-25 04:52
大数据面试题
大数据
kafka
面试
大数据面试
题:HBase读写数据流程
面试题来源:《
大数据面试
题V4.0》
大数据面试
题V3.0,523道题,679页,46w字参考答案:1、写数据流程1)Client先访问zookeeper,获取hbase:meta表位于哪个RegionServer
蓦然_
·
2023-07-25 04:51
大数据面试题
大数据
hbase
面试
必问207道java架构和
大数据面试
题及答案
前言相信大家在面试中都会遇到很多很难回答的问题,以至于面试不是很成功,进入公司后薪资会偏少一些!有的人会说,这面试官是不是故意刁难我呢?怎么这些问题我都不会啊!小编觉得呢,说到底还是大家的知识储备或者面试经验太少了,知识储备和面试经验都是是可以靠自己来学习积累的,下面小编就分享下总结的面试四点经验:1.不会就不会。我比较爽快,如果遇到的不会的甚至是不确定的,都直接说:“对不起,我答不上来”之类的。
Java技术那些事儿
·
2023-07-25 04:48
java
面试
大数据
后端
大数据面试
题:Zookeeper架构
面试题来源:《
大数据面试
题V4.0》
大数据面试
题V3.0,523道题,679页,46w字可回答:1)说一说Zookeeper中的角色问过的一些公司:京东提前批(2020.07),蘑菇街实习(2020.03
蓦然_
·
2023-07-25 04:17
大数据面试题
大数据
zookeeper
架构
大数据面试
题:Kafka怎么保证数据不丢失,不重复?
面试题来源:《
大数据面试
题V4.0》
大数据面试
题V3.0,523道题,679页,46w字参考答案:存在数据丢失的几种情况使用同步模式的时候,有3种状态保证消息被安全生产,在配置为1(只保证写入leader
蓦然_
·
2023-07-24 17:36
大数据面试题
大数据
kafka
面试
史上最全Hive面试题,高薪必备,架构必备
说在前面本文《尼恩
大数据面试
宝典》是《尼恩Java面试宝典》姊妹篇。
40岁资深老架构师尼恩
·
2023-07-24 07:22
面试
面试
架构
hive
大数据
java
sql
6道经典
大数据面试
题(ChatGPT回答版)
1、HDFS读写流程是什么?HDFS(HadoopDistributedFileSystem)的读写流程如下:写流程:客户端向NameNode发送写请求,请求在HDFS上创建一个新的文件。NameNode为该文件分配一些数据块(默认情况下为128MB)以及在哪些DataNode上存储这些数据块的信息。NameNode向客户端返回可用于写入数据的DataNode列表。客户端选择最近的DataNode
大数据流动
·
2023-07-23 13:29
大数据
hadoop
hdfs
mapreduce
java
大数据_大数据常见面试问题
下面分为几个方向罗列一下最近遇到的
大数据面试
问题数据仓库大数据_面试_数据仓库基础概念_高达一号的博客-CSDN博客ETL组件相关,spark,flink大数据_ETL组件常见问题_spark&flink
高达一号
·
2023-07-22 08:37
大数据
大数据
大数据面试
题之Mysql:每日三题(四)
大数据面试
题之Mysql:每日三题为什么使用索引1.索引的优缺点2.普通索引,唯一索引,主键索引,联合索引的区别3.MySQL有哪些锁我很喜欢的一句勉励今天的自己和大家:“人生当中成功只是一时,失败却是主旋律
(YSY_YSY)
·
2023-07-22 06:51
大数据面试题
mysql
数据库
java
大数据面试
题之Mysql:每日三题(五)
大数据面试
题之Mysql:每日三题1.MySQL索引存储结构(六种)2.on和where的区别3.mysql是怎么查重的?
(YSY_YSY)
·
2023-07-22 06:51
大数据
mysql
数据结构
大数据面试
基础回答
以下是Hive大数据领域的一些常见问题:数据倾斜:在Hive中,数据倾斜是一个常见的问题,它会导致查询结果不准确或查询过程异常。为了解决数据倾斜问题,可以尝试以下方法:使用更高效的数据倾斜处理工具,例如ApacheSpark的DataFrame和PySpark等。对查询进行重写,以避免数据倾斜。例如,将查询转换为等效的但不会导致数据倾斜的形式。对数据分布进行随机化,以减少数据倾斜的可能性。数据存储
饭九钦vlog
·
2023-07-21 20:47
数据分析
大数据
2023
大数据面试
总结
本文就是我在学习过程中记录下,所遇到的一些
大数据面试
的提问,仅供参考。
fx67ll
·
2023-07-19 17:31
大数据开发文档
大数据
面试
hive
spark
mysql
kafka
sql
绝密100个Spark面试题,熟背100遍,猛拿高薪
说在前面《尼恩
大数据面试
宝典》是《尼恩Java面试宝典》姊妹篇。
40岁资深老架构师尼恩
·
2023-07-15 07:03
面试
面试
大数据
spark
hadoop
linux
架构
大数据面试
题Spark篇(1)
目录1.spark数据倾斜2.Spark为什么比mapreduce快?3.hadoop和spark使用场景?4.spark宕机怎么迅速恢复?5.RDD持久化原理?6.checkpoint检查点机制7.checkpoint和持久化的区别8.说一下RDD的血缘9.宽依赖函数,窄依赖函数分别有哪些?10.谈一谈RDD的容错机制?11.谈一谈你对RDD的理解12.Spark主备切换机制原理知道吗1.spa
后季暖
·
2023-07-15 02:24
大数据
spark
分布式
HBase为什么查询快
面试题来源:《
大数据面试
题V4.0》
大数据面试
题V3.0,523道题,679页,46w字可回答:1)HBase为什么读快;2)HBase是根据rowkey查询,当数据量相当大的时候,是怎么读的很快的参考答案
蓦然_
·
2023-06-23 10:28
大数据面试题
hbase
大数据
面试
2020-10-24
大数据面试
问题
上周面试数据开发职位主要从公司的视角讲一下记录下面试流水。1.三面技术一轮hr,面到了cto整体来看是这一周技术含量最高信息量最大的一个,1到4轮过了4个小时,技术上的问题主要问的对数据分层的理解。1.一面自我介绍、目前团队的规模多大(20)、你负责的模块是那些(购物、短信、增长)、那几个人在做2.数据架构图划分(五层架构讲了7分钟左右)3.指标口径怎么统一、那些工作(定标准、报表和核心、场景)、
浩海紫冰
·
2023-06-22 13:26
面试
基本功
spark
hadoop
史上最全Hadoop面试题:尼恩
大数据面试
宝典专题1
说在前面:《尼恩
大数据面试
宝典》是《尼恩Java面试宝典》姊妹篇。
40岁资深老架构师尼恩
·
2023-06-20 23:20
面试
大数据
hadoop
面试
数据库
java
架构
大数据面试
题:Hive的cluster by 、sort by、distribute by 、order by 区别?
面试题来源:《
大数据面试
题V4.0》
大数据面试
题V3.0,523道题,679页,46w字参考答案:可回答:1)Hive的排序函数;2)Hive的排序,以及各自的区别;3)四个by的区别?
蓦然_
·
2023-06-20 20:36
大数据面试题
hive
面试
大数据
Hive的用户自定义函数实现步骤与流程
面试题来源:《
大数据面试
题V4.0》
大数据面试
题V3.0,523道题,679页,46w字参考答案:1、如何构建UDF?
蓦然_
·
2023-06-18 14:09
大数据面试题
Hive
hive
大数据
面试
Hadoop的mapper和reducer的个数如何确定?reducer的个数依据是什么?
面试题来源:《
大数据面试
题V4.0》
大数据面试
题V3.0,523道题,679页,46w字参考答案:map数量影响map个数(split个数)的主要因素有:文件的大小。
蓦然_
·
2023-06-18 14:09
大数据面试题
Hadoop
hadoop
大数据
面试
Hadoop的shuffle过程及调优
由于该过程涉及排序、磁盘IO、以及网络IO等消耗资源和CPU比较大的操作,因此该过程是重点优化的一个地方,因此也是
大数据面试
中经常会被重点考察的地方。本文力求通俗、简单地将Sh
RainTicking
·
2023-06-18 06:30
大数据
hadoop
mapreduce
大数据
spark 面试题汇总
大数据面试
题汇总
大数据面试
题汇总-简书spark资源调优1、列式存储和行式存储的区别行存储,数据行存储,一个文件可表达一个二维表。
四月天03
·
2023-06-16 22:44
Spark
spark
big
data
hadoop
spark面试题总结(
大数据面试
)
Spark概述Spark是一种快速、通用、可扩展的大数据分析引擎。Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了在大数据环境下数据处理实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。1、核心组件SparkCore:核心部分包含Spark基本功能(任务调度内存管理容错机制等)SparkSQL:Spark中交互式处理模块Spa
404个问号
·
2023-06-16 22:43
大数据
大数据
java
spark
【
大数据面试
】【项目开发经验】Hadoop、Flume、Kafka、Hive、MySQL、Sqoop、Azkaban、Spark...
主要内容:框架层面的调优、业务经验一、Hadoop1、Hadoop基准测试(HDFS的读写性能、MapReduce的计算能力测试)(1)测试内容:文件上传下载的时间(2)服务器有几个硬盘插槽2/4块问题:2块4T和一块8T的哪个贵2块4T的贵,可靠性更高一些(3)加了磁盘,默认情况下不会直接能够使用需要负载均衡,保证每个目录数据均衡开启数据均衡命令:bin/start-balancer.sh–th
哥们要飞
·
2023-06-16 10:57
hadoop
大数据
hive
面试
flume
大数据面试
题V3.0,约870篇牛客大数据面经480道面试题_笔经面经_牛客网
作者:蓦_然链接:
大数据面试
题V3.0,约870篇牛客大数据面经480道面试题_笔经面经_牛客网来源:牛客网
大数据面试
题V3.0一、前言大家好,我是蓦然。
javastart
·
2023-06-15 18:55
大数据
hadoop
hdfs
大数据
小白转行大数据的思考
背景通过
大数据面试
经验总结这篇文章遇到很多朋友,大多都在做一件事,开始学大数据了。
xwc35047
·
2023-06-12 04:49
大数据面试
题汇总
Hadoop基础介绍下HadoopHadoop的特点说下Hadoop生态圈组件及其作用Hadoop主要分哪几个部分?他们有什么作用?Hadoop1.x,2x,3.x的区别Hadoop集群工作时启动哪些进程?它们有什么作用?在集群计算的时候,什么是集群的主要瓶颈搭建Hadoop集群的xml文件有哪些?Hadoop的checkpoint流程Hadoop的默认块大小是多少?为什么要设置这么大?Block
添柴少年yyds
·
2023-06-10 04:33
hadoop
大数据
hdfs
大数据面试
题总结
1.说一下最近做的项目(1)我把实时简单说了一下,说的一般2.说一说为什么要数仓分层(1)把维度建模随便说了下,又扯了一下分层3.说一下数据倾斜(1)没回答好,hive只说了groupbyflink说了一下keyby的三种情况4.说一下hive小文件问题1.介绍了一下最近的项目,说的实时架构,又说了一下建模2.问hive优化3.问小文件问题4.问combinehiveinputformat是逻辑优
添柴少年yyds
·
2023-06-10 04:03
大数据
hive
hadoop
大数据面试
题
1.说一下最近做的项目(1)我把实时简单说了一下,说的一般2.说一说为什么要数仓分层(1)把维度建模随便说了下,又扯了一下分层3.说一下数据倾斜(1)没回答好,hive只说了groupbyflink说了一下keyby的三种情况4.说一下hive小文件问题1.介绍了一下最近的项目,说的实时架构,又说了一下建模2.问hive优化3.问小文件问题4.问combinehiveinputformat是逻辑优
添柴少年yyds
·
2023-06-10 04:02
大数据
hadoop
java
大数据面试
题目(第一部分)
您对“大数据”一词有什么了解?当谈到"大数据"时,它是指处理和分析规模巨大、多样化且高速增长的数据集的技术和方法。这些数据通常无法在传统的数据库系统中轻松存储、处理和分析。大数据的特点包括数据量大、速度快、多样性高和价值密度低。以下是一些关键概念和技术与大数据相关:概念/技术说明分布式文件系统大数据通常存储在分布式文件系统中,例如HadoopDistributedFileSystem(HDFS)。
码视野
·
2023-06-07 02:54
程序人生
大数据面试
核心101问【大厂超级喜欢这些题】
之前出过《史上最全的大数据开发八股文》这篇文章,同学们都觉得还不错,但是有些同学觉得那个背起来还是有些吃力,于是我再次回顾了自己之前面试所有大厂的一些面试题以及牛客上面的一些面经,然后总结了频率问的最高的101问,包括了大数据、java、计算机网络、操作系统、数据库、HQL、场景题等内容注意:以下顺序就是按照科目来进行划分的,重要性不分先后HDFS的架构7HDFS的读写流程7小文件过多有什么危害,
三石大数据
·
2023-04-21 20:16
面经
大数据
面试
hadoop
求职招聘
史上最全的2023最新
大数据面试
笔记【200+页,10w+字】
简介:我本硕都是双非计算机专业,研二开始学习大数据开发的相关知识,从找实习到秋招,投递过100+公司,拿到过10+的offer,包括滴滴、字节、蚂蚁、携程、蔚来、去哪儿等大厂,现在已经签约蚂蚁数据研发工程师。依稀还记得刚开始找工作,从零开始准备八股文的时候,心情超级浮躁,不知道该准备哪些内容(大数据组件实在太多了!!!),不知道哪些是重点,在这里感谢一下CSDN平台,提供了大量的面经,让我更快的抓
三石大数据
·
2023-04-21 20:39
面试
hadoop
大数据
算法
Hive SQL经典面试题:统计连续登陆的三天及以上的用户
HiveSQL经典面试题最近发现一道
大数据面试
经常会问的SQL题目:统计连续登录的三天及以上的用户(或者类似的:连续3个月充值会员用户、连续N天购买商品的用户等),下面就来记录一下解题思路。
此木Y
·
2023-04-21 17:09
hive
sql
面试
大数据
2023年
大数据面试
开胃菜
1、RDD中reduceBykey与groupByKey哪个性能好,为什么reduceByKey:reduceByKey会在结果发送至reducer之前会对每个mapper在本地进行merge,有点类似于在MapReduce中的combiner。这样做的好处在于,在map端进行一次reduce之后,数据量会大幅度减小,从而减小传输,保证reduce端能够更快的进行结果计算。groupByKey:g
风月歌
·
2023-04-18 11:12
2023面试
java基础
大数据
面试
kafka
2023年
大数据面试
开胃菜
1、kafka的message包括哪些信息一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成,header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic的值为1的时候,会在magic和crc32之间多一个字节的数据:attributes(保存一些相关属性,比如是否压缩、压缩格式等等);如果mag
风月歌
·
2023-04-18 11:42
2023面试
java基础
大数据
java
后端
面试
大数据面试
经验分享
一、简历部分首先,无论什么样的简历应当包含核心四个部分,分别为基本信息、技术栈、工作经历、项目经历。1、基本信息:姓名、性别、年龄、联系方式、学历信息。例:张三、男、25、123123、本科2、技术栈:编程语言(java、python、scala),数据库(mysql、redis、oracle),大数据框架(hadoop、spark、flink)3、工作经历按照时间顺序或倒叙罗列即可(注意:工作经
你好,我叫罗鹏程
·
2023-04-18 01:18
面试
面试
大数据
Apache Linkis 正式毕业成为 Apache 顶级项目
全网最全
大数据面试
提升手册!Apache软件基金会(ASF)孵化器于2022年12月03日,通过了ApacheLinkis计算中间件项目的孵化毕业投票。
王知无(import_bigdata)
·
2023-04-16 03:43
apache
大数据
数据库
大数据面试
题汇总
自我介绍hr常问的几道面试题SparkSpark有什么优缺点?SparkRDD有什么特性kafkaKafka为什么这么快?hbaseHbase系统架构Hbase数据模型HBasevsRDBMSHBaserowkey设计原则HBase预分区HiveHiveorder/sort/distribute/clusterby有什么区别?
CodeYangX
·
2023-04-15 01:50
2020哔哩哔哩
大数据面试
题整理
网上能搜到的B站的
大数据面试
题太少了,博主有点找不到了,而且最近B站的校招的效率似乎不是很高,简历投进去一个多星期了,一点反应都没有,别问,问就是在池子里.jpg1.数仓与关系数据库区别1.数据库有相对复杂的表格结构
艾姆鸥
·
2023-04-14 22:29
大数据面试
大数据面试
题集锦-Hadoop面试题(四)-YARN
你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。如果你需要更多的面试经验和面试题,关注一下"张飞的猪大数据分享"吧,公众号会不定时的分享相关的知识和资料。文章目录1、为什么会产生yarn,它解决了什么问题,有什么优势?2、简述hadoop1与hadoop2的架构异同3、Hadoop的调度器总结4、MapReduce2.0容错性5、HDFS的数据压缩算法?6、mapreduce推
张飞的猪大数据
·
2023-04-13 01:13
Hadoop大数据面试
hadoop
大数据
yarn
大数据面试
题集锦-Hadoop面试题(三)-MapReduce
你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。如果你需要更多的面试经验和面试题,关注一下"张飞的猪大数据分享"吧,公众号会不定时的分享相关的知识和资料。文章目录1、谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化?2、FileInputFormat切片机制3、在一个Hadoop任务中,什么是InputSplit(切片),以及切片是用来做什么的,切片与block有
张飞的猪大数据
·
2023-04-13 01:43
Hadoop大数据面试
大数据
hadoop
面试
大数据面试
题集锦-Hadoop面试题(五)-优化
你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。如果你需要更多的面试经验和面试题,关注一下"张飞的猪大数据分享"吧,公众号会不定时的分享相关的知识和资料。文章目录1、MapReduce优化方法2、MapReduce跑得慢的原因?3、HDFS小文件优化方法1、MapReduce优化方法1)数据输入 (1)合并小文件:在执行mr任务前将小文件进行合并,大量的小文件会产生大量的map
张飞的猪大数据
·
2023-04-13 01:43
Hadoop大数据面试
大数据
hadoop
面试
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他