大数据面试题第7页

大数据面试题（一)

记录第一次大数据面试，emmm，充分体验了问啥啥不会！首先，来看这次的题。1、如何将本地80端口的请求转发到8080端口，当前主机ip为192.168.16.1，本地网卡eth02、拦截器和过滤器的区别，在项目中的应用3、开发中都用到了那些设计模式？用在什么场合？4、SpringBoot如何定义多套不同环境配置？在项目中采用哪种方式5、你了解的MQ有哪些？简要说明作用和应用场景6、Tomcat共享

crazyxxn·2019-08-16 11:34

大数据面试题及答案（超详细）

原文链接：https://blog.csdn.net/albg_boy/article/details/78424509原文链接：https://blog.csdn.net/albg_boy/article/details/78424509第1部分选择题1.1Hadoop选择题1.1.1Hdfs下面哪个程序负责HDFS数据存储？a)NameNodeb)Jobtrackerc)Datanoded)s

大大怪啊·2019-08-14 08:09

[大数据面试题]storm核心知识点

1.storm基本架构storm的主从分别为Nimbus、Supervisor,工作进程为Worker.2.计算模型Storm的计算模型分为Spout和Bolt，Spout作为管口、Bolt作为中间节点，数据传输的单元为tuple,每个tuple都有一个值列表，需要注意这个值列表是带name列表的，Bolt只需要订阅Bolt/Spout的值列表的某些name,就能获得该Bolt/Spout传过来的

DemonHunter211·2019-07-29 09:35

大数据面试题

第一阶段：1.scala闭包2.jdk版本3.mysql版本4.垃圾回收器CMSG1HBASE笔试部分：1.给定一个字符串，求最大的回文长度？？？？2.给定两个有序的数组，合并一个有序的数组3.一个有序的数组构建成平衡的二叉树第二阶段：1.压缩有哪几种？区别什么场景用2.文件格式有哪几种？区别什么场景用3.HDFS读写流程output和input对象，谁是读，谁是写4.HDFS的namenode内

SkinnyTracy·2019-06-27 00:00

大数据面试题整理

1.当用户请求删除一条记录时，hbase为什么不直接删除，而是打上一个删除的标记？因为hbase的数据通常是保存在HDFS上，而hdfs只允许新增或者追加数据文件，如果要删除的话要对整个文件进行替换，所以删除操作主要是对删除的数据打上标记.具体操作：当多个storefile进行major_compact全局合并时，就会真正对那些打标记的数据进行删除。并生成对应的hfile文件。2.spark执行过

飞吧~·2019-05-30 15:50

大数据的那些面试题及答案(一)

文章目录1.Flume系列：2.zookeeper系列3.spark系列4.Mysql系列5.其他大数据面试题1.Flume系列：1.ChannelSelectors有几种类型，它们的区别是什么？

艳阳如一·2019-05-25 15:17

大数据面试个人总结

大数据面试题个人总结1.列举几个sql调优的方法2.主键和外键的优缺点3.hive和mysql的区别4.hive排序关键字有哪些，有什么区别？

chenxi_98·2019-05-13 20:38

大数据面试题整理

原文链接：http://www.cnblogs.com/xuziyu/p/10800111.html1、fsimage和edit的区别？大家都知道namenode与secondarynamenode的关系，当他们要进行数据同步时叫做checkpoint时就用到了fsimage与edit，fsimage是保存最新的元数据的信息，当fsimage数据到一定的大小事会去生成一个新的文件来保存元数据的信息

weixin_30237719·2019-05-02 09:00

大数据面试题——Hive篇

1.Hive有哪些方式保存元数据，各有什么特点？Hive支持三种不同的元存储服务器，分别为：内嵌式元存储服务器、本地元存储服务器、远程元存储服务器，每种存储方式使用不同的配置参数。内嵌式元存储主要用于单元测试，在该模式下每次只有一个进程可以连接到元存储，Derby是内嵌式元存储的默认数据库。在本地模式下，每个Hive客户端都会打开到数据存储的连接并在该连接上请求SQL查询。在远程模式下，所有的Hi

提灯寻梦在南国·2019-04-16 19:07

经典大数据面试题

1.海量日志数据，提取出某日访问百度次数最多的那个IP。首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP（可以采用hash_map进行频率统计，然后再找出频率最大的几个）及相应的频率。然后再在这1000个最大的IP中，

湘上孤独·2019-03-29 17:00

大数据面试题——如何从大量数据中找出高频词

原文链接问题描述：有一个1GB大小的文件，文件里面每一行是一个词，每个词的大小不超过16B，内存大小限制为1MB，要求返回频数最高的100个词。分析：由于文件大小为1GB，而内存的大小只有1MB，因此不能一次把所有的词读入到内存中去处理，可以采用分治的方法进行处理：把一个文件分解为多个小的子文件，从而保证每个文件的大小都小于1MB，进而可以直接被读取到内存中处理。解题思路：1、遍历文件，对遍历到的

Y-hit·2019-03-26 09:40

谈一谈你对zookeeper 的理解（大数据面试题系列~~）

文章目录Zookeeper几个基本概念集群角色会话数据节点ZnodeWatcher事件监听器几个典型应用场景Master选举实现分布式锁用作微服务的注册中心ApacheZookeeper是由ApacheHadoop的子项目发展而来，之后正式成为了Apache的顶级项目。Zookeeper是一个典型的分布式数据一致性的解决方案，它为分布式应用提供了高效可靠的分布式协调服务，分布式应用程序可以基于它实

苗尼玛乔·2019-03-06 22:49

(大数据面试题系列~)

MapReduce是一种用于数据处理的编程模型。我们可以这样理解MapReduce,把一堆杂乱无章的数据按照某种特征归纳起来，然后处理并得到最后的结果。Map面对的是杂乱无章的互不相关的数据，它解析每个数据，从中提取key和value,也就是提取了数据的特征。经过MapReduce的shuffle阶段之后，在Reduce阶段看到的都是归纳好的数据，然后再进行进一步的处理以得到结果。Hadoop2中

苗尼玛乔·2019-03-05 21:39

（大数据面试题系列！！！）

YARN是hadoop的集群资源管理器。Yarn在Hadoop2中被引入，是为了要改善MapReduce1的实现，但它具有足够的通用性，同样也支持其他的分布式计算模式。MapReduce1的实现机制MapReduce包括几个高级组件。主进程JobTracker是所有MapReduce作业的信息交流中心。每个节点都有一个TaskTracker进程，管理相应节点的任务。TaskTracker与JobT

苗尼玛乔·2019-03-04 22:48

大数据面试题

技术面试题1.Hadoop中有哪些组件？Hadoop=HDFS+Yarn+MapReduce+Hive+Hbase+...1).HDFS:分布式文件存储系统主：namenode,secondarynamenode从：datanode2).Yarn:分布式资源管理系统，用于同一管理集群中的资源（内存等）主：ResourceManager从：NodeManager3).MapReduce:Hadoop

老子天下最美·2019-02-28 16:31

你知道大数据的面试都问了什么吗？90%机率会碰到的面试题及答案整理

目前全国正处于招聘的高峰期，如果有面试题能提示一下，可以提前做个准备，也可以看出自己的不足之处，面试能拿到offer的机会就大的多，下面就是一些常见的大数据面试题，希望能够帮到大家：1.kafka集群的规模

程序の之道·2019-02-19 21:50

2018年大数据面试题总结

目前面试了多家大数据开发工程师，成长了很多，也知道了很多知识，下面和大家分享一下我遇到的面试题和答案。1.kafka集群的规模，消费速度是多少。答：一般中小型公司是10个节点，每秒20M左右。 2.hdfs上传文件的流程。答：这里描述的是一个256M的文件上传过程①由客户端向NameNode节点节点发出请求②NameNode向Client返回可以可以存数据的DataNode这里遵循机架感应原则③客

山的脚下是我家·2019-01-14 00:00

大数据面试题—6

3.141、一个Hadoop环境，整合了HBase和Hive，是否有必要给HDFS和Hbase都分别配置压缩策略？请给出对压缩策略的建议。hdfs在存储的时候不会将数据进行压缩，如果想进行压缩，我们可以在向hdfs上传数据的时候进行压缩。1）、采用压缩流2）、采用序列化文件hbase为列存数据库，本身存在压缩机制，所以无需设计。3、简述Hbase性能优化的思路1）、在库表设计的时候，尽量考虑row

Running-小猛·2018-12-18 14:25

2018最新BAT大数据面试题答案

BAT企业大数据专业技术知识讲解1、kafka的message包括哪些信息一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic的值为1的时候，会在magic和crc32之间多一个字节的数据：attributes(保存一些相关属性，比如是否压

首席数据师·2018-12-17 19:02

2018最新BAT大数据面试题答案

BAT企业大数据专业技术知识讲解1、kafka的message包括哪些信息一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic的值为1的时候，会在magic和crc32之间多一个字节的数据：attributes(保存一些相关属性，比如是否压

首席数据师·2018-12-17 19:02

2018最新BAT大数据面试题答案

原文链接：https://my.oschina.net/u/3981088/blog/2989619BAT企业大数据专业技术知识讲解1、kafka的message包括哪些信息一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic的值为1的时候

chigubiao4837·2018-12-17 19:00

2019最新大数据面试题助力大家度过笔试关

大数据面试题总结一波，助力准备在金三银四寻找好工作的小伙伴们，只有度过笔试这一关才能在下面的关卡中大展宏图!一、如何检查namenode是否正常运行?重启namenode的命令是什么?

千锋郑州·2018-12-05 15:15

2018年大数据工程师面试题，99%会机率碰到的海量题

现在全国各省正处于招聘的高峰期，面试者也越来越紧张，都希望有高人指点一二，倘若有面试题能提示一下，那面试能拿到offer的机会便大的多，下面就是一些常见的大数据面试题，希望能帮助你们一二:打起十二分精神加油

正在简书上学习·2018-12-03 22:48

2018年大数据工程师面试题，99%会机率碰到的海量题

现在全国各省正处于招聘的高峰期，面试者也越来越紧张，都希望有高人指点一二，倘若有面试题能提示一下，那面试能拿到offer的机会便大的多，下面就是一些常见的大数据面试题，希望能帮助你们一二:打起十二分精神加油

小迪和夫人·2018-12-03 22:58

大数据面试题——如何找出访问最多的IP

问题描述：现有海量日志数据保存在一个超大的文件中，该文件无法直接存入内存，要求从中提取某天访问BD次数最多的IP分析解读：由于这个题目只关心某一天访问次数最多的IP，因此可以首先对文件进行一次遍历，把这一天访问的IP的相关信息记录到一个单独的文件中。接下来可以用之前的方法来进行求解。唯一需要确定的是把一个大文件分成多少个小文件比较合适。以IPV4为例子，由于一个IP地址占用32位，因此最多会有2^

CircleYua·2018-11-28 14:06

大数据面试题——如何从大量的url中找出相同的url

原文链接：http://www.cnblogs.com/circleyuan/p/10350176.html题目描述：给定a、b两个文件，各存放50亿个url，每个url各占64B，内存限制是4GB，请找出a、b两个文件共同的url分析：由于每个url需要占64B，所以50亿个url占用空间大小为50亿×64=5GB×64=320GB.由于内存大小只有4GB，因此不可能一次性把所有的url加载到内

weixin_30244681·2018-11-25 20:00

大数据面试题总结（附答案）

目录最近由于要准备面试就开始提早看些面试、笔试题。以下是自己总结的一些经常出现、有价值的试题，包含hadoop、hive、hbase、storm、spark等。答案仅供参考，如有错误，请指出。试题不定时更新。hadoop相关试题MapTask并行机度是由什么决定的？由切片数量决定的。MR是干什么的？MR将用户编写的业务逻辑代码和自带的默认组件结合起来组成一个完整的分布式应用程序放到hadoop集群

Easoncwy·2018-11-04 22:51

大数据面试题以及答案整理（一）

kafka的message包括哪些信息一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic的值为1的时候，会在magic和crc32之间多一个字节的数据：attributes(保存一些相关属性，比如是否压缩、压缩格式等等)；如果magic的

Jenrey·2018-09-30 10:26

大数据面试题

spark算子https://blog.csdn.net/dream0352/article/details/62229977hadoop相关hadoop平台hadoop平台现在普遍认为整个ApacheHadoop“平台”包括Hadoop内核、MapReduce、Hadoop分布式文件系统（HDFS）以及一些相关项目，有ApacheHive和ApacheHBase等等。Hadoop的框架最核心的设

什锦甜·2018-09-20 08:18

互联网公司大数据面试题参考指南

以下面试题都是群里小伙伴提供的，现场真题(包含校招题)1.网易大数据面试题说说项目Spark哪部分用得好，如何调优Java哪部分了解比较好聊聊并发，并发实现方法，volatile关键字说说HashMap

数字支配万物的流转·2018-09-18 10:01

互联网大数据面试题集锦

原文地址:http://hbase.group/article/89以下面试题都是群里小伙伴提供的，现场真题(包含校招题)1.网易大数据面试题说说项目Spark哪部分用得好，如何调优Java哪部分了解比较好聊聊并发

有梦想的人不睡觉121·2018-09-17 10:57

大数据面试题(一)

一、.hdfs写文件的步骤答案：(1)client向NameNode申请上传…/xxx.txt文件(2)NN向client响应可以上传文件(3)Client向NameNode申请DataNode(4)NN向Client返回DN1,DN2,DN3(5)Client向DN1,DN2,DN3申请建立文件传输通道(6)DN3,DN2,DN1依次响应连接(7)Client向DN1上传一个block，DN1向

InnerPeace_·2018-09-04 23:41

大数据面试题（附答案）

Hive与传统数据库的区别查询语言HQLSQL数据存储位置HDFSRawDevice或者LocalFS数据格式用户定义系统决定数据更新不支持支持索引无有执行MapRedcueExecutor执行延迟高低可扩展性高低数据规模大小Hadoop的流程1.创建hadoop用户2.修改IP3.安装JDK，并配置环境变量4.修改host文件映射5.安装SSH，配置无秘钥通信6.上传解压hadoop安装包7.配

qq_39188446·2018-09-04 12:07

大数据面试题知识点分析（四）

转自：https://blog.csdn.net/qq_26803795/article/details/79152808为了保证效率和质量，每篇文章发布6个知识点，由简单及难，我们继续Hbase：1）hive跟hbase的区别是？1.hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储2.Hive是建立在Hadoop之上为了减少MapReducejobs编写工作的批处

雪泪寒飞起来·2018-08-29 19:57

30个常见的大数据面试题 --让你的薪资更上一层

30个常见的大数据面试题：包含spark、scala、storm、hadoop等常见的大数据处理工具；常用的分布式数据库如hbase、MongoDB、Redis等；其他常用的java基础、linux相关技术等

fct2001140269·2018-08-14 22:13

大数据面试题大全

卡夫卡的消息包括哪些信息一个卡夫卡的消息由一个固定长度的报头和一个变长的消息体体组成标题部分由一个字节的魔法（文件格式）和四个字节的CRC32（用于判断身体消息体是否正常）构成。当魔术的值为1的时候，会在魔术和CRC32之间多一个字节的数据：属性（保存一些相关属性，比如是否压缩，压缩格式等等）;如果魔术的值为0时，那么不存在属性属性文教释义体育的英文由ñ个字节构成的一个消息体，包含了具体的键/值消

郭首志·2018-08-14 19:45

大数据面试题MR部分及答案（14道）

1.hadoop运行原理MapReduceHDFS分布式文件系统（HDFS客户端的读写流程）写：客户端接收用户数据，并缓存到本地当缓存足够一个HDFS大小的时候客户端同NameNode通讯注册一个新的块注册成功后NameNode给客户端返回一个DateNode的列表客户端向列表中的第一个DateNode写入块收到所有的DateNode确认信息后，客户端删除本地缓存客户端继续发送下一个块重复以上步骤

QianShiK·2018-08-07 14:58

大数据面试题MR部分及答案（14道）

1.hadoop运行原理MapReduceHDFS分布式文件系统（HDFS客户端的读写流程）写：客户端接收用户数据，并缓存到本地当缓存足够一个HDFS大小的时候客户端同NameNode通讯注册一个新的块注册成功后NameNode给客户端返回一个DateNode的列表客户端向列表中的第一个DateNode写入块收到所有的DateNode确认信息后，客户端删除本地缓存客户端继续发送下一个块重复以上步骤

QianShiK·2018-08-07 14:58

大数据面试题hadoop部分及答案(16道)

1.Hadoop安装步骤（九部曲）？主从节点都要操作的：1.在/etc/hosts下配置IP及主机名2.创建hadoop用户（同时配置hosts）3.安装jdk4.配置环境变量/etc/profile5.在主节点操作（1）解压并安装hadoop（2）配置参数文件core-site.xml、hdfs-site.xml、mapred-site.xml、master、slaves（3）将主节点的hado

QianShiK·2018-08-06 16:27

大数据面试题一

1、简答说一下hadoop的map-reduce编程模型首先maptask会从本地文件系统读取数据，转换成key-value形式的键值对集合使用的是hadoop内置的数据类型，比如longwritable、text等将键值对集合输入mapper进行业务处理过程，将其转换成需要的key-value在输出之后会进行一个partition分区操作，默认使用的是hashpartitioner，可以通过重写

franklyna·2018-07-30 10:24

出一套高端大数据开发面试题（刷起来！！！）

一千个读者眼中有一千个哈姆雷特，一千名大数据程序员心目中就有一千套大数据面试题。本文就是笔者认为可以用来面试大数据程序员的面试题。

fenghuo9527·2018-07-27 15:01

大数据面试题

cs_mycsdn·2018-07-27 14:25

大数据面试题集锦(五)

1、简答说一下hadoop的map-reduce编程模型首先maptask会从本地文件系统读取数据，转换成key-value形式的键值对集合使用的是hadoop内置的数据类型，比如longwritable、text等将键值对集合输入mapper进行业务处理过程，将其转换成需要的key-value在输出之后会进行一个partition分区操作，默认使用的是hashpartitioner，可以通过重写

Zzreal·2018-06-19 16:53

大数据面试题集锦(四)

1.MRV1有哪些不足？1)可扩展性（对于变化的应付能力）a)JobTracker内存中保存用户作业的信息b)JobTracker使用的是粗粒度的锁2)可靠性和可用性a)JobTracker失效会多事集群中所有的运行作业，用户需手动重新提交和恢复工作流3)对不同编程模型的支持HadoopV1以MapReduce为中心的设计虽然能支持广泛的用例，但是并不适合所有大型计算,如storm，spark2.

Zzreal·2018-06-14 16:51

Spark大数据面试题1

1、spark在什么场景比不上MapReduce?Spark在内存中处理数据，需要很大的内存容量。如果Spark与其它资源需求型服务一同运行在YARN上，又或者数据块太大以至于不能完全读入内存，此时Spark的性能就会有很大的降低，此时Spark可能比不上MapReduce。当对数据的操作只是简单的ETL的时候，Spark比不上MapReduce。2、sparksql和sql的区别？没关系语法类似

Mr_249·2018-06-03 10:42

Hadoop大数据面试题

1、hadoop操作命令mv对比copy?mv性能更高，copy会改变时间属性，mv不会。2、操作HDFS有哪几种方式？JAVAAPI、WebUI、Shell3、MR的执行流程（yarn的工作流程、作业执行过程）？客户端提交一个作业，ResourceManager为该作业分配第一个Container,并与对应的NodeManager通信，要求NodeManager在这个Container内启动作业

Mr_249·2018-06-02 13:10

Hadoop大数据面试题（全）

以下资料来源于互联网，很多都是面试者们去面试的时候遇到的问题，我对其中有的问题做了稍许的修改了回答了部分空白的问题，其中里面有些考题出的的确不是很好，但是也不乏有很好的题目，这些都是基于真实的面试来的，希望对即将去面试或向继续学习hadoop，大数据等的朋友有帮助！前言有一句话叫做三人行必有我师，其实做为一个开发者，有一个学习的氛围跟一个交流圈子特别重要这是一个我的大数据交流学习群53162918

fenghuo9527·2018-05-22 20:40

Hadoop大数据面试题（全）

原文链接：https://yq.aliyun.com/articles/614709以下资料来源于互联网，很多都是面试者们去面试的时候遇到的问题，我对其中有的问题做了稍许的修改了回答了部分空白的问题，其中里面有些考题出的的确不是很好，但是也不乏有很好的题目，这些都是基于真实的面试来的，希望对即将去面试或向继续学习hadoop，大数据等的朋友有帮助！前言有一句话叫做三人行必有我师，其实做为一个开发者

weixin_34087503·2018-05-22 20:40

大数据面试题

1、mapreduce的大致流程2、列出正确的hadoop集群中hadoop都分别启动那些进程，他们的作用分别是什么，尽量详细些。3、请列出你所知道的hadoop调度器，并简要说明其工作方法。4.flume不采集Nginx日志，通过logger4j采集日志，优缺点是什么？在nginx采集日志时无法获取session的信息，然而logger4j则可以获取session的信息，logger4j的方式比

蘑菇丁·2018-05-21 17:00

117道有关大数据面试题解析，希望对你有所帮助

一.简述如何安装配置apache的一个开源的hadoop使用root账户登陆2.修改ip3.修改host主机名4.配置ssh免密登陆5.关闭防火墙6.安装ＪＤＫ7.解压hadoop安装包8.配置hadoop的核心配置文件hadoop-env.sh?core-site.xml?mapred-site.xmlyarn-site.xmlhdfs-site.xml9.配置hadoop的环境变量10.格式化

琳达老师·2018-05-21 16:31

推荐频道

大数据面试题

大数据面试题（一)

大数据面试题及答案（超详细）

[大数据面试题]storm核心知识点

大数据面试题

大数据面试题整理

大数据的那些面试题及答案(一)

大数据面试个人总结

大数据面试题整理

大数据面试题——Hive篇

经典大数据面试题

大数据面试题——如何从大量数据中找出高频词

谈一谈你对zookeeper 的理解（大数据面试题系列~~）

(大数据面试题系列~)

（大数据面试题系列！！！）

大数据面试题

你知道大数据的面试都问了什么吗？90%机率会碰到的面试题及答案整理

2018年大数据面试题总结

大数据面试题—6

2018最新BAT大数据面试题答案

2018最新BAT大数据面试题答案

2018最新BAT大数据面试题答案

2019最新大数据面试题 助力大家度过笔试关

2018年大数据工程师面试题，99%会机率碰到的海量题

2018年大数据工程师面试题，99%会机率碰到的海量题

大数据面试题——如何找出访问最多的IP

大数据面试题——如何从大量的url中找出相同的url

大数据面试题总结（附答案）

大数据面试题以及答案整理（一）

大数据面试题

互联网公司大数据面试题参考指南

互联网大数据面试题集锦

大数据面试题(一)

大数据面试题 （附答案）

大数据面试题知识点分析（四）

30个常见的大数据面试题 --让你的薪资更上一层

大数据面试题大全

大数据面试题MR部分及答案（14道）

大数据面试题MR部分及答案（14道）

大数据面试题hadoop部分及答案(16道)

大数据面试题一

出一套高端大数据开发面试题（刷起来！！！）

大数据面试题

大数据面试题集锦(五)

大数据面试题集锦(四)

Spark大数据面试题1

Hadoop大数据面试题

Hadoop大数据面试题（全）

Hadoop大数据面试题（全）

大数据面试题

117道有关大数据面试题解析，希望对你有所帮助

2019最新大数据面试题助力大家度过笔试关

大数据面试题（附答案）