大数据面试题第4页

Flink实战（108）：connector（十七）hdfs 读写（二）写

王知无-大数据技术与架构·2021-01-23 15:20

Flink实战（八十三）：flink-sql使用（十）维表join（五）Flink SQL之维表join之Temporal Table Join

王知无-大数据技术与架构·2021-01-23 15:25

Flink实战（七十五）：flink-sql使用（三）简介（三）配置

王知无-大数据技术与架构·2021-01-23 14:52

Flink实战（七十三）：flink-sql使用（一）简介（一）入门

王知无-大数据技术与架构·2021-01-23 14:22

Flink实例（六十二）: connectors（十三）clickhouse 写入 (二)使用JDBC connector写入ClickHouse

王知无-大数据技术与架构·2021-01-23 14:40

Flink实例（五十九）：维表join（三）Flink 使用 broadcast 实现维表或配置的实时更新

王知无-大数据技术与架构·2021-01-23 14:27

Flink实例（五十八）：维表join（二）Flink维表Join实践

王知无-大数据技术与架构·2021-01-23 14:10

Flink实例（五十四）：状态管理（十二）自定义操作符状态（六）广播状态（Broadcast state）（四）广播状态实用指南

王知无-大数据技术与架构·2021-01-23 14:27

Flink实战案例：状态管理（十一）自定义操作符状态（五）广播状态（Broadcast state）（三）

王知无-大数据技术与架构·2021-01-23 14:11

Flink实战案例（四十三）: Operators（四）FLATMAP

王知无-大数据技术与架构·2021-01-23 13:57

Flink实战案例（三十七）：状态管理（八）自定义操作符状态（三）广播状态（Broadcast state）（一） KeyedBroadcastProcessFunction

王知无-大数据技术与架构·2021-01-21 13:49

Flink实战案例实例（二）: 如何正确使用 Flink Connector？

王知无-大数据技术与架构·2021-01-19 18:50

Nahshon·2021-01-18 15:28

Flink在实时计算平台和实时数据仓库中的作用

王知无-大数据技术与架构·2021-01-17 20:51

Flink SQL和Table编程和案例

王知无-大数据技术与架构·2021-01-17 19:21

Flink常用的DataSet 和 DataStream API

王知无-大数据技术与架构·2021-01-17 19:43

Flink入门程序WordCount 和 SQL实现

王知无-大数据技术与架构·2021-01-17 19:48

2021年最新版大数据面试题全面总结-持续更新

更新内容和时间表2021.04.27更新【大数据技术与架构】2021年大数据面试进阶系列系统总结大数据基础篇Part0：Java基础篇Part1：Java高级篇Part2：Java之JVM篇Part3：NIO和Netty篇Part4：分布式理论篇框架篇Part5：Hadoop之MapReducePart6：Hadoop之HDFSPart7：Hadoop之YarnPart8：Hadoop之Zooke

王知无-大数据技术与架构·2021-01-10 12:40

java 手写阻塞队列_百度,阿里,头条,美团,滴滴详细面经+Java大数据面试题

秋招结束，拿到了几个意向offer，除阿里五面跪，其他比较顺利。面经中有自己补充的内容，也有春招实习生的，这是我准备秋招的所有面经，希望有用。百度运维部，基础平台研发工程师(一面)1.手写快排2.如何利用zookeeper进行选举，画图说明3.用zookeeper做任务分配如何实现4.什么是脑裂5.如何解决脑裂？并分别说明namenode和resourcemanager如何避免的脑裂？6.如何实现

華先生·2021-01-02 03:37

大数据面试题带答案

版本更新时间更新内容v1.02020-07-01新建v1.12020-07-18朋友面试大数据工程师提供的关于架构及数仓方面的题目(智云健康)v1.22020-08-08朋友面试数据专家提供的数据驱动，spark及flink方面面试题(华为，阿里，小影，拼便宜)v1.32020-08-22朋友面试数据开发提供的关于hive及数仓方面的题目(美团)v1.42020-09-06老徐提供蚂蚁阿里微店面试

小蜗牛666·2020-12-23 17:58

全面认识当前市面99%的大数据技术框架（附:各大厂大数据技术应用文章）

目录全面大数据面试题大数据领域分析系统平台集群管理与监控文件系统资源调度协调框架数据存储数据处理数据查询和分析数据收集消息系统任务调度数据治理数据可视化云平台大数据必知点大厂应用实践全面大数据面试题2020

菜鸟也学大数据·2020-12-20 18:58

【6w字干货】2020大数据面试题真题总结(附答案)

版本更新时间更新内容v1.02020-07-01新建v1.12020-07-18朋友面试大数据工程师提供的关于架构及数仓方面的题目(智云健康)v1.22020-08-08朋友面试数据专家提供的数据驱动，spark及flink方面面试题(华为，阿里，小影，拼便宜)v1.32020-08-22朋友面试数据开发提供的关于hive及数仓方面的题目(美团)v1.42020-09-06老徐提供蚂蚁阿里微店面试

简说Python·2020-11-21 19:35

2020大数据面试题真题总结(附答案)

版本更新时间更新内容v1.02020-07-01新建v1.12020-07-18朋友面试大数据工程师提供的关于架构及数仓方面的题目(智云健康)v1.22020-08-08朋友面试数据专家提供的数据驱动，spark及flink方面面试题(华为，阿里，小影，拼便宜)v1.32020-08-22朋友面试数据开发提供的关于hive及数仓方面的题目(美团)v1.42020-09-06老徐提供蚂蚁阿里微店面试

无精疯·2020-11-18 11:00

大数据面试题题目2020年底总结（一）

大数据面试题集锦（一）1.javaJVM内存结构栈堆方法区程序计数器JVM内存回收机制哪些需要回收判断算法引用计数法每个对象创建的时候，会分配一个引用计数器，当这个对象被引用的时候计数器就加1，当不被引用或者引用失效的时候计数器就会减

闻香识代码·2020-11-05 21:03

宝兰德大数据面试题

宝兰德答题须知：1、笔试时间为30分钟；2、请保持试题整洁，将答案写到答题纸上；3、笔试题目请独立完成，不要使用任何参考书，不要请其他人协助完成；4、答题完成后，请将答题纸和试卷本身均交给工作人员。一单选题（每题3分）1、下面代码的运行结果是（）publicclassTest{ Lista=null;test(a);System.out.println(a.size());} publicstat

美食江湖·2020-10-10 09:27

大数据面试题

1、你处理过的最大的数据量？你是如何处理他们的？处理的结果。2、告诉我二个分析或者计算机科学相关项目？你是如何对其结果进行衡量的？3、什么是：提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则？4、什么是：协同过滤、n-grams,mapreduce、余弦距离？5、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库？6、如何设计一个解决抄袭的方案？7、如何

anningzhu·2020-09-17 11:45

大数据面试题

卡夫卡的消息包括哪些信息一个卡夫卡的消息由一个固定长度的报头和一个变长的消息体体组成标题部分由一个字节的魔法（文件格式）和四个字节的CRC32（用于判断身体消息体是否正常）构成。当魔术的值为1的时候，会在魔术和CRC32之间多一个字节的数据：属性（保存一些相关属性，比如是否压缩，压缩格式等等）;如果魔术的值为0时，那么不存在属性属性文教释义体育的英文由ñ个字节构成的一个消息体，包含了具体的键/值消

TGHLB·2020-09-16 13:17

大数据面试题及答案

欧阳子卿·2020-09-16 07:35

117道有关大数据面试题解析希望对你有所帮助

一.简述如何安装配置apache的一个开源的hadoop1.使用root账户登陆2.修改ip3.修改host主机名4.配置ssh免密登陆5.关闭防火墙6.安装ＪＤＫ7.解压hadoop安装包8.配置hadoop的核心配置文件hadoop-env.sh?core-site.xml?mapred-site.xmlyarn-site.xmlhdfs-site.xml9.配置hadoop的环境变量10.格

Java架构没有996·2020-09-15 12:27

Hadoop之HDFS常见面试题

大数据面试题+一：HDFS面试题1．HDFS的写流程1）客户端通过DistributedFileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。

不言尘世·2020-09-14 12:19

大数据面试题

一、hadoop（1）、概念题1、简述hadoop生态组件2、mapreduce原理3、对mapreduce的了解4、hadoop任务调度，进程调度5、mapReduce的过程6、hadoop的事务怎么操作7、请描述HDFS存储的机制8、请详细比较Hadoop和传统SQL数据库9、请用MapReduce如何实现两张表连接，有哪些方法10、请描述MapReduce架构中combiner,partit

流云先生·2020-09-13 00:22

大数据经典面试问题总结

大数据面试题关键点1.Hash函数2.Map_reduce3.bit_Map4.桶排序5.一致性哈希算法理解上述几点就可以掌握大数据算法第一步，先对文本做预处理map阶段reduce阶段思路类似于桶排序桶排序

wwxy261·2020-09-11 18:56

小麦公社大数据面试题

小麦公社面试题（1）Scala中协变逆变的应用场景。（2）Spark中隐式转化的应用场景（3）Spark中基于standalone还是Yarn？计算引擎是什么？（4）Jdk1.7hashmap怎么设计的，为什么引入红黑树？链表的查找方式和红黑树的查找方式有什么不同？（5）Java并发安全是怎么理解的？（6）Map和FlatMap区别对结果集的影响有什么不同（7）对RDD的理解（8）Transfor

美食江湖·2020-09-11 12:16

2019大数据面试题（BAT）

1、kafka的message包括哪些信息一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic的值为1的时候，会在magic和crc32之间多一个字节的数据：attributes(保存一些相关属性，比如是否压缩、压缩格式等等)；如果magi

weixin_38747592·2020-09-10 20:23

大数据面试题之葵花宝典------Flink初级

葵花宝典------Flink初级1、简单介绍一下Flink2、Flink相比传统的SparkStreaming区别?3、Flink的组件栈有哪些？4、Flink的运行必须依赖Hadoop组件吗？5、你们的Flink集群规模多大？6、Flink的基础编程模型了解吗？7、Flink集群有哪些角色？各自有什么作用？8、说说Flink资源管理中TaskSlot的概念9、说说Flink的常用算子？10、说

海鸥~·2020-09-07 21:32

超全面的大数据面试题，一道比一道难，快来挑战一下吧

【过往记忆大数据】已开通技术交流及招聘求职内推群，加微信号fangzhen0219为好友后入群。本文全文篇幅1万字左右，从数据结构到Java再到大数据都有整理，可以先收藏起来，查漏补缺。Java基础1、Queue和Stack你平时有用过么，说说你常用的方法，他们的区别在哪呢？2、了解java的异常吗，有什么区别，常见的异常有哪些呢？3、两个字面值相同的Integer，它们两个用等于号去比较，结果是

过往记忆·2020-08-23 07:26

大数据面试题——如何从大量数据中找出高频词

问题描述：有一个1GB大小的文件，文件里面每一行是一个词，每个词的大小不超过16B，内存大小限制为1MB，要求返回频数最高的100个词。分析：由于文件大小为1GB，而内存的大小只有1MB，因此不能一次把所有的词读入到内存中去处理，可以采用分治的方法进行处理：把一个文件分解为多个小的子文件，从而保证每个文件的大小都小于1MB，进而可以直接被读取到内存中处理。解题思路：1、遍历文件，对遍历到的每一个词

weixin_30736301·2020-08-22 03:49

算法系列-大数据面试题-大文件中返回频数最高的100个词

1.题目描述有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M，要求返回频数最高的100个词2.思考过程（1）参见我的其他大数据面试题博文。

五癫·2020-08-22 00:08

大数据面试

适合应届生的大数据面试题一、java基础1、Queue（队列）和Stack（栈）你平时有用过么，说说你常用的方法，他们的区别在哪呢？2、了解java的异常吗，有什么区别，常见的异常有哪些呢？

走不到尽头的程序员·2020-08-21 14:37

互联网公司大数据面试题

互联网公司大数据面试题参考指南以下面试题都是群里小伙伴提供的，现场真题(包含校招题)1.网易大数据面试题说说项目Spark哪部分用得好，如何调优Java哪部分了解比较好聊聊并发，并发实现方法，volatile

章然同学·2020-08-21 06:19

大数据面试题

1.hbase数据的读取流程Rowkey读取为例，跟写流程一样，先跟Zookeeper进行连接，通过访问MetaRegionserver节点信息，HBase的meta表缓存到本地，获取要访问的表的Region的信息。当Client知道要访问的表在哪个Regionserver之后，Client就对那个Regionserver发起读请求。Regionserver接收该读请求之后，经过复杂的处理之后，就

婲落ヽ紅顏誶·2020-08-21 05:31

大数据面试题总结

1.大数据技术1.1描述一下checkpoint的流程？Checkpoint其实就是所有任务的状态，在某个时间点的一份拷贝（一份快照），这个时间点应该是所有任务都恰好处理完一个相同的输入数据的时候。1.2描述一下两阶段提交？对于每个checkpoint，sink任务会启动一个事务，并将接下来所有接收的数据添加到事务里，然后将这些数据（流式的）写入外部sink系统，但不提交他们--这时只是预提交（一

ch123·2020-08-20 17:41

大数据面试题总结

1.大数据技术1.1描述一下checkpoint的流程？Checkpoint其实就是所有任务的状态，在某个时间点的一份拷贝（一份快照），这个时间点应该是所有任务都恰好处理完一个相同的输入数据的时候。1.2描述一下两阶段提交？对于每个checkpoint，sink任务会启动一个事务，并将接下来所有接收的数据添加到事务里，然后将这些数据（流式的）写入外部sink系统，但不提交他们--这时只是预提交（一

ch123·2020-08-20 17:41

精心整理的ebay大数据面试题(全)

前言学习群的几个小伙伴和我都有面试ebay大数据岗位的经历，而且也都拿了offer，我特意抽出了一些时间把问题和部分答案就行了汇总，希望对大家有帮助。全文篇幅1万字左右，从数据结构到Java再到大数据都有整理，可以先收藏起来，补缺补漏。ebay大数据组也持续招人，要投简历的可以把简历私发到我微信。小提示：绿色的题代表是简单的，黄色的题代表中等，红色代表有点难度；绿色题回答的很全面，很深入，则有可能

无精疯·2020-08-16 11:56

大数据面试题及答案下篇 03

–第二部分kafka,scala,sparkday01kafka1.和zk的关系元数据存放到zk(节点)中,应用了zk的统一命名的功能集群节点信息:brokerId每台机器的idtopic信息:在哪台机器上的哪个位置parititon主从信息:每个partition多个副本中,谁是老大partition_0有多个副本,需要选择出老大,应用了zk的分布式锁功能kafka没有单独的界面,zk,或者安装

啊策策·2020-08-15 16:31

大数据面试题演练

一面面试官人很nice，遇到不会的也会安慰我说没关系，上来先自我介绍，说下项目，说说对hadoop的理解，都有哪些组件，分别是干什么的还了解大数据其他组件嘛？这里我说了下kafka，然后巴拉巴拉，，，kafka在什么地方需要用到zookeeper了解HBase吗？说下spark中的transform和action为什么spark要把操作分为transform和actionspark中有了RDD，为

wwxy261·2020-08-15 04:24

大数据面试题之shell

shell面试题1、shell常用工具awk:文本处理工具sed:利用脚本来处理文本文件，是一款流编辑工具，用来对文本进行过滤和替换操作cut:选取工具，就是将一段数据经过分析，取出我们想要的数据sort：排序工具2、用shell写脚本1）集群启动脚本2）数仓与mysql的导入导出3）数仓层级内部的导入3、企业面试题（linux和shell）百度问题：Linux常用命令参考答案：find、df、t

2401号行者·2020-08-14 21:31

大数据面试题(五)----HIVE的调优及数据倾斜

一、hive表的优化1）小表、大表Join将key相对分散，并且数据量小的表放在join的左边，这样可以有效减少内存溢出错误发生的几率；再进一步，可以使用Group让小的维度表（1000条以下的记录条数）先进内存。在map端完成reduce。实际测试发现：新版的hive已经对小表JOIN大表和大表JOIN小表进行了优化。小表放在左边和右边已经没有明显区别。案例实操（0）需求：测试大表JOIN小表和

北京小辉·2020-08-14 19:55

【面试】将 95% 求职者拒之门外的BAT大数据面试题-附解题方法（文末有福利）

写在前面最近不少读者找我要大数据面试题，我整理了很久，筛选出这10道容易出错的大数据面试题，希望对大家有所帮助。题目与解答整理自互联网，感谢分享这些面经的技术大牛们！

冰河·2020-08-14 02:02

大数据面试题真题

目录一.Hadoop1.hdfs写流程2.hdfs读流程3.hdfs的体系结构4.一个datanode宕机,怎么一个流程恢复5.hadoop的namenode宕机,怎么解决6.namenode对元数据的管理7.元数据的checkpoint8.yarn资源调度流程9.hadoop中combiner和partition的作用10.用mapreduce怎么处理数据倾斜问题？11.shuffle阶段,你怎

复姓独孤·2020-08-12 13:29

推荐频道

大数据面试题

Flink实战（108）：connector（十七）hdfs 读写（二）写

Flink实战（八十三）：flink-sql使用（十）维表join（五）Flink SQL之维表join之Temporal Table Join

Flink实战（七十五）：flink-sql使用（三）简介（三）配置

Flink实战（七十三）：flink-sql使用（一）简介（一）入门

Flink实例（六十二）: connectors（十三）clickhouse 写 入 (二)使用JDBC connector写入ClickHouse

Flink实例（五十九）：维表join（三）Flink 使用 broadcast 实现维表或配置的实时更新

Flink实例（五十八）：维表join（二）Flink维表Join实践

Flink实例（五十四）：状态管理（十二）自定义操作符状态（六）广播状态（Broadcast state）（四）广播状态实用指南

Flink实战案例：状态管理（十一）自定义操作符状态（五）广播状态（Broadcast state）（三）

Flink实战案例（四十三）: Operators（四）FLATMAP

Flink实战案例（三十七）：状态管理（八）自定义操作符状态（三）广播状态（Broadcast state）（一） KeyedBroadcastProcessFunction

Flink实战案例实例（二）: 如何正确使用 Flink Connector？

大数据面试题（相关知识点罗列）

Flink在实时计算平台和实时数据仓库中的作用

Flink SQL和Table编程和案例

Flink常用的DataSet 和 DataStream API

Flink入门程序WordCount 和 SQL实现

2021年最新版大数据面试题全面总结-持续更新

java 手写阻塞队列_百度,阿里,头条,美团,滴滴详细面经+Java大数据面试题

大数据面试题带答案

全面认识当前市面99%的大数据技术框架（附:各大厂大数据技术应用文章）

【6w字干货】2020大数据面试题真题总结(附答案)

2020大数据面试题真题总结(附答案)

大数据面试题题目2020年底总结（一）

宝兰德大数据面试题

大数据面试题

大数据面试题

大数据面试题及答案

117道有关大数据面试题解析 希望对你有所帮助

Hadoop之HDFS常见面试题

大数据面试题

大数据经典面试问题总结

小麦公社大数据面试题

2019大数据面试题（BAT）

大数据面试题之葵花宝典------Flink初级

超全面的大数据面试题，一道比一道难，快来挑战一下吧

大数据面试题——如何从大量数据中找出高频词

算法系列-大数据面试题-大文件中返回频数最高的100个词

大数据面试

互联网公司大数据面试题

大数据面试题

大数据面试题总结

大数据面试题总结

精心整理的ebay大数据面试题(全)

大数据面试题及答案下篇 03

大数据面试题演练

大数据面试题之shell

大数据面试题(五)----HIVE的调优及数据倾斜

【面试】将 95% 求职者拒之门外的BAT大数据面试题-附解题方法（文末有福利）

大数据面试题真题

Flink实例（六十二）: connectors（十三）clickhouse 写入 (二)使用JDBC connector写入ClickHouse

117道有关大数据面试题解析希望对你有所帮助