大数据面试第5页

大数据面试通关手册｜Hadoop系列之MapReduce

⭐⭐欢迎关注博客主页：https://blog.csdn.net/u013411339⭐⭐欢迎点赞收藏⭐留言，欢迎留言交流！⭐⭐本文由【王知无】原创，首发于CSDN博客！⭐⭐本文首发CSDN论坛，未经过官方和本人允许，严禁转载！1、谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化?1）序列化和反序列化（1）序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储（持久

王知无(import_bigdata)·2023-01-07 15:07

大数据面试题——Spark数据倾斜调优（五）

1、数据倾斜数据倾斜指的是，并行处理的数据集中，某一部分（如Spark或Kafka的一个Partition）的数据显著多于其它部分，从而使得该部分的处理速度成为整个数据集处理的瓶颈。数据倾斜俩大直接致命后果。1、数据倾斜直接会导致一种情况：OutOfMemory。2、运行速度慢。主要是发生在Shuffle阶段。同样Key的数据条数太多了。导致了某个key(下图中的80亿条)所在的Task数据量太大

蓦然_·2023-01-02 11:19

阿里云大数据开发一面面经，已过，面试题已配答案

参考答案来源：大数据面试题V3.0，523道题，679页，46w字二面：阿里云大数据开发二面面经，已过，面试题已配答案_蓦然_的博客-CSDN博客1、实习经历这一点就不多说了，每个人都不一样，根据自己的介绍就行

蓦然_·2022-12-31 16:35

2021年大数据面试宝典完整版（含答案解析）

本文转载自微信公众号《大数据私房菜》，原文章链接为：https://mp.weixin.qq.com/s/0mgy07WAMBYNBP6er8_hDA版本更新时间更新内容v1.02020-07-01新建v1.12020-07-18朋友面试大数据工程师提供的关于架构及数仓方面的题目v1.22020-08-08朋友面试数据专家提供的数据驱动，spark及flink方面面试题v1.32020-08-22

行走的数据智能·2022-12-27 19:46

【面试真题】今日头条大数据面试100题，收藏备用

1、简述WordCount的实现过程2、简述MapReduce与Spark的区别与联系3、Spark在客户端与集群运行的区别4、相同的SQL在HiveSql与SparkSQL的实现中，为什么Spark比Hadoop快5、简述自定义UDF实现过程6、HBase表设计有哪些注意事项7、谈谈你对HBase的HLog的理解8、数据同样存在HDFS，为什么HBase支持在线查询9、SparkSQL操作Hiv

大数据研习社·2022-12-21 04:02

大数据面试题：介绍下YARN

介绍YARN，可以先考虑下面两个问题1）如何管理集群资源？2）如何给任务合理分配资源？YARN是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。YARN作为一个资源管理、任务调度的框架，主要包含ResourceManager、NodeManager、ApplicationMaster和Conta

蓦然_·2022-12-18 22:59

YARN面试题总结（大数据面试）

YARN概述YARN是一种新的Hadoop资源管理器，它是一个通用资源管理系统。可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大优点。YARN最初是为了修复MapReduce实现里的明显不足，并对可伸缩性（支持一万个节点和二十万个内核的集群）、可靠性和集群利用率进行了提升。YARN实现这些需求的方式是，把JobTracker的两个主要功能（资源管

404个问号·2022-12-18 22:22

大数据面试题（四）：Yarn核心高频面试题

文章目录Yarn核心高频面试题一、简述Hadoop1与Hadoop2的架构异同二、为什么会产生yarn，它解决了什么问题，有什么优势？三、HDFS的数据压缩算法？及每种算法的应用场景？1、gzip压缩2、Bzip2压缩3、Lzo压缩4、Snappy压缩四、Hadoop的调度器总结五、Mapreduce推测执行算法及原理Yarn核心高频面试题一、简述Hadoop1与Hadoop2的架构异同加入了ya

Lansonli·2022-12-18 22:40

人工智能与大数据面试指南——Python

分类目录：《人工智能与大数据面试指南》总目录《人工智能与大数据面试指南》系列下的内容会持续更新，有需要的读者可以收藏文章，以及时获取文章的最新内容。

von Neumann·2022-12-14 10:19

大数据面试3分钟自我介绍_通用面试两分钟自我介绍范文5篇

通用面试两分钟自我介绍范文5篇面试两分钟自我介绍范文(一)各位考官好，今天能够站在这里参加面试，有机会向各位考官请教和学习，我感到非常的荣幸。希望通过这次面试能够把自己展示给大家，希望大家记住我。我叫xxx，今年xx岁。汉族，法学本科。我平时喜欢看书和上网浏览信息。我的性格比较开朗，随和。能关系周围的任何事，和亲人朋友能够和睦相处，并且对生活充满了信心。我以前在检察院实习过，所以有一定的实践经验。

weixin_39887531·2022-12-13 10:17

大数据面试题

hadoop面试100道收集（带答案）标签：hadoop面试2016-04-2700:283993人阅读评论(0)收藏举报本文章已收录于：.embody{padding:10px10px10px;margin:0-20px;border-bottom:solid1px#ededed;}.embody_b{margin:0;padding:10px0;}.embody.embody_t,.embod

unity_kw_do·2022-12-04 00:48

2021-03大数据面试题

Java:1.类加载器机制，都有哪些类加载器2.解释SPI3.GC算法、cms和g1收集流程、GCRoots4.synchronized和reenrantLock的区别5.synchronized的锁升级过程，什么情况下会由cas升级到重量级锁6.什么情况下会oom和stackOverFlow7.什么情况下会FullGC8.什么情况下对象会进入老年代9.ConcurrentHashMap原理10.

xianbin.yang·2022-11-29 16:37

大数据面试题（五）：Hadoop优化核心高频面试题

文章目录Hadoop优化核心高频面试题一、Mapreduce跑的慢的原因？1、计算机性能2、I/O操作优化二、Mapreduce优化方法1、数据输入2、map阶段3、reduce阶段4、IO传输5、数据倾斜问题6、常用的调优参数三、HDFS小文件优化方法1、HDFS小文件弊端2、解决方案3、CombineFileInputFormat4、开启JVM重用四、MapReduce怎么解决数据均衡问题，如

Lansonli·2022-11-29 16:30

flink学习总结（大数据面试）

Flink概述Flink是一个开源的流处理框架，应用于分布式、高性能、高可用的数据流应用程序。可以处理有限数据流和无限数据，即能够处理有边界和无边界的数据流。无边界的数据流就是真正意义上的流数据，所以Flink是支持流计算的。有边界的数据流就是批数据，所以也支持批处理的。不过Flink在流处理上的应用比在批处理上的应用更加广泛，统一批处理和流处理也是Flink目标之一。Flink可以部署在各种集群

404个问号·2022-11-29 15:14

【先收藏，早晚用得到】49个Flink高频面试题系列（一）

【先收藏，早晚用得到】49个Flink高频面试题系列（一）持续分享有用、有价值、精选的优质大数据面试题致力于打造全网最全的大数据面试专题题库一.你在开发Flink任务时，有没有遇到过背压问题，你是如何排查的

大数据研习社·2022-11-29 15:13

大数据面试题_数据仓库篇

文章目录大数据面试题_数据仓库篇离线数据仓库1、为什么要对数据仓库分层？2、数据建模用的哪些模型？3、你感觉数仓建设中最重要的是什么大数据面试题_数据仓库篇离线数据仓库1、为什么要对数据仓库分层？

Jerry Hong·2022-11-24 23:19

如何排查Flink生成环境中的反压问题

王知无(import_bigdata)·2022-11-12 05:27

「硬刚Doris系列」Apache Doris的向量化和Roaring BitMap

点击上方蓝色字体，选择“设为星标”回复"面试"获取更多惊喜轻戳有惊喜：全网最全大数据面试提升手册！

王知无(import_bigdata)·2022-11-10 11:40

大数据面试重点之kafka(六)

大数据面试重点之kafka(六)Kafka分区分配算法可回答：Kafka的partition分区策略问过的一些公司：阿里云，小米参考答案：1、生产者分区分配策略生产者在将消息发送到某个Topic，需要经过拦截器

大数据小理·2022-11-09 19:05

大数据面试题总结

大数据为什么这么快1、扩展性传统的是纵向扩展（服务器数量不变，每个的配置越来越高）大数据是横向扩展（每个的配置不变，但服务器数量越来越多）2、分布式传统的是集中式存储，集中式计算大数据是分布式存储，分布式计算3、可用性传统的是单份数据（存储数据的磁盘少）大数据是多份数据（存储数据的磁盘多）4、模型传统的是移动数据到程序端大数据是移动程序到数据端（减少了大量的IO开销和网络开销，利用并行计算，并行存

ischangle·2022-10-12 10:04

全网最全的的java大数据面试题

前言学习群的几个小伙伴和我都有面试ebay大数据岗位的经历，而且也都拿了offer，我特意抽出了一些时间把问题和部分答案就行了汇总，希望对大家有帮助。全文篇幅1万字左右，从数据结构到Java再到大数据都有整理，可以先收藏起来，补缺补漏。ebay大数据组也持续招人。一、java基础1、Queue和Stack你平时有用过么，说说你常用的方法，他们的却别在哪呢？2、了解java的异常吗，有什么区别，常见

搬砖养女人·2022-10-12 10:10

大数据面试题（校招）

项目1.介绍电商数仓项目2.在项目中用的什么数据栈？3.数据仓库建模几种方式一般有关系建模和维度建模，关系建模遵循范式，一般有一范式、二范式、三范式、bc范式等。维度建模一般有星型模型、雪花模型、星座模型。星型模型允许数据冗余但是减少shuffle、雪花模型一般遵循范式，数据冗余少但增多工作量。星座模型与前两种不冲突，由多张事实表汇总。4.讲一下维度建模，维度表维度建模有两种表：维度表、事实表。事

梧桐林.·2022-10-12 10:38

大数据面试题（每天更新，直到我找到工作）

Hadoop1.MR工作原理分为三个阶段，map,shuffle,reduce.MR将得到的切片split分配给maptask,每个任务处理相对于的split,将split以line的方式读取每一行数据，进行mapTask运算。加载到环形缓冲区（默认为100M），双向读写（一边存元数据和索引，一边存数据），达到80M进行溢写操作期间会进行kv分区（分区数由reduce数来决定）默认使用hashpa

编程爱上我吧·2022-10-12 10:23

常见大数据面试题汇总带答案

大数据面试题汇总**牛客网刷sql题**redisflumeflink(大部分知识点写过的帖子里都有)mr，java,集群算法题kafka维度建模分为哪几种?

Direction_Wind·2022-10-12 10:55

大数据面试题汇总【持续更新】

前言本文内容是根据自身对相应知识的浅薄理解，如有错误欢迎指正~大数据生态圈Hadoop架构HDFS（分布式文件系统）:解决海量数据的存储问题NameNode：集群当中的主节点，管理元数据，主要用于管理集群当中的各种数据SecondaryNameNode：辅助Hadoop对中元数据信息的管理DataNode：集群当中的从节点，主要用于存储集群当中的各种数据MapReduce（分布式运算编程框架）：解

Kazi_1024·2022-10-12 10:45

大数据面试之hive重点(二)

大数据面试之hive重点(二)HiveSQL转化为MR的过程？

大数据小理·2022-09-21 13:35

「硬刚Doris系列」Doris高级用法

点击上方蓝色字体，选择“设为星标”回复"面试"获取更多惊喜轻戳有惊喜：全网最全大数据面试提升手册！1.1添加RollupRollup可以理解为Table的一个物化索引结构。

王知无(import_bigdata)·2022-09-15 16:24

更快更强，ElasticSearch 8.0.0 正式发布！

点击上方蓝色字体，选择“设为星标”回复"面试"获取更多惊喜大数据面试提升私教训练营Hi，我是王知无，一个大数据领域的原创作者。放心关注我，获取更多行业的一手消息。

王知无(import_bigdata)·2022-09-15 16:23

大数据面试常见问题（七）——面试部分

目录1、出了一道题，一张千万数据量的表和一张抽取的新增的8万数据量的表，在不同的层里，怎么合并两张表？用sql方法？2、数据漂移3、你们的项目组表右多少张，数据量大概是多少4、每天的数据量有多少5、什么时候用到存储过程6、你在工作中遇到过哪些报错，什么原因导致的7、查询两千万的数据要多久8、标签，字段，口径是同一个东西9、什么是维度退化10、项目的粒度11、每天同步的表有哪些，增量数据有哪些？12

大数据求学路·2022-09-08 10:12

大数据面试常见问题（五）——报表部分

目录1、Finereport的报表设计流程2、做报表开发，如何确保你拿到的数据时准确的3、你们用的报表工具是收费的吗？都少钱？4、做出的报表是以什么文件或者形式发给客户，客户又是通过什么方式查看报表的呢？5帆软和tableau的区别（传统bi工具和商务智能bi工具的区别）6、olap和oltp的区别1、Finereport的报表设计流程2、做报表开发，如何确保你拿到的数据时准确的我们都是根据需求来

大数据求学路·2022-09-08 10:42

大数据面试常见问题（一）——Oracle部分

目录1、Oracle分区类型2、每种类型一般是用在什么场景下？3、哪种分区类型使用的最多？为什么？4、有没有用过组合分区？怎么搭配的？5、分区表创建的基本语法是什么？6、分区还有哪些不同的操作？7、怎么去查看表格分区的信息？8、对分区字段进行where筛选和直接读取分区内容，谁快一些？9、索引的概念？10、索引有哪些不同的类型？11、不同的索引一般用在什么场景下？12、普通索引和位图索引有什么区别

大数据求学路·2022-09-08 10:41

大数据面试常见问题（三）——Hadoop部分

目录1、hive数据库和其他的数据库有什么区别？2、传统数仓和大数据数仓的区别3、你们使用的hadoop是什么环境什么版本的？4、分桶的作用是什么？5、分桶的数量你是如何决定的？6、hive里面经常用到的函数有哪些？7、进行数据的同比和环比有什么方法？8、hive表连接和其他数据库有什么区别？9、hive里面经常用到的几个不同的排序分别是什么，有什么区别？10、Hive中的有哪几种存储格式？11、

大数据求学路·2022-09-08 10:11

大数据面试常见问题（四）——ETL部分

目录1、什么是映射2、什么是etl3、kettle抽数一般遇到什么问题，你们是怎么解决的？4、如果抽取的数据有重复，怎么解决5、etl脚本开发以后，怎么运维6、一张特别大的表，几千万，几亿的表，怎么通过etl工具同步7、数据同步以后，源系统的表结构发生了改变，比如源系统的表增加了字段，你的kettle脚本是否会报错？8、有一张表下午5点才出数据，依赖的表早上十点就已经跑完了，是什么原因导致表这么慢

大数据求学路·2022-09-08 10:49

「面试必背」大数据面试题100道（收藏）

前言随着5G时代的到来，大数据人工智能产业链又一次迎来了井喷式的爆发，随着岗位需求的不断增加，越来越多的人选择大数据课程，但是没有真正从事大数据工作的人面对企业面试有种无从下手的感觉，面对面试说不到技术的重点，每次面试只能靠队友，靠兄弟支援，尤其是面对架构，编程更是无从下手。于是我决定对市场上大多的有关大数据核心的面试题做一个详细的分析，也希望大家尽可能的做到举一反三，而不是局限于题目本身。1、选

java晴天过后·2022-09-08 04:56

大数据面试总结-hadoop

下一篇Zookeeperhttps://blog.csdn.net/Mr_Fjl/article/details/972923061.什么是Hadoop？Hadoop是一个开源软件框架，用于存储大量数据，并发处理/查询在具有多个商用硬件（即低成本硬件）节点的集群上的那些数据。总之，Hadoop包括以下内容：HDFS（HadoopDistributedFileSystem，Hadoop分布式文件系统

不愿做秃头男孩·2022-09-06 19:32

吐血整理50家企业真实大数据面试题！！学长实测，真实面试！！快收藏！

文章目录前言京东面试题58面试题新浪面试题搜狐面试题360面试题小米面试题顺丰面试题OPPO面试题VIVO面试题华为面试题boss直聘面试题搜狗金融面试题瓜子二手车面试题猎豹移动面试题作业盒子面试题每日优鲜美团面试要求快手面试题新美互通面试题金山云面试题图新瀚合面试题中创软件面试题清华同方面试题柠檬微趣面试题量化派面试题天阳科技面试题泰康保险面试题软通动力面试题乐元素面试题北京国信博飞面试题知因智

一只楠喃·2022-08-24 12:00

【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏（六）

持续分享有用、有价值、精选的优质大数据面试题致力于打造全网最全的大数据面试专题题库51、如何迁移大数据平台中的Zookeeper集群？

大数据研习社·2022-08-21 15:31

【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏（四）

持续分享有用、有价值、精选的优质大数据面试题致力于打造全网最全的大数据面试专题题库31、如果发现现有集群出现数据倾斜，生产环境中HBase出现数据倾斜了该如何解决呢？

大数据研习社·2022-08-21 15:31

Spark学习之路（八）SparkCore的调优之开发调优

王知无(import_bigdata)·2022-08-21 09:43

大数据面试题2

大数据项目之企业级数据仓库实战第一章数据仓库概述1.1数据仓库简介1.1.1什么是数据库？数据库(Database)是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库。数据库是长期储存在计算机内、有组织的、可共享的数据集合。数据库中的数据指的是以一定的数据模型组织、描述和储存在一起、具有尽可能小的冗余度、较高的数据独立性和易扩展性的特点并可在一定范围内为多个用户共享。常用的数据库有

DHRJFH·2022-08-21 08:13

（转）大数据面试题130道及答案整理 1-15

大数据面试题130道及答案整理1-15转载自：https://www.cnblogs.com/yuluoxingkong/p/13475235.html1、HashMap和Hashtable区别HashMap

你的动作太慢了！·2022-07-31 10:10

原创｜5万字详谈大数据面试题，面试必备

1一面维度建模如何建确认主题确认粒度确认度量确认事实表确认维度表Hiveshuffle和sparkshuffle的区别Spark为什么快Spark任务是怎么执行的转化率如何计算缓慢变化维怎么处理Flink状态Flink窗口Flink广播流题目两个升序链表合并后仍然升序给你两个单词word1和word2，请你计算出将word1转换成word2所使用的最少操作数。你可以对一个单词进行如下三种操作：插入

小晨说数据·2022-07-28 07:18

❤️爆肝三万字，40道Kafka大厂高频面试题，涨薪全靠它！

博主闭关两个多月，查阅了数百万字的大数据资料，结合自身的学习和工作经历，总结了大厂高频面试题，里面涵盖几乎所有我见到的大数据面试题目。《大厂高频面试题系列》目前已总结4篇文章，且在持续更新中✍。

雷恩Layne·2022-07-13 08:16

常见大数据面试话术(建议收藏)

点击上方"大数据肌肉猿"关注,星标一起成长后台回复【加群】，进入高质量学习交流群2021年大数据肌肉猿公众号奖励制度面试吹牛之前先打草稿！各位面试官好!我叫xxx，毕业于xxx，之前在xxx公司待了1年多，期间⼀直从事的是IT行业，刚开始的时候做的是Java开发后来转岗到大数据方向做大数据开发;刚转行到大数据开发时开始比较困难的，大数据并不像Java那样⼀套框架基本可以搞定所有的问题，而是不同的业

无精疯·2022-07-12 12:48

面经1：字节跳动：22年实习生大数据开发面试（一面凉经）

记录了面试各个公司的问题和心经，给正在面试的你做一些适当的参考如果这篇文章对你有所帮助，可以点一下关注作者支持一下，对于这段时间的面试，作者也是参考和总结了一些面试中常常问到的问题，可以关注作者私信“大数据面试

牧码文·2022-07-12 09:22

面经2：22年实习生大数据开发面试（第一家凉了，第二家拿了offer）