数据开发面试题总结第4页

Kafka架构总结以及常见的面试题总结

kafka名词说明分布式高吞吐量消息系统producer：生产者consumer：消费者broker：机器，节点controller：kafka服务器的主节点负责管理元数据（zk存储一份）follower：kafka服务器的从节点（同步元数据）topic：主题。类似于关系型数据库中的表partition：一个主题可以有多个分区replica：副本，为了保证数据安全，每个partition可以设置多

不加班程序员·2024-01-23 06:24

Flink SQL 实时数据开发经验总结

使用SQL实现流处理的核心技术在了解了Table\SQLAPI的使用方法以及作业运行机制之后，接下来分析SQL实现流处理的核心技术。为什么要分析这个问题呢？因为传统的关系代数以及SQL最开始是为了批处理设计的，在传统关系型数据库以及批处理中，数据都是有界的，因此SQL语句的执行过程比较好理解，但是在流处理中，数据是无界的，那么将SQL应用于流处理的理解成本以及实现成本相对批处理就高很多了。因此在本

BUG记录机·2024-01-22 11:52

大数据开发之电商数仓（hadoop、flume、hive、hdfs、zookeeper、kafka）

第1章：数据仓库1.1数据仓库概述1.1.1数据仓库概念1、数据仓库概念：为企业制定决策，提供数据支持的集合。通过对数据仓库中数据的分析，可以帮助企业，改进业务流程、控制成本，提高产品质量。数据仓库并不是数据的最终目的地，而是为数据最终的目的地做好准备，这些准备包括对数据的：清洗、转义、分类、重组、合并、拆分、统计等。2、数据仓库的数据通常包括：业务数据、用户行为数据和爬虫数据等3、业务系统数据库

Key-Key·2024-01-22 07:29

面试题总结

四：查找链表的倒数第K个节点为了能够只遍历一次就能找到倒数第k个节点，可以定义两个指针：（1）第一个指针从链表的头指针开始遍历向前走k-1，第二个指针保持不动；（2）从第k步开始，第二个指针也开始从链表的头指针开始遍历；（3）由于两个指针的距离保持在k-1，当第一个（走在前面的）指针到达链表的尾结点时，第二个指针（走在后面的）指针正好是倒数第k个结点。注意：剑指offer中有提到，有提到，有提到，

Jiwenjie·2024-01-22 07:23

大语言模型无代码构建知识图谱(2)--环境准备

需已安装HuggingFists系统，该系统将提供无代码的可视化数据开发环境。通过该系统利用大语言模型辅助知识图谱的构建。

colorknight·2024-01-21 10:23

02-黑马程序员大数据开发：分布式计算和分布式资源调度

1.分布式计算概述目标：了解什么是计算？什么是分布式计算？计算是对数据进行处理，使用统计分析等手段得到需要的结果；分布式计算是多台服务器协同工作，共同完成一个计算任务。分布式计算模式：分散->汇总模式（MapReduce）和中心调度->步骤执行模式（ApacheSpark,Flink;比较复杂，中间会有数据交换的过程）；2.MapReduce概述MapReduce是Hadoop中的分布式计算组件，

S1406793·2024-01-21 08:52

03-黑马程序员大数据开发：Apache Hive

一、ApacheHive概述1.目的：了解什么是分布式SQL计算；了解什么是ApacheHive2.使用Hive处理数据的好处操作接口采用类SQL语法，提供快速开发的能力（简单、容易上手)底层执行MapReduce，可以完成分布式海量数据的SQL处理3.什么是分布式SQL计算？以分布式的形式，执行SQL语句，进行数据统计分析。4.ApacheHive是做什么的？很简单，是一款分布式SQL计算

S1406793·2024-01-21 08:21

大数据开发之kafka（完整版）

第1章：Kafka概述1.1定义Kafka是一个分布式的基于发布/订阅模式的消息队列，主要应用于大数据实时处理领域。发布/订阅：消息的发布者不会将消息直接发送给特定的订阅者，而是将发布的消息分为不同的类别，订阅者只接收感兴趣的消息。1.2消息队列目前企业中比较常见的消息队列产品主要有Kafka、ActiveMQ、RabbitMQ、RocketMQ等。在大多数场景主要采用Kafka作为消息队列在Ja

Key-Key·2024-01-21 07:19

大数据开发之Kafka（broker、消费者、eagle监控、kraft模式）

第4章：KafkaBroker4.1KafkaBroker工作流程4.1.1Zookeeper存储的Kafka的信息1、查看zookeeper中的kafka节点所存储的信息启动Zookeeper客户端[[email protected]]$bin/zkCli.sh通过ls命令列出kafka节点内容[zk:localhost:2181(CONNECTED)2]ls/ka

Key-Key·2024-01-21 07:18

实战讲解｜Trino 在袋鼠云数栈的探索与实践

袋鼠云数栈作为新一代一站式大数据基础软件，其核心优势在于不仅提供了快速便捷、易于上手的底层数据开发模块，更推出了涵盖质量、标签及指标等上层偏业务功能模块。

袋鼠云数栈·2024-01-20 21:44

面试题总结4

1请简述private，public，protected，internal的区别public：对任何类和成员都公开，无限制访问private：仅对该类公开protected：对该类和其派生类公开internal：只能在包含该类的程序集中访问该类protectedinternal：protected+internal2..Net与Mono的关系？.Net是一个语言平台，Mono为.Net提供集成开发

澜.阿斯特.古莱齐.鲲·2024-01-20 21:01

大数据与算法人生

一、大数据时代的两难命题：1、数据开发和个人隐私之间的矛盾。精准商业一定是数据驱动的，不能够使用数据，技术进步就成了空话。2、数据的确权与利益分配问题。

骁客振华·2024-01-20 17:29

JDBC面试题总结

1、JDBC的组成JDBC是由SUn公司提出的一组接口以及各个数据库厂商提供的实现类（驱动jar）组成；2、JDBC的核心步骤2、加载驱动创建connection连接执行sql语句处理结果集释放资源3、结果集ResultSet怎么处理while循环rs.next()boolean类型的返回值，判断下一行数据是否存在如果存在返回true，返回这一行数据并且指针下移一位。如果只有一行数据可以使用if条

猿究院--Cu-Sn合金·2024-01-20 13:21

程序员必备的面试技巧——大数据工程师面试必备技能

目录前言一、不同工程师的职责和技能要求1、数仓开发工程师2、算法挖掘工程师3、大数据平台开发工程师4、大数据前端开发工程师二、大数据技术架构图三、大数据相关的技术内容四、大数据面试经验1、大数据开发岗位

Francek Chen·2024-01-20 11:22

大数据开发之Kafka（概述、快速入门、生产者）

第1章：Kafka概述1.1定义Kafka是一个分布式的基于发布/订阅模式的消息队列，主要应用于大数据实时处理领域。发布/订阅：消息的发布者不会将消息直接发送给特定的订阅者，而是将发布的消息分为不同的类别，订阅者只接收感兴趣的消息。1.2消息队列目前企业中比较常见的消息队列产品主要有Kafka、ActiveMQ、RabbitMQ、RocketMQ等。在大多数场景主要采用Kafka作为消息队列在Ja

Key-Key·2024-01-20 10:39

大数据开发之Hadoop（完整版+练习）

第1章：Hadoop概述1.1Hadoop是什么1、Hadoop是一个由Apache基金会所开发的分布式系统基础架构。2、主要解决，海量数据的存储和海量数据的分析计算问题。3、Hadoop通常是指一个更广泛的概念-Hadoop生态圈1.2Hadoop优势（4高）1、高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失。2、高扩展性：再集群

Key-Key·2024-01-20 10:36

干货：自助分析BI产品实践指南

对于产品&业务：产品迭代、运营活动需要各种数据分析支持，数据调取依赖数据开发排期长、响应慢，

e73fe7dcce95·2024-01-19 19:18

2024最新Java高频面试题总结(附答案PDF)春招面试必备！

《Java面试全解析》1000道面试题大全详解本人是2009年参加编程工作的，一路上在技术公司摸爬滚打，前几年一直在上海，待过的公司有360和游久游戏，因为自己家庭的原因，放弃了阿里钉钉团队的offer回到了西安。从2015年四月开始在一家上市公司担任研发经理的职位，至今也快5年了，一路上见了很多也面试了很多人技术人，大部分面试的结果很令我沮丧，这也是我出这本书的原因之一，帮助更多的人搞懂技术最核

浮生带你学Java·2024-01-19 18:39

经历十九家企业大数据开发工程师面试复盘（二）

背景引入我个人计划是5月中旬争取拿到offer，但是个人技术太菜了，所以经历了一个多月的面试才有两家企业的offer，全是外包。我本人是应届毕业生，校招学历这块不起眼，选择权很少。至于大厂就基本没面。在面试中小企业我可以给大家一个借鉴。认知篇问题1：我是应届小白，求职比不上工作年限的技术人才，我是不是在一线城市很难找到工作？答：不是的，其实应届小白是可以在秋招或者春招找到实习的，如果企业招应届毕业

南潇如梦·2024-01-19 16:36

面试初体验：经历七场面试大数据开发工程师岗位总结（一）

我只想总结一下这周面试大数据开发岗位的精彩表现。希望可以给需要求职的同学一个好的体验。1招聘信息的收集网上投简历一般进入互联网还是使用boss直聘和拉勾网。

南潇如梦·2024-01-19 16:36

某小外包公司线上面试-大数据开发

1.数仓和数据库的区别2.数仓建模3.hive用到的函数4.rank,dense_rank,row_number的区别5.hive数据倾斜的原因有哪些7.如何理解数据质量？6.java，scala会用吗？7.期望薪资多少？（感觉说出来就无了）面的初级岗附上hr问的问题？1.公司开发人员占比？公司规模？

劝学-大数据·2024-01-19 16:03

德拓外包-大数据开发面试

1.面试官要是要看以前写过的代码，要共享屏幕怎么办？都在公司的库里，银行金融项目谁让你把代码带出去的，就是公司业务保密1.自我介绍2.数据采集相关，怎么把kafka中的数据采集到mysql中？忘了3.hive，两张表的重复数据，怎么去重？回答distinct,groupby，开窗取第一条，开窗函数是哪个？没回答上来4.udf函数写过吗，flink消费kafka中的数据写过代码吗，需要看代码？5.使

劝学-大数据·2024-01-19 16:03

五年Java外包转型大数据架构

去年年底他刚开始学大数据的时候给我打过电话，咨询一些学习路线上的问题，那时刚转型大数据的我给了他几点不太成熟的建议，今年年初就成功转型了，并且从数据开发到现在的架构，实属牛逼。

大数据基础入门教程·2024-01-19 16:32

某汽车外包-大数据开发-面试

1.自我介绍2.hivesql的执行流程3.mapreduce的原理。4.spark的提交参数有那些命令5.sparkrdd,dataframe,dataSe解释一下。6.clickhouse怎么建表的，什么是分表7.搭建采集过程遇到的问题，关于组件信息8.分桶表和分区表的区别，分桶表的设计未来解决什么问题。9.datax用来干什么的，datax是用什么语言编写的。10.redis用过吗，在项目中

劝学-大数据·2024-01-19 16:28

大数据工作岗位分析

本文从基础大数据开发岗开始分析，思考大数据工作细分有哪些岗位，分别需要什么能力，以此来提供大数据能力发展方向参考

i7杨·2024-01-19 13:37

大数据开发之Hadoop（优化&新特征）

第1章：HDFS-故障排除注意：采用三台服务器即可，恢复到Yarn开始的服务器快照。1.1集群安全模块1、安全模式：文件系统只接收读数据请求，而不接收删除、修改等变更请求2、进入安全模式场景1）NameNode在加载镜像文件和编辑日志期间处于安全模式2）NameNode再接收DataNode注册时，处于安全模式3）退出安全模式条件dfs.namenode.safemode.min.datanode

Key-Key·2024-01-19 10:50

大数据开发之Hadoop（MapReduce）

第1章：MapReduce概述1.1MapReduce定义MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。1.2MapReduce优缺点1.2.1优点1、MapReduce易于编程它简单的实现一些接口，就可以完

Key-Key·2024-01-19 06:40

大数据开发之Hadoop（Yarn）

第1章：Yarn资源调度器思考：1、如何管理集群资源？2、如何给任务合理分配资源？Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。1.1Yarn基础架构YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成

Key-Key·2024-01-19 06:09

mysql的GROUP_CONCAT函数的使用

SQL实现将多行记录合并成一行我们在数据开发的过程中，经常会遇到这样的需求，就是将多行合并为一行，并且用特定字符隔开。

Mcband·2024-01-18 23:40

使用注解开发SpringMVC详细配置教程

写在前面：2020年面试必备的Java后端进阶面试题总结了一份复习指南在Github上，内容详细，图文并茂，有需要学习的朋友可以Star一下！

Java旺·2024-01-18 21:11

Dinky为大数据框架Flink提供交互式平台，让你学习 FlinkSQL 更加轻松，并且掌握Flink技能！

介绍：Dinky，原名Dlink，于2022年1月17日更名，英译为“小巧而精致的”，体现了其轻量级和复杂大数据开发能力的特征。

知识分享小能手·2024-01-18 17:59

字节跳动大数据架构面经（超详细答案总结）

我叫xxx,xxxx年x月毕业于xxx学校，xx学历，目前就职于xxx公司xxx部门，职位为：大数据开发工程师，主要从事于xxx组件、平台的开发工作。

Python栈机·2024-01-18 12:39

面试题总结

一前言年后的这段时间一直都没有更新，主要是因为在准备简历和面试。今天主要说一下这次面试过程中遇到的一些问题，不分公司。这次面试遇到的问题我把它们归类为五大类，分别是：项目相关、Java基础、数据库、框架、中间件和分布式。二项目相关简单介绍一下目前在做的项目项目中有遇到哪些问题，最后怎么解决的项目中用到了哪些技术点项目中用到了哪些设计模式说一说哪个项目对你的成长起到了很大的帮助三Java基础1.sl

Java机械师·2024-01-18 08:43

Java基础+集合+多线程+JVM 面试题总结

最近系统的总结了前辈们的各种面试题，站在巨人们的肩膀上真是看得远，我想只有对前辈们的知识进行自我的优化与吸收，才能形成适合自己的一份笔记。-文章目录一、Java基础1.1面向对象和面向过程的区别1.2Java语⾔有哪些特点?1.3关于JVMJDK和JRE最详细通俗的1.3.1JVM1.3.2JDK和JRE1.4Java和C++的区别?1.5字符型常量和字符串常量的区别?1.6构造器Construc

GitHub质检员·2024-01-18 03:06

Java 多线程常见基础面试题总结，面试必看！

1.什么是线程和进程?1.1.何为进程?-进程是程序的一次执行过程，是系统运行程序的基本单位，因此进程是动态的。系统运行一个程序即是一个进程从创建，运行到消亡的过程。在Java中，当我们启动main函数时其实就是启动了一个JVM的进程，而main函数所在的线程就是这个进程中的一个线程，也称主线程。如下图所示，在windows中通过查看任务管理器的方式，我们就可以清楚看到window当前运行的进程（

GitHub质检员·2024-01-18 03:36

【数据开发】BI&数据报表之数据可测试性设计与分析

文章目录1、什么是BI&数据报表2、什么是可测试性3、数据测试与方法3.1数据准确性与对比（重要）3.2数据安全性1、什么是BI&数据报表数据报表是一种数据可视化工具用于将数据以图表、表格和其他可视化形式呈现出来，以便用户可以快速了解和理解数据。数据报表可以用于各种场景，例如业务分析、销售分析、市场分析、财务分析等。数据报表可以帮助用户更好地理解数据，发现数据中的趋势和模式，并做出更好的决策。数据

小哈里·2024-01-18 00:30

23.10.10同盾科技云计算数据开发工程师1面+HR面

题解|#24点运算#importjava.util.*;//注意类名必须为Main,不要有任何packagexxx信息publicclassMain{poffer求比较联洲国际深圳，地平线上海，这两个都是soc验证，税前总包都差不多，地平线可能多一点。联洲据说是周内加班两到三天，地平线比较卷可能是10105。求牛友们帮忙选双非的崩溃秋招光电本双非垃圾机械硕，回想我的学生生涯就觉得无比的崩溃！初中在

愤怒的小青春·2024-01-17 15:40

面试题总结-MQ总结

【1】说一下什么是MQ答：MQ是消息队列容器，常见的MQ技术有RabbitMQ,RocketMQ。解决微服务异步通信问题，场景如下：抢票、秒杀类场景：目的只有一个将并行场景转为串行场景来缓解并发压力。消息分发：促销活动，需要将商品短链发送各个平台，需要时效不高，但数据量大，可以交给消息队列处理。数据同步：redis、es与mysql同步异步处理：用于异步场景，比如注册用户，发送优惠券，发送优惠券和

酷寒的小蛮蛮·2024-01-17 13:22

面试题总结-分布式总结

Nginx篇【1】简述一下什么是Nginx，它有什么优势和功能？Nginx是高性能的HTTP和反向代理的服务器，处理高并发能力是十分强大的，能经受高负载的考验,有报告表明能支持高达50,000个并发连接数。Nginx主要提供功能有http服务器反向代理服务器负载均衡服务器动静分离配置缓存数据【2】简述一下什么是正向代理，什么是反向代理正向代理代理的是客户端访问服务端,比如防火墙，反向代理代理的是服

酷寒的小蛮蛮·2024-01-17 13:20

RabbitMQ

参考文献：https://juejin.cn/post/7049160818834800677参考文献：RabbitMQ常见面试题总结|Java学习&面试指南-程序员大彬(topjavaer.cn)RabbitMQ

yz涣·2024-01-17 10:30

大数据开发之Hadoop（HDFS）

第1章：HDFS概述1.1HDFS产出背景及定义1、HDFS产生背景随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。2、HDFS定义HDFS（HadoopDistributedFileSystem），它是一个文件系统，用于存储文

Key-Key·2024-01-17 10:22

大数据开发之Hadoop（入门）

第1章：Hadoop概述1.1Hadoop是什么1、Hadoop是一个由Apache基金会所开发的分布式系统基础架构。2、主要解决，海量数据的存储和海量数据的分析计算问题。3、Hadoop通常是指一个更广泛的概念-Hadoop生态圈1.2Hadoop优势（4高）1、高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失。2、高扩展性：再集群

Key-Key·2024-01-17 09:19

牛客周赛 Round 11 解题报告 | 珂学家 | 线性dp+大剪枝

2023秋招—数据开发面经—美的今天滴滴群里发的消息24届计算机听劝23届亲身经历想问一下快手周末会联系吗邮储软件研发中心-实习淘汰有感邮储软件研发中心-实习淘汰有感重庆秋招系列(11)-重庆就业岗位汇总招银网络科技一面招银网络科技一面招银网络测开一面二面

2301_79125431·2024-01-17 04:26

工作十年总结的六条面试技巧，助力你拿到理想的offer

大数据开发的领域不同，面试的锚定点也不同，从我过往的经验来说，可以大致来将大数据领域的开发分为如下几种：离线开发：数据仓库、离线计算、ETL开发实时开发：流计算开发基础架构：组件二次开发，底层组件稳定性维护大数据运维方向数据平台开发一

KubeData·2024-01-17 02:12

只知道HDFS和GFS？你其实并不懂分布式文件系统

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多资源大数据技术与架构点击右侧关注，大数据开发领域最强公众号！暴走大数据点击右侧关注，暴走大数据！

王知无(import_bigdata)·2024-01-16 13:14

Shell面试题总结

暁洣·2024-01-16 07:45

作业帮基于 DolphinScheduler 的数据开发平台实践

摘要随着任务数量、任务类型需求不断增长，对我们的数据开发平台提出了更高的要求。本文主要分享我们将调度引擎升级到ApacheDolphinScheduler的实践经验，以及对数据开发平台的一些思考。

DolphinScheduler社区·2024-01-16 03:46

大数据开发之Flume

第1章：Flume概述1.1Flume定义Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输系统。1.2Flume基础架构1.2.1Agent1、Agent：Flume的部署单元，本质是一个JVM进程，Agent内部是以事件的形式将数据从源头送至目的。2、组成：Agent主要有3个部分组成，Source、Channel、Sink。1.2.2Source1、S

Key-Key·2024-01-15 12:35

大数据开发之Hive（压缩和存储）

第9章：压缩和存储Hive不会强制要求将数据转换成特定的格式才能使用。利用Hadoop的InputFormatAPI可以从不同数据源读取数据，使用OutputFormatAPI可以将数据写成不同的格式输出。对数据进行压缩虽然会增加额外的CPU开销，但是会节约客观的磁盘空间，并且通过减少内存的数据量而提高I/O吞吐量会更加提高网络传输性能。原则上Hadoop的job时I/O密集型的话就可以采用压缩可

Key-Key·2024-01-15 12:34

大数据开发之Hive（企业级调优）

第10章：企业级调优创建测试用例1、建大表、小表和JOIN后表的语句//创建大表createtablebigtable(idbigint,tbigint,uidstring,keywordstring,url_rankint,click_numint,click_urlstring)rowformatdelimitedfieldsterminatedby'\t';//创建小表createtable

Key-Key·2024-01-15 12:34

推荐频道

数据开发面试题总结

Kafka架构总结以及常见的面试题总结

Flink SQL 实时数据开发经验总结

大数据开发之电商数仓（hadoop、flume、hive、hdfs、zookeeper、kafka）

面试题总结

大语言模型无代码构建知识图谱(2)--环境准备

02-黑马程序员大数据开发：分布式计算和分布式资源调度

03-黑马程序员大数据开发：Apache Hive

大数据开发之kafka（完整版）

大数据开发之Kafka（broker、消费者、eagle监控、kraft模式）

实战讲解｜Trino 在袋鼠云数栈的探索与实践

面试题总结4

大数据与算法人生

JDBC面试题总结

程序员必备的面试技巧——大数据工程师面试必备技能

大数据开发之Kafka（概述、快速入门、生产者）

大数据开发之Hadoop（完整版+练习）

干货：自助分析BI产品实践指南

2024最新Java高频面试题总结(附答案PDF)春招面试必备！

经历十九家企业大数据开发工程师面试复盘（二）

面试初体验：经历七场面试大数据开发工程师岗位总结（一）

某小外包公司线上面试-大数据开发

德拓外包-大数据开发面试

五年Java外包转型大数据架构

某汽车外包-大数据开发-面试

大数据工作岗位分析

大数据开发之Hadoop（优化&新特征）

大数据开发之Hadoop（MapReduce）

大数据开发之Hadoop（Yarn）

mysql的GROUP_CONCAT函数的使用

使用注解开发SpringMVC详细配置教程

Dinky为大数据框架Flink提供交互式平台，让你学习 FlinkSQL 更加轻松，并且掌握Flink技能！

字节跳动大数据架构面经（超详细答案总结）

面试题总结

Java基础+集合+多线程+JVM 面试题总结

Java 多线程常见基础面试题总结，面试必看！

【数据开发】BI&数据报表之数据可测试性设计与分析

23.10.10同盾科技云计算数据开发工程师1面+HR面

面试题总结-MQ总结

面试题总结-分布式总结

RabbitMQ

大数据开发之Hadoop（HDFS）

大数据开发之Hadoop（入门）

牛客周赛 Round 11 解题报告 | 珂学家 | 线性dp+大剪枝

工作十年总结的六条面试技巧，助力你拿到理想的offer

只知道HDFS和GFS？你其实并不懂分布式文件系统

Shell面试题总结

作业帮基于 DolphinScheduler 的数据开发平台实践

大数据开发之Flume

大数据开发之Hive（压缩和存储）

大数据开发之Hive（企业级调优）