2020-10-24 大数据面试问题

上周面试数据开发职位主要从公司的视角讲一下记录下面试流水。

1. 三面技术一轮hr,面到了cto 整体来看是这一周技术含量最高信息量最大的一个,1到4轮过了4个小时,技术上的问题主要问的对数据分层的理解。

1. 一面自我介绍、目前团队的规模多大(20)、你负责的模块是那些(购物、短信、增长)、那几个人在做

2. 数据架构图划分(五层架构讲了7分钟左右)

3. 指标口径怎么统一 、那些工作(定标准、报表和核心、场景)、数据治理怎么做(元数据管理)

动作:业务迭代下线模型 。依据:指标热度、模型事实冗余、链路层级

4.报表可是化怎么做的、报表数量、访问量多大

集团自己开发的工具、看指标的场景指标分冷热分类,运营经常关注的核心指标做成核心模型、根据访问频次来设计分析型 的模型。

5.数据集成资源平衡,数据同步过程、增量同步、实时同步怎么做的

分离线同步,离线同步数量,mysql 同步过程 建表、同步任务模型(先擦除再写入)

实时同步:doris

6.数据状态变更同步,比如物流位置变更

同步方案,拉链表的使用

7.同步任务怎么实现的

datalink

8.每天同步数据量监控,你对数据的一些想法 上午数据库本来50t,下午增量150t 怎么发现原因,对任务怎么进行监控。

元数据管理

9.数仓底层到集市层,资源有限,怎么对任务做一些调度做些监控保证任务产出,底层调度yarn ,怎么安排任务。

10.100cu把500+任务合理分配保证合理运行。

1.500任务梳理,场景应用了解 2.任务分优先级标签 。如果数据有问题会卡住任务失败影响下游运行。失败任务解决方案

11.技术栈 sparksql 调优

1.数据倾斜

1.代码优化 jion、 group by 、distinct 优化

2.机器参数调优 参数优化 task 、shuffle 、小文件 。。。

父rdd就1000个,分配2000个有用么,spark资源怎么分配,executor数量是多少,怎么调整,资源使用率最大化

1.没有用,可以增加并行度增加cores和parallel数量。 executor设置上限,根据任务数据量设置不同的资源数,底层模型和报表模型。不一定看表的数据量

12. spark内存模型,1000g的内存在executer 上的分配

一个executor 是一个节点,按照每个节点的vcore配置

13.flink相关任务做过么

根据业务场景描述过程

14. 数据治理和指标统一的推动,数仓成熟度如何,olap推动解放数分的人力?

15.数仓的准确性价值

16.流批一体、目标数据架构、实时应用场景

 

17.二面主要讲的的是项目明细、实时的问题、怎么做指标的统一、mapreduce的流程

flink的很多checkpoint 机制,流流join的等待机制 waterdrop的 问了好多不懂的

18.三面cto面试上来没有自我介绍,

分层理解(5六分钟)、范式建模、什么是事实、模型冗余做法、数据治理工作

手写代码

19.hr面试

1.目前的薪资、为什么离职、团队中角色、涨薪情况、期望薪资(要少了,hr没还价)、期望的工作、对自己后续的规划、对面试公司了解么,996接收么、你和核心竞争力是什么。

我问了公司的文化、后续需要做的事情?

 

 

2.360 也是3面技术一面hr ,整体技术上很容易没什么很深的影响,简单问了下我自己的一些情况和一些

1.简单的hive知识(sort by、order by、distrubte by、cluster by 区别)很简单的问题,怎么做分层的,

2.二面问了很多语言相关的问题,hive有哪些窗口函数(row_number、lead、lag、first_vlaue等)也比较容易、 scala上 object 可以有main函数么(可以,我根据看的书大概的影响)、case 类和普通类的区别(不太 会)

3.shell 的基本用法

4.面试官是做系统架构刚转型数仓

3.菜鸟

一面面试高级java开发问了很多java问题 object和.java 执行流程

二面也是讲一下项目技术细节,面试官和数仓关系不大,问题不是很专业

4.拼多多

自我介绍 离线和实时都会有一些问题问了1个半小时,最后20分钟代码,就是速度有点慢,20分最后一问大概说了思路。大部分整体没什么影响了

1.一段sql 的执行流程怎么翻译成mapreduce的,喜欢问一些基本底层的问题。(sql主要的语法是group的用法)

2.hive和spark 的区别

3.操作数据库和数仓的区别尽可能说的更多

4.spark 的shuffle 的实现

5.mobtech 面试官感觉技术挺厉害

1.spark 中reducebykey、grupbykey、conbinerbykey是什么操作

2.RDD缓存有哪几个

3.怎么解决数据倾斜

4.最近看了那些书

5.工作过程解决那些技术难点 -我说的留存的方案

6.感觉影响最深的是 我问了数仓的发展问题,其中包含那些是变得那些事不变的?

职责 数据管理部门、数据服务 布局工具

不变: 不同场景下大数据解决方案、大数据组件熟悉

6.唯品会 技术也挺好都是spark 问题

1.boradcast 的原理

我曾经最看过一些资料,把目前的认知说了下,是关于orc和压缩方向的和数据节点之间的广播方案

2.CBO 问题

3.算子action是怎么样执行的

4.scala 中lazy的方案再java 中是如何实现的

5.spark 的shuffle 的实现

6.倾斜方案怎么解决- 回答的很详细还可以

7.RDD 的一个问题忘记了还不太会

7.百度

一面主要是面试官自己说,地点在北京,老大很nice ,说了目前的工作内容以及如何破局,人很是在。

8.2345网络 影响不深刻,聊的主要是跟技术无关

9.任意门 整个数据的上下游的理解、工作的期望

10.b站事业部总监 工作的期望

11.善珍hr hr很能说

12 palpay 英文简历没有希望给一份,用英文和外国人沟通

 

总结来说 最主要的还是自我介绍这一环节、其他的是环境上下游了解(数据分层、数据上下游、工程能力(spark内核、flink))、后续规划想法

 

 

 

 

 

 

 

 

 

 

你可能感兴趣的:(面试,基本功,spark,hadoop)