pianaipj-真题宝典-4

271 mateapp

面试:
(1)hashmap的底层
(2)Scala的隐式转换
(3)spark的移动计算还是移动数据
(4)flink的背压,介绍一下flink的反压。多个数据源怎么处置。介绍双流join
(5)kafka的副本机制,和kafka的ack设置为0,详细说一下过程
(6)说一下spark的移动计算还是移动数据
(7)还有个Scala的object和class
(8)你们的spark的task多少个
(9)有多少个application?

272 山石网科
(1)自我介绍
(2)期望工作地点 考虑离职的原因是什么
(3)聊聊flink的了解 用过cep吗 cep连续事件的可选项有什么 讲讲你用cep做过的业务逻辑 cep底层如何工作 cep怎么老化 cep性能调优 过期数据怎么处理 flink双流join
(4)kafka作为生产者或者消费者确认offset的流程 就比如说生产者提交一个offset是怎样的流程 consumer_group的含义或者说意义是什么
(5)java写的多吗 设计模式用到过哪些 单例模式有哪几种
(6)你有什么问题

273 大鹏科技
1、自我介绍
2、数据来源 用什么采集 flume的事务管理是怎样做的
3、kafka的offset是自动提交还是手动维护 怎么保证offset不会乱 数据重复消费怎么办
4、什么类型的数据放在hbase 什么类型放es
5、开发是以java为主还是scala为主
6、你们有没有用到过数据分析工具
7、hive需求 字段a分组 字段b排序 取组内top10
8、有没有写过mapreduce
9、关于java spring框架了解
10、数据库事务了解 隔离级别
11、多线程了解吗
12、现在在哪里 问问题 期望薪资 数据量
274 tap4fun(成都)
1、自我介绍
2、集群是从0到1的吗 回忆一下自己的作用 团队有多大 数据量有多大 用户有多少 用云还是 app是做什么的 埋点是自定义还是开发确定 埋点格式呢
3、日志直接灌kafka吗 flume会丢数据吗 以filechannel形式吞吐有什么问题吗 你们三台flume在后期会不会有io的问题 选择器和拦截器分别是什么
4、为什么用kafka kafka和sparkstreaming有什么关系 flume往hdfs写数据按照什么策略去写 flume在用的过程中遇到过什么问题 你调整内存是为了什么
275 天源迪科
1、自我介绍
2、实时计算用什么实现 采集 延迟 分层 对传统的关系型数据库了解吗
3、shell语言掌握怎么样 crontab各指的是什么单位 ls -l 想得到文件属主和文件名
4、hive row_number 和rank区别
5、离线数仓介绍 负责什么 小表join大表放置顺序 hive压缩格式
6、问问题
276 启信宝
1、自我介绍
2、发展规划
3、hdfs写流程 副本如何同步
4、shuffle原理
5、hive文件存储格式 优点 为什么查询快 分区和分桶 内连接和左连接的区别
6、sqoop 和dataX dataX的好处
7、hbase的架构 hbase查询快因为什么
8、谈谈rdd
9、java开发 jvm内存划分机制 多线程
10、进程和线程有什么区别 计算机进程线程存储网络 什么方式去学习
11、介绍项目 采集多少 主要负责 介绍难点 介绍调优点
277 盛趣时代
1、用过哪些hadoop组件
2、zk选举机制 讲讲paxos算法
3、工作中flume插件怎么写,自定义过source吗
4、kafka中partition是个什么东西 kafka分区有序性指的是什么 整体有序吗
5、hbase预分区是什么东西 为什么要做预分区 二级索引指的什么 hbase协处理器知道吗
6、linux远程访问用哪个命令
7、spark什么时候会产生数据倾斜 什么样的数据会产生数据倾斜 spark的部署模式 spark导过数据吗,比如从hive导入hbase
8、java动态代理指的是什么 多线程会用吗 Synchronized加在静态方法和加在非静态方法上有社么区别 gc原理是什么 lucene了解吗 es倒排索引具体生成规则 redis有哪几种部署模式 哨兵模式知道吗 java连接redis用哪个jar包,它可以做哨兵吗

278 光大信息
1、自我介绍+项目介绍
2、hbase主键设计原则 为什么预分区
3、sparkstreaming 和flink 里checkpoint的区别
4、spark shuffle和mr shuffle区别
5、hive里面排序使用过什么
6、说一下udf、udtf、udaf区别
7、sparkstreaming 怎么管理offest
8、对hadoop组件哪个比较熟 镜像文件和edits是干什么用的 HA和2nn有什么区别 搭HA引入了其他什么服务 journeynode是干什么的
9、小文件在nn上占用128m吗? 那一个块在nn上占用多少内存 小文件的坏处是什么
10、kafka你用的什么版本 0.11有个bug你了解吗 offset不会自动回收你知道吗 怎么处理 kafka认证了解过吗
11、spark和mr为什么快
12、flume有没有自定义过 tail dir有没有什么问题 场景:有一个文件在做切换有什么问题

279 中盈优创资讯科技有限公司-上海
(1)HDFS的读写流程?
(2)MapReduce中Shuffle的流程?
(3)group by、distribute by、与sort by之间的区别?
(4)Hive查询数据比较慢怎么办?
(5)内部表和管理表的区别?
(6)怎么实现一个TopN?
(7)HBase的rowkey怎么设计的?
(8)访问HBase的方式?
(9)HBase有哪些过滤器?
(10)SparkStreaming的原理?
(11)DStream与RDD的关系?
(12)对jvm了解多少?
(13)GC的分类,使用了哪几种GC算法?
280 兴业数金-上海
讲一下项目经历和印象深刻的点,然后会问数仓结构,数据处理方式。
问了关键信息放在哪里,比如账户余额这种
然后会问如何从数据提高业务,你有什么想法。
主要工作不是技术方向,是要找人去做数据分析和产品这种
从数据埋点开始问,把我简历上每个组件都问了下,主要是问你们怎么做的这种,然后问了主要业务场景,最后问了对flink的了解,大概讲了下,结束的时候让我说了下es的倒排索引怎么实现的
281 XTransfer-上海
CTO:讲了工作经历,问了一个sql,大概写了下,然后讲了下UDF/UDTF/UDAF的逻辑,问了正则会用吗。
第二轮两个创始人问了工作中影响最深的问题,问了个人喜好什么的
最后HR聊了下公司情况,问了希望薪资
328 杭州袋鼠云
(1)简单介绍一下之前做的项目;
(2)Spark SQL了解吗。比如参数调优,小文件处理等
(3)Spark的背压是怎么处理的?
(4)Hadoop中的HA;
(5)哪个调度器;(问有自己配过吗)
(6)Yarn提交流程,怎么构建Application,Container的;
(7)Spark中的core主要影响的是哪个运行机制?(Task)
(8)数仓这边选的是ORC还是p…,为什么;ORC的默认压缩格式是什么;
(9)列式存储和行式存储;
(10)JAVA多线程,IO;
283 蚂蚁金服-上海

2020-04-14 蚂蚁金服初面

国际事业部 算法与数据组
问题不多,因为他大部分时间都在介绍他们组的业务范围

1 介绍下简历上的离线数仓项目

2 假如现在要你针对一个新业务重新搭建一个数仓?说一下整体流程

3 有没有宽表的设计经验?建宽表要考虑哪些方面因素?

4 HQL题

现在有一张 sc 表 记录了学号 学科号 和 每科的成绩 求

  • 1 每个人的总分 以及排名
  • 2 在上一题的基础上,输出每个人比他后来的人高多少分

当时只答了思路 语句是后来晚上测试写的

-- 每个人的总分 以及排名
select SId, sum(score) sum_score, rank() over(order by sum(score) desc)
from train.sc
group by SId;

-- 每个人比他后来的人高多少分
select SId,
       sum(score)                                      sum_score,
       rank() over(order by sum(score) desc),
       (sum(score) - lead(sum(score), 1, 0) over()) as score_diff
from train.sc
group by SId;

-- 别名的作用域从group by 开始

284 花旗-上海
(1)问了JVM,多线程,HashMap底层实现
(2)以WordCount为例讲了整个MR过程,问的很细,问了具体类名
(3)问了Yarn提交流程,问到了到底选择节点是怎么选择的(后来她和我说是优先看资源所在节点)
(4)然后聊了下Flume,大概每秒多少条数据,总数据量
(5)最后是Zookeeper选举机制,最后是问了处理的问题(回答了数据倾斜)
285 eBay-上海
(1)介绍项目,你觉得做过比较难的点或者印象深的点(我说的双流join和shuffle源码)
(2)然后问了下Flink和Spark的区别,优势
286 问卷网@爱调研-上海
(1)Sqoop底层是四个Map,那么它读数据的时候怎么拿数据的,它知道哪个Map拿那些数据?
(2)用Sqoop怎么导入增量数据?怎么判断是新增的数据?
答了通过新增时间用where过滤,之后又问了不使用where过滤怎么做?
(3)有一个爬下来的网页,怎么解析里面标签的值,MR,Spark都可以?
287 福州朴朴
1)自我介绍
2)Canal从mysql抓取过来的业务数据有没有复原(修改和删除的数据怎么处理)
3)Kafka和spark的jar包的版本
4)Hql数据倾斜怎么处理
5)有没有用过ETL工具
6)Spark中kafka的偏移量怎么处理的。 答手动保存到mysql
7)Spark中如何保证kafka精准一次性消费
8)Kafka新旧版本的offset保存的位置
9)Kafka保存在mysql中的表,有哪些字段(主题,分组,消费者组,偏移量)
10)Spark中,手动处理kafka的offset有什么好处,为什么不用自动处理的方式
11)HQL脚本的资源分配和调度
12)Spark和数仓资源调度如何设计和监控的(面试官说自带的web监控页面太简陋了,有没有用过其他的方式监控)
13)说说Spark算子。
14)SparkSQL资源如何分配
15)Spark client模式和cluster模式的区别
288 广大科技
(1)Hive有几种部署模式?
(2)Hive的小文件问题怎么处理?
(3)Map任务数目是怎么确定的?
(4)Hive怎么进行优化?
(5)Hive中排序的种类有哪些?
(6)为什么从上一家离职?
(7)为什么来北京?
(8)薪资期望是多少?
289 平安-上海
一面

  1. 在职离职情况
  2. 工作内容介绍
  3. 平台岗VS数仓岗(他们小组只做数仓)
  4. 数仓部分:
    1) 数仓模型了解吗?
    2) 简述前公司数仓模型、数据来源、采集方式;
    3) 数仓4层分别做了哪些处理?
    4) 数据清洗在哪一层,数据清洗做了哪些操作?
  5. 有哪些业务场景?(我从做了哪些指标回答的)
  6. 下订单涉及到了哪些表?
  7. 指标分几大类,还是直接做?指标出口是?(主要给运营报表)
  8. 数据倾斜相关:
    1)遇到过数据倾斜吗,什么场景下遇到数据倾斜,这么解决的?
    2)为什么会导致数据倾斜,你了解底层原理吗?
    3)怎么解决数据倾斜?
    4)mapjoin和普通join的区别?
  9. 你对金融行业了解吗?你能大概说说信用卡从开卡、到消费…流程吗?
    290 作业帮
    1、先自我介绍
    2、介绍实时项目结构,
    3、kylin的优点和缺点,
    4、sparkstreaming如何实现精准一次性消费
    5、实时项目中手动offset到mysql,为什么存到mysql中,存到mysql中那些信息
    6、spark中如何解决数据倾斜
    7、spark具体调优的,为什么调优,具体的做法。
    8、现场写一个sql,1.表结构(UID,URL),要求写出访问url=a又访问 url=b的用户数
    9、rdd宽窄依赖
    291 天津市国瑞数码安全系统股份
    (1)自我介绍
    (2)日活、数据量
    (3)遇到过什么问题
    (4)flume与spark对流数据的处理对比
    (5)kafka数据丢失怎么找回、重复怎么处理(不在hive端和spark去重)
    (6)mysql去重
    (7)redis数据类型、几个库、默认使用哪个库、用来做什么、与mysql对比
    (8)spark调优
    (9)对机器学习、算法的了解
    292 康码
    (1)mysql,Redis,mongdodb的端口
    (2)MapReduce流程,shuffle,hdfs读写流程
    (3)spark的模式及流程
    (4)shuffle排序几次?有没有必要?为什么?
    (5)宽窄依赖
    (6)说项目
    293 睿帆知数科技-北京
    (1)spark中checkpoint产生的小文件是怎么处理的?
    (2)Spark打开日志归集和不打开有什么区别?
    (3)sparkStreaming要将数据保存到hdfs中,要保存的每个文件有100M,怎么来处理?
    (4)10T的数据文件,只有一个1T内存的节点,怎么快速的取出topN?
    (5)总共20个线程,每次只使用4个线程,怎么操作?
    294 西安烽火–西安
    (1)yarn集群的微core是怎么配置的?
    (2)客户端提交任务到yarn的执行过程
    (3)NodeManager领取任务时怎么保证它的唯一性
    (4)Hbase中有几个Master 几个 Hregionserver 几个zookeeper
    (5)spark中的批次时间在实际中是怎么调试的?
    (6)Spark实时向Hbase中写数据时遇到的问题?
    295 新华三 AI智能研究院 杭州
    1)一面:
    (1)介绍自己最熟悉的一个项目及数据量多大?
    (2)kafka调优和数据存储原理?
    (3)kafka消费者组的消费行为?
    (4)flink的watermark
    (5)sparkStreaming消费时的分区情况
    (6)spark底层通信框架
    (7)spark on yarn框架
    (8)spark默认调度机制
    (9)sparkStreaming双流问题?
    (10)Hbase的框架
    (11)abstract,final的作用和使用场景?
    (12)Linux常用命令
    (13)java中线程安全的容器?创建线程的方式
    (14)树的深度优先和广度优先
    (15)用栈实现队列?
    (16)有一个数组a[N]顺序存放0~N-1,要求每隔两个数删掉一个数,到末尾时循环至开头继续进行,求最后一个被删掉的数的原始下标位置?
    (17)二面前有一个笔试,基本上是java和大数据的多选题,还有计算机网络
    2)二面:
    (1)一个技术来面试,直接结合他们的具体工作场景来问问题,
    (2)JVM原理,jvm多线程的实现
    3)三面:总经理面
    (1)开始随便聊了聊,然后
    (2)让手写树的广度遍历或者深度遍历的一种
    (3)问了些计算机网络
    (4)在你感觉你的薄弱点之后,然后直接开始让你评论自己的缺点;然后跟你谈薪资
    4)四面:HR面
    因为之前就是总经理已经定了薪资了,所以基本上就是了解了一下基本情况,随便问了点问题
    296 翼课网 北京
    1)一面:
    (1)视频面试:面试官出题,然后开始写SQL,写7,8个SQL之后,用spark和flink代码实现日活
    (2)Spark运行时过程和原理,阶段的划分
    (3)在ES中,如果这个索引很大(假如有10G),需要考虑什么问题?
    2)二面:HR面
    (1)最重要的一个问题:
    (2)问简历上的一个项目:项目实施的背景->实际的参与人数->你在其中的作用->最后这个项目的上线带来了什么效果
    297 浩鲸智能–南京(数据中台)
    (1)数仓分层的原因和各层的作用
    (2)数据清洗的过程和具体操作
    (3)数据倾斜问题解决
    (4)怎么管理dwd层的数据,建模理论
    298 广州汇智通信
    (1)sparkstreaming的背压机制及打开时机
    (2)Kafka偏移量的作用
    (3)开发中sparkstreaming的调优
    (4)Scala中object和class的区别
    (5)Scala中不同于java的数据类型
    (6)简述一下函数编程和面向对象
    (7)Hadoop里面的压缩格式,存储数据的文件格式,支持最好的压缩格式是什么?
    (8)Hbase中导数据的工具?
    (9)Hbase中row key的设计原则?
    299 南瑞瑞中数据
    (1)自我介绍
    (2)讲项目架构
    (3)使用flume遇到过哪些问题
    (4)kafka数据积压怎么办
    (5)hive中数据分层讲解一下
    (6)建模讲解一下
    (7)数仓中都用到了哪些表,分析了哪些指标?
    300 睿民-上海
    笔试题
    1.再E-R图中,实体、属性、关系分别用什么代表(B)
    A、矩形、菱形、椭圆 B、矩形、椭圆、菱形
    C、椭圆、菱形、矩形 D、圆、矩形、菱形
    2.在项目开发概要设计阶段,数据库设计主要完成的工作是()
    A、标识关键对象 B、确定对象之间关系
    C、绘制E-R图 D、将E-R图转换为表
    3、给变量赋值是可以采用()方式
    A、SELECT  B、PRINT  C、SET  D、=
    4、T-SQL中输出的语句是()
    A、PRINT  B、WRITE  C、SELECT  D、SET
    5、关于SQL的变量,说法正确的是()
    A、定义局部变量的语法:declare数据类型@标识符
    B、给局部变量赋值可以使用set,得到其值可以用get
    C、SQL的系统全局变量用法:在某个数据库中改变其值,在另一个数据库仍可读取
    D、SQL可以定义全局变量,但其用法和局部变量差不多
    6、()作为批处理结束标志
    A、RETURN  B、QUIT  C、GO  D、EXIT
    7、下面那个排序函数生成的序号是非连续的()
    A、ROW_NUMBER  B、RANK  C、DENSE_RANK  D 、ROW_ID
    8、下列关于子查询的方法正确的是()
    A、查询是可以放在父查询的where后,但无法在select和from中间
    B、子查询在查询条件中使用,“>”、“<”、”=“符号后的子查询结果只能有一个值
    C、子查询可以嵌套,但最多不能超过3层
    D、如果子查询放在父查询中对父查询的语法结构不产生影响,那么子查询可以省略外面的小括号
    9、在一个表中最多会有几个聚集索引()
    A、1  B、2  C、3  D、4
    10、下列()条语句用于事务回滚
    A、rollback  B、commit  C、rollback transaction  D、commit transaction
    11、下列()语句用来定义可以随意滚动的游标
    A、DECLARE cursor_name CURSOR SCROLL
    B、DECLARE cursor_name SCROLL CURSOR
    C、DECLARE cursor_name CURSOR
    D、DECLARE cursor_name SCROLL
    12、以下关于INSTEAD OF触发器说法正确是()
    A、INSTEAD OF触发器是出于DDL触发器这一类的一种
    B、INSTEAD OF触发器可以和引发该触发器操作的INSERT、UPDATE、DELETE语句一起,共同对表的数据产生影响
    C、INSTEAD OF触发器是替代引发该触发器操作的INSERT、UPDATE、DELETE语句,转而让系统执行该触发器内部的T-SQL代码的
    D、INSTEAD OF触发器不能创建在视图上
    13、SQL的视图中最多可以包含()列
    A、256  B、512   C、1024   D、2048
    14、加密试图的定义文本可以使用( )
    A、WITH CHECK OPTION
    B、WITH SCHEMABINDING
    C、WITH NOCHECK
    D、WITH ENCRYPTION
    15、系统存储过程以()为前缀
    A、@@  B、@  C、sp_  D、up_
    SQL题目:
    Dept表
    deptno(部门号) dname(部门名称)
    1 事业部
    2 销售部
    3 技术部
    Emp表
    empno(员工号) ename(员工名称) job(工作) mjr(上级) sql(工资) deptno(部门名称)
    01 test clerk tom 1000 1
    02 tom clerk 2000 1
    07 bid clerk 1000 1
    03 jen salse pre 600 2
    04 pre salse 800 2
    05 bud jishu can 1200 3
    06 can jishu 1500 3
    1、列出emp中各部门的部门号、最高工资、最低工资
    2、列出emp中各部门job为clerk的员工最高和最低工资
    3、列出bud所在部门中所有员工的名称及部门号
    4、列出emp中有管理者的员工,列出员工姓名、管理者姓名(mgr为外键)
    5、对于工资高于本部门平均水平的员工,列出部门号、姓名、工资、按照部门号升序
    6、对于emp中低于自己工资至少5人,列出部门号、姓名、工资、以及工资少于自己
    的人数
     
    选择:N/15 sql题:N/6

数据表:
dept:
deptno(primary key), dname, loc
emp:
empno(primary key), ename, job, mgr(references emp(empno)), sal,
deptno(references dept(deptno))

1 列出emp表中各部门的部门号,最高工资,最低工资
select max(sal) as 最高工资,min(sal) as 最低工资,deptno from emp group by deptno;
2 列出emp表中各部门job 含’REP’的员工的部门号,最低工资,最高工资
select max(sal) as 最高工资,min(sal) as 最低工资,deptno as 部门号 from emp where job like ‘%REP%’ group by deptno;
3 对于emp中最低工资小于7000的部门中job为’SA_REP’的员工的部门号,最低工资,最高工资
select max(sal) as 最高工资,min(sal) as 最低工资,deptno as 部门号 from emp b
where job=‘SA_REP’ and 7000>(select min(sal) from emp a where a.deptno=b.deptno) group by b.deptno

4写出对上题的另一解决方法
(请补充)
select deptno,min(sal),max(sal)
from emp
where job = ‘SA_REP’ and deptno in (
select deptno
from emp
–group by deptno
having min(sal) < 7000
)
group by deptno
5根据部门号由高而低,工资由低而高列出每个员工的姓名,部门号,工资
select deptno as 部门号,ename as 姓名,sal as 工资 from emp order by deptno desc,sal asc
6 列出’Abel’所在部门中每个员工的姓名与部门号
select ename,deptno from emp where deptno = (select deptno from emp where ename = ‘Abel’)

(法二)
select ename,deptno
from emp e1
where exists (
select ‘x’
from emp e2
where e1.deptno = e2.deptno
and e2.ename = ‘Abel’
)
7 列出每个员工的姓名,工作,部门号,部门名
select ename,job,emp.deptno,dept.dname from emp,dept where emp.deptno=dept.deptno
8 列出emp中工作为’SH_CLERK’的员工的姓名,工作,部门号,部门名
select ename,job,dept.deptno,dname from emp,dept where dept.deptno=emp.deptno and job=‘SH_CLERK’
9 对于emp中有管理者的员工,列出姓名,管理者姓名(管理者外键为mgr)
select a.ename as 姓名,b.ename as 管理者 from emp a,emp b where a.mgr is not null and a.mgr=b.empno
10 对于dept表中,列出所有部门名,部门号,同时列出各部门工作为’SH_CLERK’的员工名与工作
select dname as 部门名,dept.deptno as 部门号,ename as 员工名,job as 工作 from dept,emp
where dept.deptno = emp.deptno(+) and job = ‘SH_CLERK’
11 对于工资高于本部门平均水平的员工,列出部门号,姓名,工资,按部门号排序
select a.deptno as 部门号,a.ename as 姓名,a.sal as 工资 from emp a
where a.sal>(select avg(sal) from emp b where a.deptno=b.deptno) order by a.deptno

(法二)select e.deptno,ename,sal
from emp e,(select deptno,avg(sal) avg_sal from emp group by deptno) b
where e.sal > b.avg_sal and e.deptno = b.deptno

12 对于emp,列出各个部门中工资高于本部门平均水平的员工数和部门号,按部门号排序
select count(a.sal) as 员工数,a.deptno 部门号 from emp a
where a.sal>(select avg(sal) from emp b where a.deptno=b.deptno) group by a.deptno order by a.deptno
13. 对于emp中工资高于本部门平均水平,人数多于1人的,列出部门号,高于部门平均工资的人数,按部门号排序
select *
from(
select deptno,count(*) count_num
from emp e
where sal > (
select avg(sal)
from emp e1
where e.deptno = e1.deptno
)
group by deptno
) e1
where e1.count_num > 1
order by e1.deptno

14 对于emp中工资高于本部门平均水平,且其人数多于3人的,列出部门号,部门人数,按部门号排序
select count(a.empno) as 员工数,a.deptno as 部门号,avg(sal) as 平均工资 from emp a
where (select count(c.empno) from emp c where c.deptno=a.deptno and c.sal>(select avg(sal) from emp b where c.deptno=b.deptno))>3
group by a.deptno order by a.deptno

(法二)
select m.deptno,count(ee1.empno)
from(
select e1.deptno,count(empno) count_num
from emp e1
where e1.sal >
(select avg(sal) from emp e2 where e1.deptno = e2.deptno)
group by e1.deptno
) m,emp ee1
where m.count_num > 3 and m.deptno = ee1.deptno
group by m.deptno
15 对于emp中低于自己工资至少5人的员工,列出其部门号,姓名,工资,以及工资少于自己的人数
select a.deptno,a.ename,a.sal,(select count(b.ename) from emp as b where b.sal where (select count(b.ename) from emp as b where b.sal5
面试题
(1)hdfs小文件解决方案,
(2)kafka有关的一些问题,
(3)sparkstreaming手动维护偏移量
(4)sparkshuffle问题
(4)sqoop的问题
301 龙盾
(1)集群规模,每天多少数据量;(嫌数据量少和集群规模小);
(2)上家公司规模及离职原因,公司内部人员任务分配情况;
(3)集群的运维谁来做,报表展示谁来做,集群测试谁来做;
(4)HiveSql写错了上线了怎么处理;
(5)Azkaban跑多少任务,任务失败怎么处理;
(6)指标怎么来的,说说最近做了哪些指标;
(7)Flink预研到什么程度,为什么要用它,哪里用到它,有没有上线;
(8)ES怎么用。
302 易一贷 安硕金服
笔试题都是金融业务相关问题。非金融专业,就不要去面试了。
303 和而泰
(1)Spark 有哪些提交模式,分别介绍下。
(2)你说的项目,Spark怎么提交Offset
(3)说下Spark 的原理Rdd
(4)Spark怎么提交的任务。
304 天津市国瑞数码安全系统股份
(1)自我介绍
(2)日活、数据量 不要犹豫 不能改数
(3)遇到过什么问题
(4)flink与spark对流数据的处理对比???【自己总结一下此问题】
(5)kafka数据丢失怎么找回、重复怎么处理(不在hive端和spark去重) 借助redis去重
(6)mysql去重
(7)redis数据类型、几个库、默认使用哪个库、用来做什么、与mysql对比
(8)spark调优
(9)对机器学习、算法的了解
305 中逸会计事务所
(1)介绍一下项目
(2)团队几个人 负责那一块
(3)数据量多大,(他们数据量4/5亿甚至更多,数据从各个银行获取 格式各不相同)
(4)是否带过团队
(5)期望薪资是多少
(6)什么原因离职,是跟疫情有关么
306 康码面试
(1)mysql,Redis,mongdodb的端口
(2)MapReduce流程,shuffle,hdfs读写流程
(3)spark的模式及流程
(4)shuffle排序几次?有没有必要?为什么?
(5)spark里面的宽窄依赖
(6)说项目
307 文思海辉电面
重点:介绍项目
(1)日活数据量,日活用户,平台的搭建,每层表的数量等
(2)dws有哪些宽表
(3)hql与spark sql 的区别
(4)hive的优化
(5)hive的函数
(6)有无java经验
(7)传统数据库用过哪些
308 数字联盟
(1)自我介绍
(2)介绍Flink
(3)flink实现过哪些指标
(4)flinkTopN与离线的TopN的区别
(5)flink与SparkStreaming的区别
(6)离线和实时擅长哪块
309 神州新桥
(1)hive的使用情况
(2)是否用过kettle,ETL怎么做的
(3)项目做过数仓么,做数仓需要注意哪些
(4)Python熟么,有没有在实际项目中应用
(5)项目中遇到过哪些问题,比如?遇到问题后如何确定解决方案
310 威讯柏睿数据
(1)说说做过的项目 架构是什么?数据采集用什么,
(2)cannal监控的是mysql的什么 达到数据实时获取
(3)sqoop和datax比较区别在哪,
(4)sqoop做可视化操作页面有思路么,点击页面某个按钮,输入参数就运行sqoop脚本了,
(5)使用过springboot么,做过前端展示页面么
311 外包美团(视频面试)
1)先自我介绍,然后介绍上家公司做的项目
2)SQL题
table_name :user_log_info
column:user_id; log_time (yyyy-MM-dd HH:mm:ss)
用户登录一次记录一条数据 时间格式到时分秒
Q:
(1)查询2020-03-31日登录次数排名前三的用户id 
(2)查询2020年03月每一天登录次数排面前五的用户id 
3)无穷多的水,现有两个杯子 一个3ml,一个5ml,怎样得到1ml的水(几种方法)
312 亿海蓝
(1)集群数据量多大?
(2)集群是阿里的还是物理机?
(3)是否参与集群搭建?
(4)hbase的数据量。
(5)数据如何展示。
313 本来生活网
(1)说一下你事先的业务指标及其实现方式 如回流,留存
(2)你们有多少个topic,以及每个topic
314 北京润通丰华科技
(1)spark实现topN
(2)java的集合继承关系
315 河狸家
(1)画出数仓的整体架构图,并做介绍
(2)cdh升级spark中遇到的问题,为什么要升级spark
(3)cannal 监控mysql数据库时,采集到的数据格式是什么,canal – > kafka
(4)实时业务中,tomcat 向kafka 生产数据,连接一直超时,怎么解决?
如何提高向写kafka数据的效率:压缩、分topic写、提高每批次大小 降低kafka的ack,异步发送 同步发送
(5)星形模式与雪花模式 的区别及使用场景
316 印斯特
(1)linux 下查看内存的命令
(2)sparkSQL 处理数据的流程,
(3)spark 的缓存方式、可以读取什么类型的文件
(4)使用过的数据库 连接两列的函数,union和unionAll的区别,列如何去重
(5)scala中可变集合和不可变集合
(6)spark的优化
317 新奥阳光易采

  1. Hbase中region热点问题
  2. redis的缓存击穿、缓存穿透 乐观锁原理 如何从MySQL中缓存数据
  3. list和iterator的区别 、 方法锁和代码块锁的区别 hashMap 底层实现 ThreadLocal的使用场景 for循环和递归调用的区别
  4. 为什么将SparkStreaming 改为Flink处理
  5. 实时处理和离线处理时出现数据倾斜的处理方法
  6. 2G内存 8G的数据,如何进行排序
    7.Flink 中迟到数据如何处理,如何保证kafka消费的数据一致性
    8.hadoop 和spark 计算框架的区别,hadoop 的MR整个流程
    9.hash一致性介绍,在redis中的使用,增加和减少节点如何保证缓存能够命中
    10.数仓做出的指标,为运营提供了哪些支持,计算出的指标如何展示,通过API展示发布数据时,有没权限认证
    318 苏宁外包
    0.介绍一下在公司都做过什么业务?
    1.数仓为什么分四层而不是三层。
    2.每层中文名,每层都做了什么?
    3.你在公司负责项目开发吗?
    4.你想做哪方面的工作?
    319 科创安铨
    1.java中hashMap、内存分区、垃圾回收算法、hashMap和HashTable区别
    2.spark中RDD的介绍 及 特性
    3.sparkStreaming 为什么要升级到Flink,两个框架的区别是什么,统计过那些指标
    4.spark 怎么提交任务的,转换算子、行动算子有哪些,为什么这么称呼?
    5.kafka中group_id的作用是什么,怎么划分的?
    6.zookeeper怎么使用的?mysql中实现分页的关键字?集群的搭建?
    7.Linux中查看内存使用,查找文件名,cpu负载情况的查看?
    320 杭州个推
    (1)大数据采集框架
    (2)各组件的调优
    (3)项目中遇到的问题
    (4)JVM
    (5)线程池
    321 杭州babycare
    (1)OLAP模型
    (2)数据立方体
    (3)钻取数据
    322 中科软
    (1)kafka Channel 数据量突增
    (2)kylin里面关于cube你了解多少
    (3)kafka消费者加入消费者组,如何消费分区的数据,四个分区,五个消费者如何消费?
    (4)垃圾回收器JDk1.8使用的是什么?
    (5)面试宝典中,说计算周月年指标用mr引擎,计算日指标用spark。
    323 视若飞
    Metax大数据面试题
    一、简述你在工作中公司使用到的大数据框架,数据从数据源到展示的流程、技术点以及您所负责或者参与的模块。(埋点、数据获取、传输、处理、展示)
    二、Hbase 行键列族的概念,物理模型,表的设计原则?
    三、Hbase简单读写流程
    四、Hbase 在集群和处理程序两方面如何优化?
    五、请说明hive中SortBy.Order By、Cluster By,Disribute By各代表什么意思?
    六、请说明hive中如何实现行列转换
    七、hive中支持的文件格式和压缩格式,简述你所知道的类型以及使用的优劣。
    八、hive 优化(SQL、集群配置两方面都可简述)
    九、kafka元数据信息存储在哪里,如何查看
    十、Kafka 如何保证不重复不丢失数据
    十一、spark 反压机制OR Flink反压机制简单介绍
    十二、spark 中的RDD是什么,有哪些特性?
    十三、概述下 spark 中的常用算子区别(map,mapPartitions,foreach,foreachPation)
    十四、Spark 中map与flatMap的区别?
    十五、spark如何防止内存溢出?
    十六、flink 中watermark究竟是如何生成的,生成的规则是什么,怎么用来处理乱序数据十七、怎么对线上flink做监控的,如果整个程序失败了怎么自动重启等等十八、是否有阿里云、华为、AWS等基于云服务开发的经验,有的话请介绍使用过的产品以及产品功能。十九、对公司大数据集群各类组件是否有从零搭建的经验,其中有哪些需要注意的事项,以及你所尝试的优化点。(简述)

面试:
1、架构流程啥的都是平时上课讲的
2、简历上技术太多,被质疑说是培训出来的;之后就抓项目中的一个点问,很具体
324 北明软件
(1)你在项目中主要都做了哪些工作(平台搭建,离线,实时都做了什么)?
(2)Kafka中你们的并发度是人为控制的还是自动的?会自动生成Topic吗?
(3)数据积压的原因?
(4)数仓Hive中的分桶?数仓拉链表制作,Shell脚本写过什么?
(5)实时这块写过是吗?
325 外包阿里一面
(1)数仓分层以及各层做的事;
(2)LZO压缩,怎么用LZO压缩,为什么建索引;
(3)文件储存;
(4)拉链表制作;
(5)union & union all 的区别,union all 去重是根据什么去重的;谁更效率高
326 杭州纳里健康
(1)集群规模,配置,数据量,产出是报表吗?
(2)在之前公司是什么样一个角色;
(3)数据量多的时候加服务器的问题;
(4)基于某个需求你是怎样去评估他需要什么样的配置;
(5)自身未来规划;加班多吗
327 上海-北明软件
(1)sparkStreaming 怎么防止数据遗漏和重复消费
(2)sparkstreaming 设置了设置了多大内存?
(3)hive外部表 内部表 区别
(4)union unionall 区别
(5)项目中做过什么优化
(6)每天的数据量
(7)hdfs 的读写流程
328 邦盛科技
(1)sparkStreaming动态资源分配 不是背压
(2)flume和flink的区别
(3)两个大表一个小表进行join,顺序怎么安排,为什么
(4)hdfssink中rollcount设置为0的场景
329 Business Matrix

330 北京宇信科技(成都)
(1)Spark shuffle既然使用了sortshuffle 溢写磁盘,为什么还会发生OOM
(2)Java怎么使用面向函数式编程,柯里化除了在Scala中使用,还有哪些地方会用到
(3)JVM GC 的算法有哪些
(4)Shell脚本实际上是什么(问的应该是shell底层调用了什么)
(5)Hbase 数据量达到瓶颈 怎么处理
(6)列式存储和行存储的关系及区别
331 慧择网
(1)hdfs 写数据时,datanode为什么是串行写吗,而不是并行写,(源码为什么会这么写)
(2)mr shuffle 时 缓冲区内的排序可以去掉么
(3)hdfs读文件时,是一行一行的读,但是如果正好读到128M结束时,最后这一行数据并没有读完,Hdfs 是怎么处理的
(4)Kafka 的死信队列是什么
332 紫川软件外包
1、sparkstreaming使用怎么方式拉去数据?
2、sparkstreaming拉去数据的时间间隔设置的是多少?
3、Hbase的你们公司rowkey设计? 这样设计有什么好处?
4、Hbase中有什么表?
5、数据倾斜具体的场景,为什么会发生?用什么办法解决?(想问)
6、还研究过什么其他的新技术?
333 深圳市百果数联科技有限公司

  1. 怎么定义小文件?
    2.FLume 写入数据到hdfs时,只有达到128M或1 小时才写入hdfs吗
    3.集群管理,是怎么做的,有配置过动态资源吗
    4.hive 的架构原理, 一条hive sql 的执行过程
    5.实时项目中的 Canal, 为什么选择Canal, 不使用maxwell呢
    334 akulaku-深圳
    (1)zookeeper里面的原理,两个能不能选举,事务一致性,数据一致性
    (2)对hbase的理解
    (3)rdd的理解
    (4)kafka直接还是receiver问什么底层是什么(想要详细信息)
    (5)转化率(电商转化金融)
    (6)元组
    (7)scala下划线_
    335 恒大寿险视频面试(外包)
    (1)介绍一下你们数仓的分层。
    (2)Yarn的提交job流程。
    (3)Scala的隐式转换简单介绍一下。
    (4)简单介绍一下Flink。
    (5)Flink的job提交流程。
    (6)Flink在项目中遇到什么问题,怎么解决的。
    (7)Flink的窗口了解吗
    (8)Flink集群多大,什么配置
    (9)Flink怎么解决数据倾斜的
    (10)Flink你们最多用到几个表
    (11)Flink双流join怎么实现
    (12)Flink做了什么指标,怎么实现的。
    (13)Flink还做了哪些指标,怎么实现的。。。。。还有呢。。。。。
    336中兴线下面试(外包)
    1)先写试卷,java题,选择20多道,判断3道,都是面向对象的基础题,三道大题
    第一道:异常处理有哪一些,try,catch,finally,trains,train的区别
    第二道:排序有哪一些,手写快排代码
    第三道:abcdefg字符串,手写java代码倒叙排序
    2)三个面试官:
    (1)简单介绍一下数仓(很喜欢打断你)
    (2)数仓建模怎么建,为什么用五层
    (3)数仓的维度介绍一下
    (4)数据倾斜怎么处理
    (5)现场手写hql题目,要求用两阶段聚合来优化数据倾斜:
    Select a,b,c,SUM(d) from t group by a,b,c
    个人思路:自定义UDF函数,
    自定义函数Udf1:功能是加随机前缀
    自定义函数Udf2:功能是去掉前缀
    Select * from t group by Udf1(a),Udf1(b),Udf1© t1
    Select a,b,c,SUM(d) from t1 group by Udf2(a),Udf2(b),Udf2©
    (6)觉得自己的优势是什么
    (7)觉得自己的缺点是什么
    337 小打卡

338 中软华为项目面试
1)一面:
从头开始讲项目
(1)flume中有一台机器坏了会怎么样?
(2)使用flume你有遇到过什么问题,怎么解决的?
(3)hive的一切优化手段?他会一直追着问还有吗
(4)hive使用的spark sql还是其他?
(5)hive数据倾斜怎么解决?
(6)spark 算1平方 + 3 平方 + … 说出代码?
(7)说出数仓(注意真是问数仓)血缘关系…有些词没听说忘了.
2)二面
(1)你简单做个自我介绍
(2)你简单描述下你刚做的项目,从实时开始
(3)两个流的数据是怎么在同一个sparkstreaming中拿到的?
(4)理解背压机制吗?
(5)启动一个job,只能执行一个job,一个时间片里可能存在多个job,多个job延迟?
(6)除了知道kafka这样消息中间件,还知道什么消息中间件?
(7)我们的数据源是一个第三方数据库和一个中间件,要做flink分析需要自定义source sink 您有这方面的开发经验吗?
(8)flink和sparkstreaming的区别
(9)你觉得你做过最难的指标是什么
(10)你们遇到过一个时间片内多个job吗(sparkstreamming)
(11)我看你简历你做过flink,你简单介绍下你是怎么用的,做了什么?
(12)你能说下flink 检查点吗
(13)是否参与过搭建平台组件。。。。。
(14)你为什么觉得flink好?
(15)你的目标计划
(16)你为什么离职?
339 软通动力外包(华为智慧云项目)面试题2020-7-7
(1)你可以简单介绍一下实时项目里面做的是什么?能不能举一个业务场景或者一个具体需求。
(2)说一下Spark-Streaming和Flink在任务调度上有什么异同点。
(3)Spark-Streaming中Master角色主要负责什么。
(4)flink的数据是写到哪里去。Flink两阶段是在哪阶段提交。
(5)你们的状态后端是存在哪里?一共有几种?
(6)Spark和mr的异同点?哪种稳定性更好。
(7)实时场景数据的规模量有多大。
(8)Redis的作用是什么?有哪几种数据类型?
(9)Flink的项目有没有涉及到流数据和维度数据的关联。
(10)你们用Flink怎么去开发一些checkpoint的超时问题。
(11)你用Flink开发做过最复杂的场景是什么。
(12)你们flink现在有多少个作业。
(13)Hive的表优化有哪些。
(14)说一下Hbase的写流程。
(15)你们Hbase中memstore刷写时间阈值是多少。
(16)Hbase是怎么读的,顺序如何。
(17)Hive中order by和sort by有什么区别。
(18)Hive和oracle有什么区别。
(19)Hive的压缩格式有哪几种。
(20)Hive的优化有哪些。
(21)你们Hive有多少个作业。
340 西安华炎~中兴外包
现场笔试:手机会被贴纸,防止拍照
笔试分选择题和手写编程题
选择题20道左右,我今天的题目偏JDBC的相关知识,整体有复习到就不难
编程题6道:接口实现,调用接口进行数值大小比较,面积计算,班级排名
算法题:手写倒序排序abcdef>>fedcba,冒泡排序,还有一道忘记了
 
笔试不好还是可以面试的
 
面试:面试官3人
先自我介绍
回先问实时,主要问spark的使用
还问JAVA基础,项目中写过哪些功能代码,代码怎么实现相应的功能;JAVA和Scala有什么联系,有什么区别;写过那些SQL代码,都实现了那些功能;你在项目中主要是做哪一块,然后就会重点问你相关的问题;处理过那些系统问题;问为什么你的数仓是5层,为什么要这样分;你做了哪些模块,中间遇到过哪些问题,怎么解决的;
面试中如果回答得不清晰,面试官会提出质疑;
 
面试官态度良好,不会为难你。
341 软通动力 华为外包面试题
(1)flink 维表关联怎么做的(应该是开发必做,建议提前准备)
https://blog.csdn.net/u012554509/article/details/100533749
(2)redis 支持的数据类型
(3)flink支持的数据类型
(4)flink 数据倾斜是怎么解决的
(5)checkpoint 大小 多少, 怎么监控的
(6)flink CEP 案例
(7)flink 用 rocksDB 状态后端会有什么bug
342 杭州链恪技术面试
(1)公司数据量
(2)如何处理流量问题
(3)全网采集的数据怎么处理
(4)数据中台了解吗
(5)flume如何保证数据完整性
(6)为什么用kafka不是其他的(rubbitMQ)
(7)kafka底层实现原理
(8)kafka为什么快
(9)什么是追加写
(10)什么是零拷贝
(11)RDD的血缘关系,有什么用
(12)spark聚合操作优化
(13)spark任务调度流程
(14)spark如何定位oom原因(说出3个点)及解决办法
(15)spark优雅关闭实现原理
343 中软华腾
(1)你项目中Hbase的rowKey是怎么设置的?
(2)hashShuffle和sortShuffle的区别?
(3)具体讲讲Spark Yarn的client,cluster模式?
(4)用了哪些spark的内置函数?(一开始有点懵,原来问的是Rdd算子)
(5)spark的数据倾斜怎么解决的?
(6)spark和flink是怎么处理离线数据的?
(7)spark的任务调度器的原理,流程?
344 武汉伯均成
目前是想从SparkStreamin->Flink
1)一面
(1)数仓搭建过程
(2)做了哪些工作
(3)做了Hive哪些优化
(4)分析了哪些指标
(5)维度建模
(6)实现Hive最难的需求
(7)Spark介绍你实现哪一类指标
(8)最难的是哪一个
(9)Spark倾斜
(10)Flink和spark区别
(11)如何监控集群
(12)权限如何处理
(13)Azkanban调度流程
2)二面
(1)重复不赘述
(2)第二个问了watermark checkpoint
(3)延迟数据处理
(4)实现一个需求思路
(5)实时数仓的数据走向和数仓搭建
(6)Flink如何实现端到端的数据一致性
(7)Flink和spark几个区别
(8)讲keyedProcessFunction
(9)还有一些实现需求的细节
345 深圳市爱智慧科技
电话面试
他们项目还在调研中,还没有大数据,想搭建一个数据中台,意向让去做用户画像。。。(大佬想去当架构师的可以去了解下,对自学能力要求很高)
(1)分析过那些指标
(2)了解mongoDB吗
(3)spark的数据倾斜问题怎么解决
(4)集群的优化怎么做的(从数据采集到指标分析都可以)
(5)业务数据是怎么清洗的
(6)日志数据的字段有哪些
(7)开发的时候有没有遇到问题让你研究了很久,举个例子
(8)介绍下通信有关的知识(有可能因为我的专业是网络工程才问的这个)
(9)数据库和数据仓库的区别
(10)数据仓库会删除数据吗
(11)建模用的是雪花模型吗
(12)介绍下你熟悉的排序算法,可以手写出来吗
(13)知道CAP吗
(14)你觉得自己相对于非计算机专业的优势是什么
346 浙江大华
(1)flink窗口函数有哪些
(2)flink时间有哪些
(3)flink如何实现双流join
(4)怎么确定维度退化的表
(5)hive数据倾斜怎么办
(6)hql怎么转化成mr
(7)任务调度的依赖怎么确定
(8)调度失败怎么办(重启–他不满意)
(9)集群的配置有哪些注意点
(10)es研究过吗
(11)hbase结构
(12)hbase原理
347 上海跬智(kylin原厂)电面
公司:kylin原厂(在上海 深圳办事处招人)
职位:技术支持型,帮客户解决问题,出差较多.
面试内容:电话面试30分钟,基本对着简历的点挨个问(自己写了亮点要负责)
(1)他想问他家的kylin 不会 划水了 问flink也不会 划水了
(2)kafka原理 hive优化及优化参数(细节) 数仓建模思想 spark背压-手动offset
(3)总体感觉问的很细
348 北信源
(1)hbase怎么设计索引不影响效率
(2)spark算子,那些会shuffle,那个最特殊
(3)flink10s做一次缓存会不会有影响
(4)spark还有内存问题
(5)jvm
(6)flink的集群搭建是怎么搞的,内存分配是怎么弄得
(7)kafka写入的两种机制,假如一个数据是违规等我,然后追加了一条更正信息了,如何保证在一个分区
(8)spark数据倾斜问题
(9)shuffle会产生什么影响
(10)spark的shuffle,怎么避免shuffle
(11)hadoop有shuffle吗
349 中科边缘智慧
1、Hive中存放是什么?
2、Hive与关系型数据库的关系?
3、Flume工作机制是什么?
4、Sqoop工作原理是什么?
5、Hbase行健列族的概念,物理模型,表的设计原则?
6、Spark Streaming和Storm有何区别?
7、mllib支持的算法?
8、简答说一下hadoop的map-reduce编程模型?
9、Hadoop平台集群配置、环境变量设置?
10、Hadoop性能调优?
11、Hadoop高并发?
12、hadoop的TextInputFormat作用是什么,如何自定义实现?
13、hadoop和spark的都是并行计算,那么他们有什么相同和区别?
14、为什么要用flume导入hdfs,hdfs的构架是怎样的?
15、map-reduce程序运行的时候会有什么比较常见的问题?
16、简单说一下hadoop和spark的shuffle过程?
17、RDD机制?
18、spark有哪些组件?
19、spark工作机制?
20、spark的优化怎么做?
21、kafka工作原理?
22、ALS算法原理?
23、kmeans算法原理?
24、canopy算法原理?
25、朴素贝叶斯分类算法原理?
26、关联规则挖掘算法apriori原理?
350 杭州富通天下面试
(1)flume自定义拦截器
(2)kafka优化
(3)hive优化
(4)hive怎么变成mr
(5)udf/udtf/udaf怎么写
(6)一个任务yarn资源不够了怎么办
(7)yarn调度器
(8)spark分区和kafka分区
(9)spark怎么改变分区几种方式 什么区别
(10)spark缓存分别介绍 什么区别
(11)spark shuffle优化
(12)spark被压怎么做(和什么配合)
(13)es接口不通怎么办
(14)调bug过程及有什么心得
(15)爬虫数据怎么etl
351 武汉绿色网络
电话面试,我提前做了些自我介绍,项目介绍的草稿,以及打开面试题文档方便找答案
(1)JVM运行时数据区
(2)JVM新生代老年代,垃圾收集算法
(3)Hbase介绍下以及Hbase和Hive区别
(4)Hbase rowkey 的设计,说说为什么要保证唯一性
(5)Hive的架构
(6)Hive的排序,怎么保证大数据量的有序,我说sort by加归并
(7)Hadoop的架构
(8)Hadoop在你们项目中做了哪些优化
(9)数仓分层
(10)怎么进行ETL,我说用Hive sql ,他很好奇没有写Java代码,我说因为数据不是很脏,万分之一
(11)flume和kafka区别
352 格创东智(TCL子公司)
1面 技术细节:
(1)拉链表实现,sort by,和order by区别,数仓维度建模,
(2)hive优化(在map阶段设置combiner聚合会影响结果吗)
(3)除了count()以外还有什么可以统计行数的
(4)spark手动维护偏移量、精准一次消费、那一套、redis去重?为什么要用、怎么用的
(5)spark挂了重启需要注意哪些地方
(6)spark文件shuffle过程,最终结果如果输出到HDFS,那么小文件如何处理?
(7)atlas ranger 表和字段的权限管理
2面:架构面
(1)问了下数仓架构
(2)为什么要flume-kafka-flume这样采集
(3)工作中遇到的问题,如何解决的.(我说了hive和mr调优 具体问调了那些配置文件哪些参数)
353 OPPO实时
(1)Spark实时,ES实时报表
(2)讲了下手动维护offset和redis去重那一套
(3)怎么精准一次消费.
(4)为什么要redis去重,直接在spark里distribute不行吗?
(5)spark消费kafka为什么要手动维护这么麻烦 spark很多连接kafka(或ES)的现成api你们不用吗 为什么非要自己写工具类?
354 神州数码
(1)问了集群的规划, 实时的流程
(2)为什么spark 和 kafka 不在一个节点上
(3)kafka分区数
(4)重启spark有无异常
(5)spark 写入es后 多久才能处理
(6)spark的任务调度,画图
(7) habse rowkey设计
(8)又问了java,如GC
(9)分组topN
355 傲林科技
(1)项目介绍
(2)flink checkpoint机制,使用的注意事项
(3)flink Exactly-once怎么保证
(4)flink对于状态的理解
(5)sparkStreaming内存管理,StorageMemoryManager分几个组件
(6)sparkStreaming stage划分
(7)sparkStreaming的任务调度
(8)flume kafka架构
(9)zk的选举算法
(10)jvm G1算法类加载机制
(11)多线程,锁
(12)hashmap实现
(13)zk hbase mysql是不是强一致性1 4.hbase注意事项
(14)scala高阶函数
(15)设计模式
(16)看过哪些源码
356 东华博泰(西安)
(1)问我对linux是不是熟悉
(2)怎么限制linux用户登录,怎么设置权限
(3)查看端口号占用情况
(4)查看ip地址的连接数
(5)linux启动顺序
(6)查看apache访问日志里前五的ip数(访问量最高)
(7)数据库里怎么查看执行计划
357 瑞友外包去华夏基金项目
(1)先介绍自己
(2)让讲项目
(3)参与过数仓的实际搭建吗,采集平台怎么搭建的
(4)问hive中etl用什么脚本开发的
(5)也用过sparkstreaming是吗
(6)flume开发流程,Hadoop调优有参与过吗,
(7)UDF怎么自己定义(前后两个人问了两遍)
(8)用IDEA做什么了
(9)用的什么语言
(10)Nginx是你搭的吗
(11)Kylin +Presto都用过吗
(12)我问他们用的什么技术,搭的怎么样了
(13)答刚刚搭建好hdp没记太清,也是用的hive、spark streaming
358 平安好车主
1.先做个自我介绍,上家公司之前做过的项目情况,简单介绍一下之前自己做过的事情,上家公司每天产生的数据有多少?
2.上家公司常用的大数据框架有哪些?
3.常用的Hive优化有哪些?
4.离线数据仓库每层做的事情有哪些?
5.LZO的切片是什么意思?
6.半连接和全连接是指什么?
7大表和大表之间的join有什么优化方法?
8.数据在前端是用什么进行展示的?
我向面试官提问的问题:
1.如果我能入职,进公司后会做什么工作?
2.贵公司的大数据部门有多少人?选用的是什么框架?
359 省钱快报
1.azkaban有什么缺陷? 有了解过oozie其他的框架吗?
2.azkaban任务出现问题了怎么办? 重启?
我们遇到的少,那可能你们公司做的 好把。
3.任务如果卡死,怎么报警,邮件 电话 钉钉 ?
3.hive分区表与分桶表的区别。
4.hive的4个by讲一个。
5.count(
) ,count(1),count(一列)区别说一下。
count * 好像不会算null值,具体不清楚。
6.sqoop的上游如果分库分表,比如用户表,怎么导hdfs?
7.sqoop使用都遇到了什么问题 ?
8.sql执行顺序说一下。
9.从canal到sparkstreaming的数据怎么保证有序? 或者利用kafka什么保证有序的?
10.分析过留存吗?比如我想分析过去1年,每天的1日留存怎么做?
11.新增变化慢的拉链表,那变化比较快的怎么处理?
12.olap用过哪些?? 在hbase做count(*)之类的统计吗?
13.hive什么时候发生oom,数据倾斜?还有两个忘了,都是hive出问题了怎么办?
14.数据质量监控怎么做的?
15.order by 一定只有一个reducer吗?
16. left 什么 join 用过吗? 中间单词没听清楚。
17.mysql中的数据变化了,dwd层是怎么处理的??
18.日活有多少? 用户假如在多个渠道登录,app。pc有没有合并?
19.问的问题都很具体,细节,其他问题想不起来了。
360 天津中汽
1.介绍离线项目的架构,遇到那些问题,负责模块
2.分布式集群的CAP原则,zookeeper可不可以同时满足?更注重哪一特性
2.1 Hive数据倾斜
3.kafka怎么解决数据丢失?
3.1 MR shuffle机制
4.canal原理
5.离线一天的数据量
6.hbase的rowkey设计原则,Phoenix使用过吗?hbase一天写入的数据量
6.1 hbase读数据流程
7.Redis数据类型,持久化机制
8.sparkstreaming读取kafka的方式
spark数据倾斜怎么办
8.1 拉链表怎么实现?
9 string可不可以被继承
10 接口可不可以有方法体,与抽象类区别
11 callable与runnable实现线程的区别
11.1 treeset 有序吗,怎么排序?自然排序和定制排序
12. Flink的时间语义
13. Flink的waterMark机制,Flink watermark传递机制
14. Flink checkpoint机制
15. 简单介绍一下cep状态编程
16. 使没使用过Flink window join
361 浩鲸新智能科技
1、自我介绍
2、谈谈对大数据、数据中台看法
3、讲下离线项目
4、hive和mysql区别
5、hadoop的搭建
6、sql的优化
7、其他数据库的了解程度
8、银行政府业务接触没
9、职业规划,期望薪资
面试官不太懂大数据好像,没深层次的东西。
362 易动网云科技
1、数据中心有一个机柜,机柜的总空间容量为h个U位。设备的U位大小表示设备装入机柜后需占多少个U位空间。假设有一组U位大小不一,不可分割的设备,设备数量为n,其U位大小记录在数组中。我们将设备装入机柜,在不超过机柜的总的空间容量的前提下,请编写代码求解机柜中设备实际占用的U数之和的最大值是多少?(不考虑设备间的间隔,设备可以连续放置。)

上图为一个42U机柜放置了若干设备的示意图。
示例:
输入:
每个设备的U位数,devices = [4, 6, 4, 7, 9]
设备的个数 int n = 5;
机柜的总U数 int h = 12
输出:11 (4+7)
每个设备的U位数,devices = [8, 23, 3, 16, 2, 19]
设备的个数 int n = 6;
机柜的总U数 int h = 38
输出:38 (3+16+19)

2、有单链表x和y,请将x和y合并成z。x和y为增序,要求合并后z为增序。
示例:
输入(x,y):1->2->4, 1->3->4
输出(z):1->1->2->3->4->4

3、 随机输入一个3至18位的正整数字符串,请编码找出与这个正整数最接近的回文字符串(这个正整数本身除外),如果结果不唯一,返回值最小的那个。
示例:输入:“234”,输出:“232”
363 民生易贷
1、自我介绍
2、介绍下hadoop生态圈,各个组件 把项目用到的都说了一遍
3、hive的拉链表,数据是全量还是增量
4、spark架构、调度、内存管理
5、kafka数据倾斜
6、其他数据库有没有了解
7、flink会不会
8、ETL工具除了sqoop会哪些 我说了个Kettle
公司数仓离线实时刚起步
364 睿帆
1、遇到的异常,什么情况下
2、linux命令,查内存等等的命令
3、grep 查询一行数据包含a或b怎么写
4、线程和进程
5、软连接和硬链接区别详细一点
6、cp和硬链接的区别
7、hbase存储过程
8、zk的运行原理和选举机制
9、kafka怎么用的
10、sparkstreaming双流join
11、spark提交流程
12、spark任务的调优
13、spark日志查看
14、yarn有没有用过什么命令
15、hadoop常用的命令
16、redis是单线程这个问题你怎么看
365 赢时胜
1.所有数据都采用压缩吗
2.数据清洗、脱敏 手机号、身份证号能想到的如何脱敏 String->***替换似乎不是理想
2.元数据管理 atlas 架构 存储 、索引
3、spark SQL HQL选择有没有什么考量
4.hive小文件 小文件危害
5.hive strict 严格模式的局限
6.hive SQL列转行 行转列实现
7.RDD dataset 、dataframe 区别 转换
8.spark内存模型
9.spark flink区别
10.spark 直连卡夫卡有啥优点
11.sparkstreaming 如何进行版本迭代升级
12.如何优雅关闭
13.spark 背压机制
14.实现topn
15.scala 隐式转换怎么理解 底层原理
16. scala tuple 有几个 Java tuple 有几个
17.scala 方法和函数区别
366 汇纳科技
笔试:
1.spark提交任务流程画图
2.coalesce和repartition的区别
3.transformation和action是什么?有什么区别?分别举例
4.什么是数据倾斜?为什么会出现数据倾斜?spark怎么解决数据倾斜?
5.hbase怎么避免数据倾斜

面试:
0.自我介绍和项目介绍
1.sqoop是一次性导入,还是定期导入,怎么做的?
2.用kylin干什么?cube太多怎么处理
3.日志文件是动态的,怎么采集
4.谈谈spark优化
5.公司服务器是固定的,内存固定20G,spark任务运行太慢,怎么优化?(提示)从代码方面来优化
6.spark数据倾斜怎么处理
7.用过什么数据库
8.数据清洗怎么做的
9.怎么确定kafka台数?kafka的topic个数跟什么有关?
10.java方面也做过吗?谈谈java做过哪些东西?
11.sqoop和dataX怎么选择的,为什么?
12.你们用的架构是什么?apache还是CDH?为什么这么选择?
13.维度退化是怎么做的
14.sql熟练吗,说说你做过哪些指标
15.你在写sql中遇到难写的sql吗?最后怎么解决的?
367 招商基金—深圳

368 数码辰星科技

  1. groupby的字段可不可以concat别的字段
  2. hbase中表如何设计的
    3.如果有两张特别大的表join怎么进行优化
    4.两张特别小的维度表和一张事实表怎么join
  3. hbase表中都有什么字段
    6.kafka怎么实现的幂等性
  4. 列式存储插入数据会不会很慢
  5. flink和spark区别
  6. flink状态编程
    10.为什么用maxwall
  7. 为什么用lzo压缩
    12.除了范式建模和维度建模还了解什么建模
  8. 数仓模型怎么维护
    14.精确一次性消费
    369 魔变科技
    公司背景 做教育行业软件 一个是微信小程序 教师助手 /自习室
    用户体量100w 行为数据10G 就TM离谱
    一面
    问了架构 他们在做离线 所以重点问了些离线东西
    包括数据流向 你在采集这块负责什么
    数仓建模 每层做了什么 你做了什么 有什么难的指标
    问了以后问了点spark flink 问了spark shuffle和mr的shuffle区别
    问了streaming和flink区别
    然后回过头问我建立的技术点 一个一个问
    问了技术框架原理 HBASE ES HADOOP YARN
    问了一些指标实现

二面
技术总监面试
问了近期项目的难点 我说的flink的
又问了离线方面遇到过什么难点没
问了些数仓指标 难点 遇到什么困难 运行状况
数仓如何测试 测试流程
问了数据采集这块 怎么采集 数据流向 问了临界时间做了什么特殊处理
然后问我为什么来深圳 个人发展意向
简单介绍了他们的产品和目前做的事情 我 问了他们数据量 问了他们现在做到什么阶段 他们在做离线迭代 说会有加班 问能不能接受
370 闪送
问题总结
1sqoop到数据底层原理导数剧失败临时文件怎么解决还有为什么有临时文件
2 hive数据倾斜的解决方式使用sql 有null值的数据倾斜

reduce的个数怎么算的
配置文件修改不生效

3 行转列 列转行函数 排序函数 窗口函数
4 数仓建模 订单状态表 字段发生改变 思路
5 窗口函数 求新增值以及新增的累计值 每天求前面所有的新增总和
371 滴滴
滴滴金融

滴滴最近感觉缺人,数仓的可以试试,面试也不写sql, 面试视频面试使用的zoom, 非常偏向于项目内容
372 携程
2020-09-03 晴 北京携程 第三次面试

  1. Sqoop底层为什么默认是4个Map?
  2. 日志服务器上每天大概又多少个log文件?
  3. 你们的文件后缀都是什么?
  4. 你们的数据倾斜一般都是怎么处理的,在哪里有数据倾斜?
  5. 你们为什么将维度表存在HBase中?
  6. 你们怎么保存日志30天的?操作步骤讲一下?
  7. 你们的事实表和事实表用的是双流Join对么?代码逻辑简单描述一下?
  8. 你们用什么将数据导入到Kafka的?
  9. 讲一下MaxWell运行时架构底层原理,数据导入导出的原理?
  10. HDFS块大小139切不切?为什么?
  11. Hive优化知道多少?
  12. MapJoin怎么用的?
  13. MapJoin的底层原理?
  14. 为什么大表Join小表?
  15. Map方法出来的数据落盘落了,等待Reduce来读,那么落盘到了哪里?
  16. 前面埋点数据,怎么到的Nginx?
  17. 你们Kafka里面的每天数据大概多少?
  18. 你们每天数据量大概多少?
  19. 你们数仓分层为什么这么分?
  20. 你们DWS、DWT多少张表?
  21. 你们实时指标大概多少个?都是怎么出的?
  22. 你们的报表都是自己出么?
  23. Hadoop底层运行原理,三个组件是怎么一起串联协调工作的,怎么从MR走到HDFS的,然后走到Yarn。
  24. 熟悉那些Hadoop优化。
  25. 数仓建模为什么分这四步,确认业务怎么确认的?重点说一下。
  26. Spark优化怎么优化的?
  27. 你能用Spark实现连续类指标么?如连续三天连续七天等等?
    373 携程
    易车一面:
    1.scala 中class object区别?
    2.归并排序
    3.mr数据切片
    4.hive grouping sets()函数
    5.jvm gc
    6.zk 如何数据一致性
    7.rowkey设计原则
    8.说一下对rdd的理解
    9.mr流程
    10.yarn机制
    11.为什么行动算子能触发计算。

374 原力棱镜(要求java好
了解数据库存储的数据结构吗?
行式存储和列式存储区别?
用了什么列式存储?parquet
为什么用parquet不用orc?
flink情景题:kafka两个topic分别是游戏角色信息(比如等级)和角色操作事件(比如吃一口药),现在想要把角色等级和操作事件绑定在一起(吃药的时候多少级),用flink落地实现?
hash冲突了解吗?怎么解决?
jvm垃圾回收器用的什么?CMS
为什么用CMS不用别的?基于标清算法…
linux查看磁盘占用?
linux查看某一进程资源占用?
linux有一个超大的csv文件(200g,不能全读进内存)不考虑效率,去除第一行数据?多说几种?
设计模式了解吗?flink中用到了什么设计模式?

375 山东大课堂
hadoop集群搭建的注意事项
mr的优化
flume架构
kafka的优化
你独立做的项目介绍业务,如何实现的
hive小文件处理,数据倾斜处理

376 长安通信
讲一下自己做的项目
离职原因
kafka精准一次性,高吞吐的原因,优化
redis数据类型,快的原因,redis持久化
hbase的热点问题,rowkey设计
spark提交流程
spark提交参数的优化
手写sql:用户连续登录的最大天数
es文档查询流程,es大数据量查询怎么处理(我问面试官,面试官说正遇到这个问题,不知道怎么解决)
问算法会不会,快排算法

377 大鹏教育
1.自我介绍
2.离线项目
3.离线项目的历史数据存在哪里
4.项目中有没有用到动态分区

378 北京绎云科技有限公司
1.自我介绍
2.在项目中负责什么
3.是否了解flink
4.用flink写过什么指标
5.在使用flink中有没有自定义过算子
6.是否可以独立搭建大数据平台
7.搭建大数据平台需要搭建哪些东西
8.es用过吗,就是把flink分析的数据放入es。
9.整套环境大概多久可以搭建起来
10.实时里面一定要用Hbase吗?
11.团队成员有几个人,分工。
12.离职原因
13.项目开发周期。

379 大鹏教育
数仓怎么搭建的?
历史数据存在哪里了?
zookeeper在数仓中的作用是什么?
是用azkaban调度的吗?为什么不用datax?
实现了哪些需求?
实时项目有参与吗?怎么做的?

380 华清科盛
1,手写shell脚本
2,mr过程讲一下
3,实时统计过哪些指标,挑两个介绍下怎么实现
4,es跟kibana怎么实现可视化的
5,集群是配置在公司还是别的地方
6,spark数据倾斜怎么解决

381 上海睿民
1、HBase的rowkey设计需要注意什么?
2、wordcount的实现,textFile的底层是什么?
3、map和FlatMap的区别?
4、SparkStreaming中kafka的偏移量如何保存?
5、SparkStreaming程序挂掉了,但是没有修复,kafka中的数据也丢失了如何处理?
几天才发现修复之后程序会报什么异常?
6、groupby和groupbykey的区别?
7、有一个部分科目的成绩单(班级、姓名、成绩),通过spark程序实现取每个班级每门科目前三名?

382 神州数码
1. 先介绍数仓项目;
2. 规模多大?服务器处理节点多少?
3. 10台服务器,大数据平台是怎么分的?
4. 分层是你做的吗?说一下分层吧。
5. 实际中,比如销售额度,按照月、年来分析,这个建模你是怎么设计的?
6. 你们工作中的即席查询是什么时候引入的?
7. 你对presto比较熟是吧,你说一下底层实现原理呗。
8. Spark写过吗?写一个wordcount需要用到的算子从头说一下吧。
9. HiveSQL写的多吗?说一下4个by。
10. Hashmap你了解吗?
11. 写接口SpringBoot写得了吗?
12. Java连接池了解吗?
13. 有博客吗?有gitHub吗?
14. 你开发中写Java还是写Scala?
15. HiveSQL中分页怎么做的?
16. Spark的巫师计划你知道吗?
17. 你简历中的ES了解的多吗?
18. 数据倾斜你遇到过?说一说。举个业务场景。
19. Linux常用命令有哪些?
20. VI编辑器。
21. 查那个进程占用的内存比较多是哪个命令?
22. 分析进程中的线程呢?
23. 期望薪资是多少?

383 文思海辉
1、项目介绍
2、kafka阻塞了怎么办
3、spark调优做过没 怎么做的
4、flink了解吗

383 一只船教育
1,canal和maxwell区别
2,讲一下项目
3,精准一次性消费怎么实现的
4,spark和flink的主要区别,为什么要用flink
5,项目中都统计过哪些指标
6,linux查看系统版本命令,查看磁盘挂载命令

384 赞同科技
Hive:
自定义UDF、UDTF函数
优化
说下Hbase
说下Azkaban
数据从哪里开
会不会搭建集群
公司数据量多少
技术中台
大数据部门几个人:

385 农行项目:
kafka
数据量过大如何处理
数据重复了怎么办 挂了怎么办
优化
spark算子了解多少

386 公司:南瑞国电
平时你在公司具体是负责哪方面,你们的表有多大,部门中任务怎么分配的,数据过来怎么处理,举个例子说说你主要做的事情,怎么调度的,三年都做过哪些事

公司:博彦科技
Flume与sqoop的应用场景
在公司主要负责那些工作
ETL的流程
会使用那些数据库,会用oracle吗

387 公司:泰康保险外包
1自我介绍
2介绍数仓项目
3数仓中举例某个指标从ods 开始的具体实现
4一个SQL题
5 hive优化
6开发过程中自己负责哪一块,小组几个人
7数据量

388 公司:山东大课堂
1.先上来随便聊了聊离职原因啥的
2.然后问了问人员构成
3.hadoop生态圈组件
4.做过哪些项目

389 公司:北京未来趣
1.自我介绍
2.介绍离线项目
3.介绍实时项目
4.介绍数据量
5.瞎聊

390 公司:中智诚征信有限公司
三个SQL:
1、现在有两张表,a表和b表,a表里的部分id,b表没有,把这部分id取出来
2、将String类型的字符串“20201230”转化为“2020-12-30”
3、现在有1000万个id,随机取出50万个,怎么实现
关于项目:
1、项目中有提到kafka,说说你对kafka的了解
2、Kafka单条消息大小的参数调大之后,之后数据大小恢复正常了要不要调回来,有没有什么影响
3、你们公司数据量多大,日活多少
4、离线数仓你负责哪些模块,说几个你完成的指标,会从你说的指标中挑两个说说思路

391 公司:普华集团
1、自我介绍
2、说说实时项目整体流程
3、实时项目中的维度表为什么写到HBase,出于什么考虑
4、说说你对ES的理解
5、离线项目中的建模部分,说说你所了解的建模理论,你们的离线建模使用的什么模型,建模过程选择几张表举个例子
6、你们公司数据量多大,日活多少

392 中智诚
1两张表 a和b 都有一个id字段 但是部分有a表有的id,b表没有,把这部分id取出来
2字符串类型日期“2020/12/30”转化成“2020-12-30”
3现在有一张表有1000万个id,随机取50万出来
4说实时项目
5精准一次性消费
6为什么要用spark streaming统计日活
7Kafka压测具体咋操作

393 合生活
1数据量多了和少了怎么办?
2判断数据重复,并定位
3项目落地流程
4工作主要做那一块
5怎么保证数据的准确性
6拉链表断掉怎么办
7实时项目为什么用kafka
8数仓开发流程,你可以做那层到那层
9hive小表join大表,不要大表join小表

394 公司:最右(一面)
笔试题:
爬楼梯,每次可以爬1阶或者2阶,比如3阶楼梯有3种方法:
1,1,1
1,2
2,1
打印出n阶楼梯的所有方法
要真的会做,就算抄的也要明白思路,因为面试会问这道题为什么这样考虑

面试题:
1、手写sql,现在有一张表,有以下字段
uid event ts date
分别表示用户id,事件,时间戳,日期
手写sql求出日期为2020–12–25活跃的用户2020–12–26日的第一条事件及时间戳
2、sparkstreaming怎么实现精准一次性消费
3、flink怎么实现精准一次性消费
4、flink两阶段提交,每个阶段具体做了什么事
5、hive的结构,对hive源码了解多少
6、一个hive sql提交后,mr怎么解析这个sql,就是说怎么将一个hive sql转化成mr任务并运行出结果的,源码中怎么体现
7、flume三大组件,sink的过程是怎样的,前后两个flume分别用的什么channel,有落盘过程吗,用memory channel可能会丢数据,对业务没有影响吗
8、kafka分区策略,10条数据,3个分区,每种策略对应的是怎么个分法
9、处理完业务数据再提交偏移量可能会造成数据重复消费,只能是at least once,怎么实现exactly once
10、hive怎么解决数据倾斜,有没有遇到过数据倾斜,怎么处理的
备注:对做过的项目不感兴趣,但是如果简历上的专业技能部分只要写了熟悉架构,就会问的特别细,细到底层怎么实现的那种

395 公司:极点触碰(一面)
1、离职原因
2、详细说下实时整体架构
3、实时中为什么用HBase存维度表,出于什么考虑
4、代码能力怎么样
5、ES在项目中主要是怎么应用的,用ES做了哪些事,对ES了解多少
6、为什么用Maxwell,为什么不用canal,出于什么考虑
7、Hive引擎为什么用mr不用spark,两者的区别是什么

396 公司:中智诚征信有限公司(二面)
1、为什么离职
2、有搭建集群的经历吗
3、简单介绍一下实时项目
4、看你简历上即席查询用的kylin,presto了解吗,说说你所了解的
5、平时sql写得多还是代码写得多

397 公司:亚信科技
1、自我介绍
2、为什么离职
3、介绍一下上个公司做过的项目
4、说一下做过比较难的指标
5、Sql中遇到的比较难的函数

398 公司:合生创展
1、dws宽表制定流程
2、制定了哪些开发规范
3、怎么保证数据的准确性
4、开发流程
5、介绍离线项目
6、Hive优化
7、数据倾斜怎么做

399 公司:中智诚
1、1000w数据随机采样50w
2、20201212 转换2020-12-12
3、a/a/ 转换 a-a-
4、项目介绍
5、kafka优化
6、hive数据倾斜
400 公司:吉贝克 朝阳的
1.自我介绍
2.做过哪些项目
3.说自己公司主要是orcale的,连数仓都没有,想找有证券金融方面的
4.问了问sql写的怎么样

401 公司:北京大德盛业
辣鸡公司,别去,连技术部都没有,去了你就是技术部部长

402 公司:美篇
1.自我介绍
2.介绍离线架构
3.问了问公司在最后存储可视化的时候有没有什么优化?(我说的是es+kinana,我也不知道这玩意还能优化)
4.聊指标体系(我说的是一个业务一个体系,就是业务和哪些维度相关联)
5.问了即席查询,他想和我聊presto,但是我不太熟,我就说了说presto和impala.麒麟之间的区别,泛泛的说了说
6.出了个题,就是给1g内存,单机情况怎么去求1t数据(里面是纯数字)里面的50个较小数
他回答说是把一部分加载到内存中,然后去比
7.出了一个sql
给出time,user_id
求time,新增用户,一日留存,次日留存,一直到七日留存
公司情况,15年成立,数据量是每日1t??
用的是阿里的maxcompute,就是不用自己维护组件,如果要增加服务器配置,自动增加配置的一个平台
现在数仓离线都在跑

403 公司:久智集团
一面:overwrite和overload区别
数据来源,MySQL数据怎么导到hive中
数仓分层是怎么分的,dwd清洗是用什么清洗
集群怎么搭的
拉链表原理
二面:上级给的业务无法按时完成要怎么解决
期望什么样的工作
三面:公司之后的发展方向

404 中智诚
1,3道sql
字符串20%20%20,想要替换%变成#

  20201212----->2020-12-12

  去掉a表中b表的id字段

2,离线项目讲一下
3,kafka调优说下
4,kafka有多少个topic 怎么分区的
5,hive表优化说下

405 更美 微信电话面试
问数据量多大
每条日志数据多大
项目组几个人
日活 月活 日活我说100w 月活320w 他表示怀疑
你们用kafka吗?kafka中数据量大小?
hive内部表 外部表
用过那些窗口函数 三个rank区别
查看分区表的命令
先问了 sort by order by 我说order by全区排序 用的较少 容易oom
问了一个简单SQL 结果我就用order by 处理,他就问 你不是说order by容易oom吗
平时负责什么工作
前端埋点的日志有哪些,刚答了启动日志,事件日志 就问了事件日志有哪些字段 ,为啥要埋点这个字段,跟后面统计的哪个指标相关的呢?
遇到过数据倾斜吗?咋判断是发生了数据倾斜,咋解决的?
spark了解的多吗?说一说你工作用的算子。
还有啥想问的?我问了他们公司数据倾斜怎么解决的。

406 羽实萧恩
1.sql题,求学生总成绩top10
2.数据库流向说下
3.sql优化 sql语句优化
4.维度建模,雪花和星型说下区别
5.hadoop数据倾斜的影响和解决方案

407 赞同科技
一面
1.介绍项目(把实时讲了一遍)
2.zookeeper监听机制
3.hbase结构以及rowkey设计原则
4.两个数据源的数据量说下
5.为什么要自定义udtf函数,怎么自定义
6.数据中台了解吗?

408 公司:金融壹账通
问题:
自我介绍
为什么离职
数据如何采集的?
数仓搭建和建模怎么做的?
数仓每层都做了什么?
hive内部表和外部表的区别?
sql写的怎么样?(没有给我出具体的sql题)
拉链表具体是怎么实现的?

409 公司:传智教育
问题:
自我介绍
kafka生产者开启幂等性的原理?
ISR队列原理?
数仓快速变化维是怎么实现的?
数仓的几个概念:上转,下转,切片(我说我都没听过,不知道)

410 宇信科技二面:
自我介绍
简述最近的一个项目流程 (我说的是实时项目)
问ES的倒排索引,举了一个场景,一万个文章,让说一下spark代码实现的思路 (回答不太好)
举了一个小文件场景:有10万个50B大小的文件保存在HDFS中,问会发生什么问题
问了kafka为什么手动保存偏移量,不是能自动保存吗,听起来好像对手动保存,精确一次消费不太清楚

411 北京润通风华科技有限公司(昌平)

  1. 业务量在多少:1G
    集群规模是多大的:10台
    集群中各个组件是怎么分配的

2.SparkStreaming写一个根据itemid和tradmarkid写一个topN
也可以用Flink来实现
通过json解析工具对数据进行解析

3.Flink与SparkStreaming的差别

412 东方国信(朝阳区)
1.介绍项目
2.业务量
3.提交离线任务的时候,参数配置上做了哪些优化
4.Flink的API使用,自定义序列化
5.Flink的提交方式,为什么使用会话而不是per-job
6.Flink做了哪些优化
还有一些,实在想不起来了。。。问了三个小时

413 沃东天骏(亦庄)
一面:
1.我面试的所有公司都会问,公司的业务数据量小,为什么使用大数据方式来处理,团队有多少人
2.说一下Flink和SparkStreaming的差别,更喜欢用哪种,为什么,做了哪些改进
3.spark sql 中的时间算子,spark sql中不支持hive中的哪些函数
4.离线数仓的建模想法,每次的分工,对京东的数仓有了解吗?
5.如何能保证业务数据的准确性
6.实时与离线的指标是分开使用的,还是结合使用的
7.sparkStreaming和Flink是需要在后台运行的,怎么做的监控,如何进行的调优

414 文思海辉(海淀)
二面:
1.介绍项目
2.Kafka的一些技术点,调优,故障等
还要几个实在想不起来了

三面:
1.spark与MR的区别
2.使用spark引擎的原因,什么情况使用spark引擎,什么情况使用MR引擎
3.HBase的读写流程,RowKey设计,分区设计,为什么这么设计分区
4.ES的原理,ES的每个node的内存大小(好像是这个意思)
5.利用MR手写wordCount

415普华
1 自我介绍
2 hive数据倾斜
3 MySQL锁
4 MySQL索引,作用,索引查询命令 ,什么查询命令会让索引失效
5 Mysql和数据仓库有什么功能有什么区别
6 Mysql实现高并发
7 java并发问题
8 es介绍,深浅分页
9 hive4个by有啥区别
10 口述出了一道sql题,记不清是啥了
11 kafka峰值数据大小
12 实时项目怎么实现精准一次消费
13 hive优化

1.介绍最熟悉的一个项目
2.现在用的是flink那个版本
3.sparkstreaming和flink之间的区别
4.flink是如何保证一致性语义的
5.watermark和window窗口的作用
6.采集过程中如何处理小文件的过程
7.小文件会带来什么样的问题
8.Hbase有做二级索引吗
9.熟悉es吗
10.大数据集群有没有自己搭建过
11.用的是什么版本的(Apache)
12.为什么没有用CHD等社区版本的
13.集群的监控是用什么做的

416 羽实箫恩
1 Mysql存储过程
2 口头出了一个sql,求男女人数
3 hive 优化
4 问我对他们公司有什么要了解的
5 期望薪资最快啥时候能到岗

中国农业银行总行(外包)
说一下你做过的业务,最近做的业务
公司数据量对大?多少个集群
几个项目组,组里多少人
Kafka的分区分配策略
spark streaming窗口函数
spark做了哪些优化
数据倾斜如何处理
flink中watermark机制
然后就是离职原因 最快可以什么时候入职
我问了他们的工作内容 集群 主要负责项目

417 一起教育科技
离职原因,为啥没拿年终奖就离职了(我说我们公司是第二年才会发)
你负责哪一块项目,你最擅长哪些
讲一下数仓分层
元数据管理,质量监控怎么做的
对kylin有哪些了解,使用kylin发现哪些问题

418 极点触碰
(貌似是个0-1)
1、hive的数据倾斜(我说了倾斜,他说了一条优化,我给他补充了一堆优化)
2、kylin展示的有哪些数据
3、sqoop的数据导出来是到了哪里
3、为什么要用到hbase

419联通华盛通信有限公司
自我介绍3-5分钟
最近做的业务?用的框架?流程是什么?
hadoop做过什么配置?修改过什么配置文件?
针对大规模数据量查询如何做到秒级响应?
使用过的框架和工具?具体做什么用?
上个问题说到的框架的原理和优化
420 公司:58
1、讲一讲你对java面向对象思想的理解
2、一个KV类型的值,对key设置一个过期时间,用Java代码怎么实现,不能使用redis
3、用java实现一个具有优先级的队列,讲一下编程思路
4、详细说一下Spark中的reduceByKey算子的shuffle读和shuffle写过程,如果没有reduceByKey算子,不使用其他算子,要实现这个功能,你怎么实现
5、缩减分区用什么算子
6、说一下Flink的运行时架构
7、ES是怎么做聚合的,说原理
8、实际工作中遇到过什么问题
9、对排序算法了解多少

421 公司:银河创想
1、自我介绍
2、介绍实时项目框架,数据存到哪里,处理流程
3、离线框架,数据存储位置
4、Sql题,字段 有书名,书的标签若干逗号分隔,统计出现频率前十的书签
5、Spark中那些算子存在shuffle
6、Shuffle什么意思

422 公司:腾云忆想
1、常用的技术栈有哪些?
2、在大数据组件里面,有哪些是理解的比较深刻的?我说的flume和kafka
3、kafka数据精准一致性是怎么实现的?我回答的ack等级和幂等性,他想问kafka内部原理
4、算子和flink熟悉吗
5、flink和spark做checkpoint的区别
6、spark为什么做不到精准一次性?
他说是有两种,一种是端到端精准一次性,一种是引擎内部(最小的数据粒度,flink是event,spark是RDD)
7、hive的调优方向
8、hive动态分区的弊端(本来想随口说一说,结果对方开始仔细问了)
9、shell命令 场景:就是某一个进程往我磁盘里写东西写的很快,需要去定位这个进程

423 公司:腾讯外包
1、自我介绍
2、介绍数仓项目
3、hive优化
4、mapreduce过程
5、zk选举机制
6、维度建模理论

你可能感兴趣的:(pianaipj-真题宝典-4)