【面试真题】今日头条大数据面试100题,收藏备用

1、简述WordCount 的实现过程

2、简述MapReduce与 Spark 的区别与联系

3、Spark 在客户端与集群运行的区别

4、相同的 SQL 在 HiveSql 与 SparkSQL 的实现中,为什么 Spark 比 Hadoop 快

5、简述自定义 UDF实现过程

6、HBase 表设计有哪些注意事项

7、谈谈你对HBase 的 HLog的理解

8、数据同样存在 HDFS,为什么 HBase支持在线查询

9、SparkSQL操作Hive中的数据遇到过什么问题嘛?

10、SparkStreaming与Storm、Flink DataStream的区别与联系

11、海量数据下,用三个 map和一个 reduce 来做 top10,哪种方法最优。

12、数据仓库的模型如何设计

13、简述数据仓库的数据清洗过程

14、谈谈数据仓库业务建模、数据分析方法

15、说一说数据仓库是怎么设计的

16、数仓设计规范包含哪些方面

17、数仓数据质量如何监控

18、说一说你们的项目包含哪些数仓主题

19、简述数仓拉链表的实现原理

20、有没有遇到数据倾斜的问题(场景、解决方式)

21、手写 map-reduce,两份数据,一份是设备 id+用户 id,一份是设备 id+点击的广告+ 点击时间,找出每个用户id 每天 10 条最新的广告点击记录

22、手写SQL查询出用户连续七天登录的用户(user_id,login_date)

23、Sqoop 增量导入数据是如何实现的

24、Flume 事务是如何实现的

25、从Kafka 消费者角度考虑是拉取数据还是推送数据

26、Kafka 中的数据是有序的吗

27、Kafka 数据推送失败后怎么处理

28、Kafka 如何保证生产者精确发送一次?

29、Kafka 数据重复怎么处理?

30、Spark Streaming 如何实现精准一次消费?

31、谈谈项目中,Hive优化是怎么做的?

32、如何手写MR实现Hive Join操作?

33、Hive如何处理数据倾斜的?

34、Hive执行碰到过 oom 情况吗?什么原因导致的,怎么处理的?

35、Hbase 包含哪些组件?

36、什么情况下会用到HBase数据库?

37、简述Hbase 的读写流程

38、简述Spark任务提交的流程

39、简述Spark的两种核心Shuffle

40、你们项目中HBase是如何建模设计的?

41、你们的项目中是如何设计HBase Rowkey的?

42、你们的项目是如何实现数据精确一次消费的?

43、你们的项目是如何解决数据倾斜问题?

44、你们项目是否会丢失数据?如何做的数据治理?

45、你们项目技术选型为什么是Spark而不是Flink,有哪些优缺点?

46、HBase数据库数据读写为什么这么快?

47、消费不到Kafka数据该怎么办?

48、手写Spark RDD实现TOPN

题目描述:手写Spark RDD统计用户成绩前10的记录,字段包含user_id, score。

49、利用spark-sql手写一个DataFrame实现WordCount

50、谈谈数据仓库的建模与分层

51、介绍一下Flink容错机制

52、谈谈你对Spark调优及数据倾斜的处理方式

53、Hbasse 和 mysql 区别和存储原理

54、kafka 的底层原理,kafka 如何保证全局消费数据有序

55、简述yarn底层原理、执行流程和yarn 底层使用的算法

56、谈谈你对hive udf、udaf、udtf的理解

57、简述Hive转换为MR的过程

58、谈谈你对Flink watermark的理解

59、谈谈你对Flink barrier机制的理解

60、谈谈你对Flink checkpoint机制的理解

61、谈谈你们项目中对Kafka做了哪些调优?

62、简述Hive任务提交过程

63、如何对Kafka进行监控?

64、如何对Kafka进行重分区?

65、用Cannal 监控mysql之后,Scala 怎么通过 SparkStreaming 去消费的?

66、谈谈你对多线程和多进程的理解

67、MySQL 引擎是什么,常用的是哪个 innodb,知道原理吗?

68、常用的数据结构都有哪些?并举例说明其应用场景?

69、MySQL 优化,怎么建索引?

70、算法:给 2 个有序数组,合并成一个有序数组

71、SQL排名取值

题目描述:有一个班级学生成绩表,包含班级,学号,科目,分数等字段,现在求某个班级总分最高的前五名?

72、数组目标数据查找算法

题目描述:如何查找有序数组中的目标值?二分查找法,请简述二分查找法的实现原理?

73、SQL分组统计

题目描述:有一个用户观看视频的时长表,现在要求统计时间在0-1分钟,1-10分钟的用户数?

74、g1回收器和cms 有哪些区别?

75、jvm该如何调整?

76、SQL开窗函数使用

题目描述:表字段为:department_id、user_id、amount,现在要求统计每个部门、每个人的薪资占部门薪资的比例。

77、算法题:最长回文子串. 给定一个字符串 s,找到 s 中最长的回文子串

78、谈谈你对二叉树算法的理解?

79、谈谈你对Java线程安全、锁和线程池的理解?

80、链表反转排序如何实现

81、谈谈你对LRU算法的理解

82、谈谈你对深度优先搜索的理解?

83、Java heap是如何分代的?

84、谈谈你对线程安全与可重入的理解

85、jvm包含哪些常见的垃圾回收算法

86、谈谈你对Java并发包的理解

87、说说线程池几个配置参数含义

88、谈谈你对redis跳表的理解

89、Java中Spring单例模式如何使用

90、谈谈你对Spring ioc的理解

91、谈谈你对回文函数的理解

92、算法基础建模有哪些?

93、redis底层原理?以及如何预估数据量?

94、谈谈你对聚类kmeans算法的理解

95、求字符串中首先出现 3 次且仅出现 3 次的字符

96、两个链表第一次交叉的节点

题目描述:给定两个可能有环也可能无环的单链表,头节点head1和head2。请实现一个函数,如果两个链表相交,请返回相交的 第一个节点。如果不相交,返回null

【要求】

如果两个链表长度之和为N,时间复杂度请达到O(N),额外空间复杂度请达到O(1)。

97、有用过树结构么?什么场景下用到的?

98、如何实现一个map数据结构?什么场景下使用map?

99、用Java如何实现一个List

100、谈谈你对Linux fork命令的理解与使

你可能感兴趣的:(大数据实战精英+架构师,面试题,Flink,big,data,hadoop,spark)