大数据面试知识点

大数据:
1.离线数仓【ERP、电商、业务清楚、】
1.业务熟悉
2.技术架构
3.数仓建设
4.指标【5个】
做过哪些指标
如何做的

2.spark工具: 
	1.技术架构
	2.优点: 

3.实时指标yarn : 
	1.背景 
	2.好处
	3.具体实现

3.回答技术点 【简历上的】
1.linux :
1.pid port
2.tail -f -F
3.cat
4.环境变量:
个人 全局
5.常用的linux命令有哪些:
ps -ef
netstat
free
top
tail
查看文件大小:ll -h du -sh
查看文件按照日期进行排序
2.shell:
1.数仓 shell 怎么写的 :
1. spark-sql -f xx.sql
-e
sed
2.shell 脚本参数传递 $n $0 $1 $@ $# $?
sed awk
3.如何debug 【】

3.mysql:  数据可视化
	1.sql function unionall join  索引
									【1.使用方式 =》 给维度字段添加索引  sql where
									  2。效果是啥 查询块】

4.hadoop: 
	1.hdfs  画图 一边说
		1.读写流程
		2.架构设计 
		3.ha 
		4.文件块大小 【版本 】
			cdh 
			apache 
		5.小文件如何解决:
			1.合并【java代码 合并 hdfs api 】
			2.删除
	2.mapreduce : 
		1.架构 
			input =》 mapper =》shuffle =》reduce =》 output 
		2.调优 : 
			压缩【掌握】
	
		3.task 个数 : 
				map task个数  =》 切片 =》 切片大小  默认情况  
				reducetask个数 =》 用户自己
	3.yarn : 
		1.架构设计 【*】
		2.yarn ha 
		3.调度器
	
你们公司集群规模? 10
	一台节点 : 128G 40T  64core 

	hadoop集群资源划分:
		container

5.hive : 
	1.知识点 
		数据:
			1.元
			2.hdfs 
	
	2.架构设计【了解】
	3.引擎: 
		mr  【默认】
		spark 
		tez
	
		hive on spark  vs  spark on hive 
	
	4.sql : 
		1.数据清洗函数 
		2.聚合函数 
		3.开窗函数 :
			1.排序 
		4.grouping sets 【维度组合分析】
		5.udf 函数 : 
			1. 脏数据处理 =》 
			2.json 【不规范json】
			3.数据倾斜udf :
				1.column +前缀 
				2.column - 前缀
		6.四大by 
		7.内部表 vs 外部表 
		8.分桶表【】
	5.调优: shuffle 
		1.join 
			1.map join 
			2.shuffle join =>数据倾斜
		2.group by : =>数据倾斜

6.flume : 
	1.架构设计
	2.source : 
		file : 
			三种区别
	3.channel : 
		1.file 
		2.mem 
	4.sink :
		hdfs [小文件问题]
	5.监控 : 
		1.数据
		-D http.port   => web  => json [channel 里面的数 ]:
					1.souce 
					2.channel 
					3.sink 
			=》 ck mysql =》 数据可视化
		2.程序: 
			1.挂了 =》拉起
				pid =》 报警 =》 拉起

7.kafka : 
	1.架构设计
	2.ack 
	3.交付语义: 
		1.producer 【版本】
		2.consumer  【消费的框架】
			1.offset 提交 + 消费数据 =》 spark 

	4.数据存储机制: 
		1.segment 
		2.查找某个offset 
	5.kafka为什么快? 
		1.零拷贝  
		2.按顺序写磁盘 
	6.kafka 乱序问题【伪命题】=》 kafka 

8.hbase : 
	0.架构设计【逻辑层面 图】
	1.读写流程 
	2.rk设计: 
		1.优点
		2.缺点
	3.phoenix 
	4.调优:memestore flush级别: 【】
		1.总结

9.spark : 
	1.sparkcore: [10% 输出 text ]:
		1.wc 手写【spark算子】 【scala function】
		2.join corgroup  
		3.reducebykey groupbykey 
		4.coalse  repartition 
		5.脚本: 
			spark-shell  
				spark-submit $@
		6.rdd
			1.5大特性 
			2.弹性
			3.分布式
	2.sparksql: 
		1.sql 
		2.api : 
			1.df ds 【rdd区别】【相互转换】
			2.schema 、catalog =》 工具
		3.调优
			1.小文件
			2.数据倾斜 : 
				join 
				group by  
				[并行度]: 
					sql =》 xxx.sql => set  k=v   sql => colase[函数] hints 
					代码 =》 算子
	3.ss: 
		1.kafka : 
			1.offset 如何管理 : 
				1.三种
			2.updatestateByKey【实时 】: 
				1.有状态
				2.无状态
			3.调优: 
				1.kafka限速
				2.背压
			4.闭包: 
				sink mysql 
	
	总体: 
		1.spark内存管理 
		2.spark任务提交流程: 

10.javase: 
	1.string 
	2.集合 :
		collection: 
			set 
			map 
		arraylist底层实现 
		hashtable 与hashmap 区别 
	3.反射【谈谈】
	4.jvm: 
		1.运行时数据区 
		2.gc :
			1.算法 
			2.这么用 
		3.调优: 
			oom ?
				调优参数

你可能感兴趣的:(大数据)