黄胖胖pang

pianaipj-真题宝典-4

271 mateapp

面试：
（1）hashmap的底层
（2）Scala的隐式转换
（3）spark的移动计算还是移动数据
（4）flink的背压，介绍一下flink的反压。多个数据源怎么处置。介绍双流join
（5）kafka的副本机制，和kafka的ack设置为0，详细说一下过程
（6）说一下spark的移动计算还是移动数据
（7）还有个Scala的object和class
（8）你们的spark的task多少个
（9）有多少个application？

272 山石网科
（1）自我介绍
（2）期望工作地点考虑离职的原因是什么
（3）聊聊flink的了解用过cep吗 cep连续事件的可选项有什么讲讲你用cep做过的业务逻辑 cep底层如何工作 cep怎么老化 cep性能调优过期数据怎么处理 flink双流join
（4）kafka作为生产者或者消费者确认offset的流程就比如说生产者提交一个offset是怎样的流程 consumer_group的含义或者说意义是什么
（5）java写的多吗设计模式用到过哪些单例模式有哪几种
（6）你有什么问题

273 大鹏科技
1、自我介绍
2、数据来源用什么采集 flume的事务管理是怎样做的
3、kafka的offset是自动提交还是手动维护怎么保证offset不会乱数据重复消费怎么办
4、什么类型的数据放在hbase 什么类型放es
5、开发是以java为主还是scala为主
6、你们有没有用到过数据分析工具
7、hive需求字段a分组字段b排序取组内top10
8、有没有写过mapreduce
9、关于java spring框架了解
10、数据库事务了解隔离级别
11、多线程了解吗
12、现在在哪里问问题期望薪资数据量
274 tap4fun（成都）
1、自我介绍
2、集群是从0到1的吗回忆一下自己的作用团队有多大数据量有多大用户有多少用云还是 app是做什么的埋点是自定义还是开发确定埋点格式呢
3、日志直接灌kafka吗 flume会丢数据吗以filechannel形式吞吐有什么问题吗你们三台flume在后期会不会有io的问题选择器和拦截器分别是什么
4、为什么用kafka kafka和sparkstreaming有什么关系 flume往hdfs写数据按照什么策略去写 flume在用的过程中遇到过什么问题你调整内存是为了什么
275 天源迪科
1、自我介绍
2、实时计算用什么实现采集延迟分层对传统的关系型数据库了解吗
3、shell语言掌握怎么样 crontab各指的是什么单位 ls -l 想得到文件属主和文件名
4、hive row_number 和rank区别
5、离线数仓介绍负责什么小表join大表放置顺序 hive压缩格式
6、问问题
276 启信宝
1、自我介绍
2、发展规划
3、hdfs写流程副本如何同步
4、shuffle原理
5、hive文件存储格式优点为什么查询快分区和分桶内连接和左连接的区别
6、sqoop 和dataX dataX的好处
7、hbase的架构 hbase查询快因为什么
8、谈谈rdd
9、java开发 jvm内存划分机制多线程
10、进程和线程有什么区别计算机进程线程存储网络什么方式去学习
11、介绍项目采集多少主要负责介绍难点介绍调优点
277 盛趣时代
1、用过哪些hadoop组件
2、zk选举机制讲讲paxos算法
3、工作中flume插件怎么写，自定义过source吗
4、kafka中partition是个什么东西 kafka分区有序性指的是什么整体有序吗
5、hbase预分区是什么东西为什么要做预分区二级索引指的什么 hbase协处理器知道吗
6、linux远程访问用哪个命令
7、spark什么时候会产生数据倾斜什么样的数据会产生数据倾斜 spark的部署模式 spark导过数据吗，比如从hive导入hbase
8、java动态代理指的是什么多线程会用吗 Synchronized加在静态方法和加在非静态方法上有社么区别 gc原理是什么 lucene了解吗 es倒排索引具体生成规则 redis有哪几种部署模式哨兵模式知道吗 java连接redis用哪个jar包，它可以做哨兵吗

278 光大信息
1、自我介绍+项目介绍
2、hbase主键设计原则为什么预分区
3、sparkstreaming 和flink 里checkpoint的区别
4、spark shuffle和mr shuffle区别
5、hive里面排序使用过什么
6、说一下udf、udtf、udaf区别
7、sparkstreaming 怎么管理offest
8、对hadoop组件哪个比较熟镜像文件和edits是干什么用的 HA和2nn有什么区别搭HA引入了其他什么服务 journeynode是干什么的
9、小文件在nn上占用128m吗？那一个块在nn上占用多少内存小文件的坏处是什么
10、kafka你用的什么版本 0.11有个bug你了解吗 offset不会自动回收你知道吗怎么处理 kafka认证了解过吗
11、spark和mr为什么快
12、flume有没有自定义过 tail dir有没有什么问题场景：有一个文件在做切换有什么问题

279 中盈优创资讯科技有限公司-上海
（1）HDFS的读写流程？
（2）MapReduce中Shuffle的流程？
（3）group by、distribute by、与sort by之间的区别？
（4）Hive查询数据比较慢怎么办？
（5）内部表和管理表的区别？
（6）怎么实现一个TopN？
（7）HBase的rowkey怎么设计的？
（8）访问HBase的方式？
（9）HBase有哪些过滤器？
（10）SparkStreaming的原理？
（11）DStream与RDD的关系？
（12）对jvm了解多少？
（13）GC的分类，使用了哪几种GC算法？
280 兴业数金-上海
讲一下项目经历和印象深刻的点，然后会问数仓结构，数据处理方式。
问了关键信息放在哪里，比如账户余额这种
然后会问如何从数据提高业务，你有什么想法。
主要工作不是技术方向，是要找人去做数据分析和产品这种
从数据埋点开始问，把我简历上每个组件都问了下，主要是问你们怎么做的这种，然后问了主要业务场景，最后问了对flink的了解，大概讲了下，结束的时候让我说了下es的倒排索引怎么实现的
281 XTransfer-上海
CTO：讲了工作经历，问了一个sql，大概写了下，然后讲了下UDF/UDTF/UDAF的逻辑，问了正则会用吗。
第二轮两个创始人问了工作中影响最深的问题，问了个人喜好什么的
最后HR聊了下公司情况，问了希望薪资
328 杭州袋鼠云
（1）简单介绍一下之前做的项目；
（2）Spark SQL了解吗。比如参数调优，小文件处理等
（3）Spark的背压是怎么处理的？
（4）Hadoop中的HA；
（5）哪个调度器；(问有自己配过吗)
（6）Yarn提交流程，怎么构建Application，Container的；
（7）Spark中的core主要影响的是哪个运行机制?(Task)
（8）数仓这边选的是ORC还是p…,为什么；ORC的默认压缩格式是什么；
（9）列式存储和行式存储；
（10）JAVA多线程，IO；
283 蚂蚁金服-上海

2020-04-14 蚂蚁金服初面

国际事业部算法与数据组
问题不多，因为他大部分时间都在介绍他们组的业务范围

1 介绍下简历上的离线数仓项目

2 假如现在要你针对一个新业务重新搭建一个数仓？说一下整体流程

3 有没有宽表的设计经验？建宽表要考虑哪些方面因素?

4 HQL题

现在有一张 sc 表记录了学号学科号和每科的成绩求

1 每个人的总分以及排名
2 在上一题的基础上，输出每个人比他后来的人高多少分

当时只答了思路语句是后来晚上测试写的

-- 每个人的总分 以及排名
select SId, sum(score) sum_score, rank() over(order by sum(score) desc)
from train.sc
group by SId;

-- 每个人比他后来的人高多少分
select SId,
       sum(score)                                      sum_score,
       rank() over(order by sum(score) desc),
       (sum(score) - lead(sum(score), 1, 0) over()) as score_diff
from train.sc
group by SId;

-- 别名的作用域从group by 开始

284 花旗-上海
（1）问了JVM，多线程，HashMap底层实现
（2）以WordCount为例讲了整个MR过程，问的很细，问了具体类名
（3）问了Yarn提交流程，问到了到底选择节点是怎么选择的（后来她和我说是优先看资源所在节点）
（4）然后聊了下Flume，大概每秒多少条数据，总数据量
（5）最后是Zookeeper选举机制，最后是问了处理的问题（回答了数据倾斜）
285 eBay-上海
（1）介绍项目，你觉得做过比较难的点或者印象深的点（我说的双流join和shuffle源码）
（2）然后问了下Flink和Spark的区别，优势
286 问卷网@爱调研-上海
（1）Sqoop底层是四个Map，那么它读数据的时候怎么拿数据的，它知道哪个Map拿那些数据？
（2）用Sqoop怎么导入增量数据？怎么判断是新增的数据？
答了通过新增时间用where过滤，之后又问了不使用where过滤怎么做？
（3）有一个爬下来的网页，怎么解析里面标签的值，MR，Spark都可以？
287 福州朴朴
1）自我介绍
2）Canal从mysql抓取过来的业务数据有没有复原（修改和删除的数据怎么处理）
3）Kafka和spark的jar包的版本
4）Hql数据倾斜怎么处理
5）有没有用过ETL工具
6）Spark中kafka的偏移量怎么处理的。答手动保存到mysql
7）Spark中如何保证kafka精准一次性消费
8）Kafka新旧版本的offset保存的位置
9）Kafka保存在mysql中的表，有哪些字段(主题，分组，消费者组，偏移量)
10）Spark中，手动处理kafka的offset有什么好处，为什么不用自动处理的方式
11）HQL脚本的资源分配和调度
12）Spark和数仓资源调度如何设计和监控的（面试官说自带的web监控页面太简陋了，有没有用过其他的方式监控）
13）说说Spark算子。
14）SparkSQL资源如何分配
15）Spark client模式和cluster模式的区别
288 广大科技
（1）Hive有几种部署模式？
（2）Hive的小文件问题怎么处理？
（3）Map任务数目是怎么确定的？
（4）Hive怎么进行优化？
（5）Hive中排序的种类有哪些？
（6）为什么从上一家离职？
（7）为什么来北京？
（8）薪资期望是多少？
289 平安-上海
一面

在职离职情况
工作内容介绍
平台岗VS数仓岗（他们小组只做数仓）
数仓部分：
1）数仓模型了解吗？
2）简述前公司数仓模型、数据来源、采集方式；
3）数仓4层分别做了哪些处理？
4）数据清洗在哪一层，数据清洗做了哪些操作？
有哪些业务场景？（我从做了哪些指标回答的）
下订单涉及到了哪些表？
指标分几大类，还是直接做？指标出口是？（主要给运营报表）
数据倾斜相关：
1）遇到过数据倾斜吗，什么场景下遇到数据倾斜，这么解决的？
2）为什么会导致数据倾斜，你了解底层原理吗？
3）怎么解决数据倾斜？
4）mapjoin和普通join的区别？
你对金融行业了解吗？你能大概说说信用卡从开卡、到消费…流程吗？
290 作业帮
1、先自我介绍
2、介绍实时项目结构，
3、kylin的优点和缺点，
4、sparkstreaming如何实现精准一次性消费
5、实时项目中手动offset到mysql,为什么存到mysql中，存到mysql中那些信息
6、spark中如何解决数据倾斜
7、spark具体调优的，为什么调优，具体的做法。
8、现场写一个sql,1.表结构（UID，URL），要求写出访问url=a又访问 url=b的用户数
9、rdd宽窄依赖
291 天津市国瑞数码安全系统股份
（1）自我介绍
（2）日活、数据量
（3）遇到过什么问题
（4）flume与spark对流数据的处理对比
（5）kafka数据丢失怎么找回、重复怎么处理（不在hive端和spark去重）
（6）mysql去重
（7）redis数据类型、几个库、默认使用哪个库、用来做什么、与mysql对比
（8）spark调优
（9）对机器学习、算法的了解
292 康码
（1）mysql，Redis，mongdodb的端口
（2）MapReduce流程，shuffle，hdfs读写流程
（3）spark的模式及流程
（4）shuffle排序几次？有没有必要？为什么？
（5）宽窄依赖
（6）说项目
293 睿帆知数科技-北京
（1）spark中checkpoint产生的小文件是怎么处理的？
（2）Spark打开日志归集和不打开有什么区别？
（3）sparkStreaming要将数据保存到hdfs中，要保存的每个文件有100M，怎么来处理？
（4）10T的数据文件，只有一个1T内存的节点，怎么快速的取出topN？
（5）总共20个线程，每次只使用4个线程，怎么操作？
294 西安烽火–西安
（1）yarn集群的微core是怎么配置的？
（2）客户端提交任务到yarn的执行过程
（3）NodeManager领取任务时怎么保证它的唯一性
（4）Hbase中有几个Master 几个 Hregionserver 几个zookeeper
（5）spark中的批次时间在实际中是怎么调试的？
（6）Spark实时向Hbase中写数据时遇到的问题？
295 新华三 AI智能研究院杭州
1）一面：
（1）介绍自己最熟悉的一个项目及数据量多大？
（2）kafka调优和数据存储原理？
（3）kafka消费者组的消费行为？
（4）flink的watermark
（5）sparkStreaming消费时的分区情况
（6）spark底层通信框架
（7）spark on yarn框架
（8）spark默认调度机制
（9）sparkStreaming双流问题？
（10）Hbase的框架
（11）abstract，final的作用和使用场景？
（12）Linux常用命令
（13）java中线程安全的容器？创建线程的方式
（14）树的深度优先和广度优先
（15）用栈实现队列？
（16）有一个数组a[N]顺序存放0~N-1，要求每隔两个数删掉一个数，到末尾时循环至开头继续进行，求最后一个被删掉的数的原始下标位置？
（17）二面前有一个笔试，基本上是java和大数据的多选题，还有计算机网络
2）二面：
（1）一个技术来面试，直接结合他们的具体工作场景来问问题，
（2）JVM原理，jvm多线程的实现
3）三面：总经理面
（1）开始随便聊了聊，然后
（2）让手写树的广度遍历或者深度遍历的一种
（3）问了些计算机网络
（4）在你感觉你的薄弱点之后，然后直接开始让你评论自己的缺点；然后跟你谈薪资
4）四面：HR面
因为之前就是总经理已经定了薪资了，所以基本上就是了解了一下基本情况，随便问了点问题
296 翼课网北京
1）一面：
（1）视频面试：面试官出题，然后开始写SQL，写7,8个SQL之后，用spark和flink代码实现日活
（2）Spark运行时过程和原理，阶段的划分
（3）在ES中，如果这个索引很大(假如有10G)，需要考虑什么问题？
2）二面：HR面
（1）最重要的一个问题：
（2）问简历上的一个项目：项目实施的背景->实际的参与人数->你在其中的作用->最后这个项目的上线带来了什么效果
297 浩鲸智能–南京(数据中台)
（1）数仓分层的原因和各层的作用
（2）数据清洗的过程和具体操作
（3）数据倾斜问题解决
（4）怎么管理dwd层的数据，建模理论
298 广州汇智通信
（1）sparkstreaming的背压机制及打开时机
（2）Kafka偏移量的作用
（3）开发中sparkstreaming的调优
（4）Scala中object和class的区别
（5）Scala中不同于java的数据类型
（6）简述一下函数编程和面向对象
（7）Hadoop里面的压缩格式，存储数据的文件格式，支持最好的压缩格式是什么？
（8）Hbase中导数据的工具？
（9）Hbase中row key的设计原则？
299 南瑞瑞中数据
（1）自我介绍
（2）讲项目架构
（3）使用flume遇到过哪些问题
（4）kafka数据积压怎么办
（5）hive中数据分层讲解一下
（6）建模讲解一下
（7）数仓中都用到了哪些表，分析了哪些指标？
300 睿民-上海
笔试题
1.再E-R图中，实体、属性、关系分别用什么代表（B）
A、矩形、菱形、椭圆 B、矩形、椭圆、菱形
C、椭圆、菱形、矩形 D、圆、矩形、菱形
2.在项目开发概要设计阶段，数据库设计主要完成的工作是（）
A、标识关键对象 B、确定对象之间关系
C、绘制E-R图 D、将E-R图转换为表
3、给变量赋值是可以采用（）方式
A、SELECT B、PRINT C、SET D、=
4、T-SQL中输出的语句是（）
A、PRINT B、WRITE C、SELECT D、SET
5、关于SQL的变量，说法正确的是（）
A、定义局部变量的语法：declare数据类型@标识符
B、给局部变量赋值可以使用set，得到其值可以用get
C、SQL的系统全局变量用法：在某个数据库中改变其值，在另一个数据库仍可读取
D、SQL可以定义全局变量，但其用法和局部变量差不多
6、（）作为批处理结束标志
A、RETURN B、QUIT C、GO D、EXIT
7、下面那个排序函数生成的序号是非连续的（）
A、ROW_NUMBER B、RANK C、DENSE_RANK D 、ROW_ID
8、下列关于子查询的方法正确的是（）
A、查询是可以放在父查询的where后，但无法在select和from中间
B、子查询在查询条件中使用，“>”、“<”、”=“符号后的子查询结果只能有一个值
C、子查询可以嵌套，但最多不能超过3层
D、如果子查询放在父查询中对父查询的语法结构不产生影响，那么子查询可以省略外面的小括号
9、在一个表中最多会有几个聚集索引（）
A、1 B、2 C、3 D、4
10、下列（）条语句用于事务回滚
A、rollback B、commit C、rollback transaction D、commit transaction
11、下列（）语句用来定义可以随意滚动的游标
A、DECLARE cursor_name CURSOR SCROLL
B、DECLARE cursor_name SCROLL CURSOR
C、DECLARE cursor_name CURSOR
D、DECLARE cursor_name SCROLL
12、以下关于INSTEAD OF触发器说法正确是（）
A、INSTEAD OF触发器是出于DDL触发器这一类的一种
B、INSTEAD OF触发器可以和引发该触发器操作的INSERT、UPDATE、DELETE语句一起，共同对表的数据产生影响
C、INSTEAD OF触发器是替代引发该触发器操作的INSERT、UPDATE、DELETE语句，转而让系统执行该触发器内部的T-SQL代码的
D、INSTEAD OF触发器不能创建在视图上
13、SQL的视图中最多可以包含（）列
A、256 B、512 C、1024 D、2048
14、加密试图的定义文本可以使用（）
A、WITH CHECK OPTION
B、WITH SCHEMABINDING
C、WITH NOCHECK
D、WITH ENCRYPTION
15、系统存储过程以（）为前缀
A、@@ B、@ C、sp_ D、up_
SQL题目：
Dept表
deptno(部门号) dname(部门名称)
1 事业部
2 销售部
3 技术部
Emp表
empno(员工号) ename(员工名称) job(工作) mjr(上级) sql(工资) deptno(部门名称)
01 test clerk tom 1000 1
02 tom clerk 2000 1
07 bid clerk 1000 1
03 jen salse pre 600 2
04 pre salse 800 2
05 bud jishu can 1200 3
06 can jishu 1500 3
1、列出emp中各部门的部门号、最高工资、最低工资
2、列出emp中各部门job为clerk的员工最高和最低工资
3、列出bud所在部门中所有员工的名称及部门号
4、列出emp中有管理者的员工，列出员工姓名、管理者姓名(mgr为外键)
5、对于工资高于本部门平均水平的员工，列出部门号、姓名、工资、按照部门号升序
6、对于emp中低于自己工资至少5人，列出部门号、姓名、工资、以及工资少于自己
的人数

选择：N/15 sql题：N/6

数据表：
dept:
deptno(primary key), dname, loc
emp:
empno(primary key), ename, job, mgr(references emp(empno)), sal,
deptno(references dept(deptno))

1 列出emp表中各部门的部门号，最高工资，最低工资
select max(sal) as 最高工资,min(sal) as 最低工资,deptno from emp group by deptno;
2 列出emp表中各部门job 含’REP’的员工的部门号，最低工资，最高工资
select max(sal) as 最高工资,min(sal) as 最低工资,deptno as 部门号 from emp where job like ‘%REP%’ group by deptno;
3 对于emp中最低工资小于7000的部门中job为’SA_REP’的员工的部门号，最低工资，最高工资
select max(sal) as 最高工资,min(sal) as 最低工资,deptno as 部门号 from emp b
where job=‘SA_REP’ and 7000>(select min(sal) from emp a where a.deptno=b.deptno) group by b.deptno

4写出对上题的另一解决方法
（请补充）
select deptno,min(sal),max(sal)
from emp
where job = ‘SA_REP’ and deptno in (
select deptno
from emp
–group by deptno
having min(sal) < 7000
)
group by deptno
5根据部门号由高而低，工资由低而高列出每个员工的姓名，部门号，工资
select deptno as 部门号,ename as 姓名,sal as 工资 from emp order by deptno desc,sal asc
6 列出’Abel’所在部门中每个员工的姓名与部门号
select ename,deptno from emp where deptno = (select deptno from emp where ename = ‘Abel’)

(法二)
select ename,deptno
from emp e1
where exists (
select ‘x’
from emp e2
where e1.deptno = e2.deptno
and e2.ename = ‘Abel’
)
7 列出每个员工的姓名，工作，部门号，部门名
select ename,job,emp.deptno,dept.dname from emp,dept where emp.deptno=dept.deptno
8 列出emp中工作为’SH_CLERK’的员工的姓名，工作，部门号，部门名
select ename,job,dept.deptno,dname from emp,dept where dept.deptno=emp.deptno and job=‘SH_CLERK’
9 对于emp中有管理者的员工，列出姓名，管理者姓名（管理者外键为mgr）
select a.ename as 姓名,b.ename as 管理者 from emp a,emp b where a.mgr is not null and a.mgr=b.empno
10 对于dept表中，列出所有部门名，部门号，同时列出各部门工作为’SH_CLERK’的员工名与工作
select dname as 部门名,dept.deptno as 部门号,ename as 员工名,job as 工作 from dept,emp
where dept.deptno = emp.deptno(+) and job = ‘SH_CLERK’
11 对于工资高于本部门平均水平的员工，列出部门号，姓名，工资，按部门号排序
select a.deptno as 部门号,a.ename as 姓名,a.sal as 工资 from emp a
where a.sal>(select avg(sal) from emp b where a.deptno=b.deptno) order by a.deptno

(法二)select e.deptno,ename,sal
from emp e,(select deptno,avg(sal) avg_sal from emp group by deptno) b
where e.sal > b.avg_sal and e.deptno = b.deptno

12 对于emp，列出各个部门中工资高于本部门平均水平的员工数和部门号，按部门号排序
select count(a.sal) as 员工数,a.deptno 部门号 from emp a
where a.sal>(select avg(sal) from emp b where a.deptno=b.deptno) group by a.deptno order by a.deptno
13. 对于emp中工资高于本部门平均水平，人数多于1人的，列出部门号，高于部门平均工资的人数，按部门号排序
select *
from(
select deptno,count(*) count_num
from emp e
where sal > (
select avg(sal)
from emp e1
where e.deptno = e1.deptno
)
group by deptno
) e1
where e1.count_num > 1
order by e1.deptno

14 对于emp中工资高于本部门平均水平，且其人数多于3人的，列出部门号，部门人数，按部门号排序
select count(a.empno) as 员工数,a.deptno as 部门号,avg(sal) as 平均工资 from emp a
where (select count(c.empno) from emp c where c.deptno=a.deptno and c.sal>(select avg(sal) from emp b where c.deptno=b.deptno))>3
group by a.deptno order by a.deptno

(法二)
select m.deptno,count(ee1.empno)
from(
select e1.deptno,count(empno) count_num
from emp e1
where e1.sal >
(select avg(sal) from emp e2 where e1.deptno = e2.deptno)
group by e1.deptno
) m,emp ee1
where m.count_num > 3 and m.deptno = ee1.deptno
group by m.deptno
15 对于emp中低于自己工资至少5人的员工，列出其部门号，姓名，工资，以及工资少于自己的人数
select a.deptno,a.ename,a.sal,(select count(b.ename) from emp as b where b.sal where (select count(b.ename) from emp as b where b.sal5
面试题
（1）hdfs小文件解决方案，
（2）kafka有关的一些问题，
（3）sparkstreaming手动维护偏移量
（4）sparkshuffle问题
（4）sqoop的问题
301 龙盾
（1）集群规模，每天多少数据量；（嫌数据量少和集群规模小）；
（2）上家公司规模及离职原因，公司内部人员任务分配情况；
（3）集群的运维谁来做，报表展示谁来做，集群测试谁来做；
（4）HiveSql写错了上线了怎么处理；
（5）Azkaban跑多少任务，任务失败怎么处理；
（6）指标怎么来的，说说最近做了哪些指标；
（7）Flink预研到什么程度，为什么要用它，哪里用到它，有没有上线；
（8）ES怎么用。
302 易一贷安硕金服
笔试题都是金融业务相关问题。非金融专业，就不要去面试了。
303 和而泰
（1）Spark 有哪些提交模式，分别介绍下。
（2）你说的项目，Spark怎么提交Offset
（3）说下Spark 的原理Rdd
（4）Spark怎么提交的任务。
304 天津市国瑞数码安全系统股份
（1）自我介绍
（2）日活、数据量不要犹豫不能改数
（3）遇到过什么问题
（4）flink与spark对流数据的处理对比？？？【自己总结一下此问题】
（5）kafka数据丢失怎么找回、重复怎么处理（不在hive端和spark去重）借助redis去重
（6）mysql去重
（7）redis数据类型、几个库、默认使用哪个库、用来做什么、与mysql对比
（8）spark调优
（9）对机器学习、算法的了解
305 中逸会计事务所
（1）介绍一下项目
（2）团队几个人负责那一块
（3）数据量多大，（他们数据量4/5亿甚至更多，数据从各个银行获取格式各不相同）
（4）是否带过团队
（5）期望薪资是多少
（6）什么原因离职，是跟疫情有关么
306 康码面试
（1）mysql，Redis，mongdodb的端口
（2）MapReduce流程，shuffle，hdfs读写流程
（3）spark的模式及流程
（4）shuffle排序几次？有没有必要？为什么？
（5）spark里面的宽窄依赖
（6）说项目
307 文思海辉电面
重点：介绍项目
（1）日活数据量，日活用户，平台的搭建，每层表的数量等
（2）dws有哪些宽表
（3）hql与spark sql 的区别
（4）hive的优化
（5）hive的函数
（6）有无java经验
（7）传统数据库用过哪些
308 数字联盟
（1）自我介绍
（2）介绍Flink
（3）flink实现过哪些指标
（4）flinkTopN与离线的TopN的区别
（5）flink与SparkStreaming的区别
（6）离线和实时擅长哪块
309 神州新桥
（1）hive的使用情况
（2）是否用过kettle，ETL怎么做的
（3）项目做过数仓么，做数仓需要注意哪些
（4）Python熟么，有没有在实际项目中应用
（5）项目中遇到过哪些问题，比如？遇到问题后如何确定解决方案
310 威讯柏睿数据
（1）说说做过的项目架构是什么？数据采集用什么，
（2）cannal监控的是mysql的什么达到数据实时获取
（3）sqoop和datax比较区别在哪，
（4）sqoop做可视化操作页面有思路么，点击页面某个按钮，输入参数就运行sqoop脚本了，
（5）使用过springboot么，做过前端展示页面么
311 外包美团(视频面试)
1）先自我介绍，然后介绍上家公司做的项目
2）SQL题
table_name ：user_log_info
column：user_id; log_time (yyyy-MM-dd HH:mm:ss)
用户登录一次记录一条数据时间格式到时分秒
Q：
（1）查询2020-03-31日登录次数排名前三的用户id
（2）查询2020年03月每一天登录次数排面前五的用户id
3）无穷多的水，现有两个杯子一个3ml，一个5ml，怎样得到1ml的水(几种方法)
312 亿海蓝
（1）集群数据量多大？
（2）集群是阿里的还是物理机？
（3）是否参与集群搭建？
（4）hbase的数据量。
（5）数据如何展示。
313 本来生活网
（1）说一下你事先的业务指标及其实现方式如回流，留存
（2）你们有多少个topic，以及每个topic
314 北京润通丰华科技
（1）spark实现topN
（2）java的集合继承关系
315 河狸家
（1）画出数仓的整体架构图，并做介绍
（2）cdh升级spark中遇到的问题，为什么要升级spark
（3）cannal 监控mysql数据库时，采集到的数据格式是什么，canal – > kafka
（4）实时业务中，tomcat 向kafka 生产数据，连接一直超时，怎么解决？
如何提高向写kafka数据的效率：压缩、分topic写、提高每批次大小降低kafka的ack，异步发送同步发送
（5）星形模式与雪花模式的区别及使用场景
316 印斯特
（1）linux 下查看内存的命令
（2）sparkSQL 处理数据的流程，
（3）spark 的缓存方式、可以读取什么类型的文件
（4）使用过的数据库连接两列的函数，union和unionAll的区别，列如何去重
（5）scala中可变集合和不可变集合
（6）spark的优化
317 新奥阳光易采

Hbase中region热点问题
redis的缓存击穿、缓存穿透乐观锁原理如何从MySQL中缓存数据
list和iterator的区别、方法锁和代码块锁的区别 hashMap 底层实现 ThreadLocal的使用场景 for循环和递归调用的区别
为什么将SparkStreaming 改为Flink处理
实时处理和离线处理时出现数据倾斜的处理方法
2G内存 8G的数据，如何进行排序
7.Flink 中迟到数据如何处理，如何保证kafka消费的数据一致性
8.hadoop 和spark 计算框架的区别，hadoop 的MR整个流程
9.hash一致性介绍，在redis中的使用，增加和减少节点如何保证缓存能够命中
10.数仓做出的指标，为运营提供了哪些支持，计算出的指标如何展示，通过API展示发布数据时，有没权限认证
318 苏宁外包
0.介绍一下在公司都做过什么业务？
1.数仓为什么分四层而不是三层。
2.每层中文名，每层都做了什么？
3.你在公司负责项目开发吗？
4.你想做哪方面的工作？
319 科创安铨
1.java中hashMap、内存分区、垃圾回收算法、hashMap和HashTable区别
2.spark中RDD的介绍及特性
3.sparkStreaming 为什么要升级到Flink，两个框架的区别是什么，统计过那些指标
4.spark 怎么提交任务的，转换算子、行动算子有哪些，为什么这么称呼？
5.kafka中group_id的作用是什么，怎么划分的？
6.zookeeper怎么使用的？mysql中实现分页的关键字？集群的搭建？
7.Linux中查看内存使用，查找文件名，cpu负载情况的查看？
320 杭州个推
（1）大数据采集框架
（2）各组件的调优
（3）项目中遇到的问题
（4）JVM
（5）线程池
321 杭州babycare
（1）OLAP模型
（2）数据立方体
（3）钻取数据
322 中科软
（1）kafka Channel 数据量突增
（2）kylin里面关于cube你了解多少
（3）kafka消费者加入消费者组，如何消费分区的数据，四个分区，五个消费者如何消费？
（4）垃圾回收器JDk1.8使用的是什么？
（5）面试宝典中，说计算周月年指标用mr引擎，计算日指标用spark。
323 视若飞
Metax大数据面试题
一、简述你在工作中公司使用到的大数据框架，数据从数据源到展示的流程、技术点以及您所负责或者参与的模块。（埋点、数据获取、传输、处理、展示）
二、Hbase 行键列族的概念，物理模型，表的设计原则？
三、Hbase简单读写流程
四、Hbase 在集群和处理程序两方面如何优化？
五、请说明hive中SortBy.Order By、Cluster By，Disribute By各代表什么意思？
六、请说明hive中如何实现行列转换
七、hive中支持的文件格式和压缩格式，简述你所知道的类型以及使用的优劣。
八、hive 优化（SQL、集群配置两方面都可简述）
九、kafka元数据信息存储在哪里，如何查看
十、Kafka 如何保证不重复不丢失数据
十一、spark 反压机制OR Flink反压机制简单介绍
十二、spark 中的RDD是什么，有哪些特性？
十三、概述下 spark 中的常用算子区别（map，mapPartitions，foreach，foreachPation）
十四、Spark 中map与flatMap的区别？
十五、spark如何防止内存溢出？
十六、flink 中watermark究竟是如何生成的，生成的规则是什么，怎么用来处理乱序数据十七、怎么对线上flink做监控的，如果整个程序失败了怎么自动重启等等十八、是否有阿里云、华为、AWS等基于云服务开发的经验，有的话请介绍使用过的产品以及产品功能。十九、对公司大数据集群各类组件是否有从零搭建的经验，其中有哪些需要注意的事项，以及你所尝试的优化点。（简述）

面试：
1、架构流程啥的都是平时上课讲的
2、简历上技术太多，被质疑说是培训出来的；之后就抓项目中的一个点问，很具体
324 北明软件
（1）你在项目中主要都做了哪些工作(平台搭建，离线，实时都做了什么)？
（2）Kafka中你们的并发度是人为控制的还是自动的？会自动生成Topic吗？
（3）数据积压的原因？
（4）数仓Hive中的分桶？数仓拉链表制作，Shell脚本写过什么？
（5）实时这块写过是吗？
325 外包阿里一面
（1）数仓分层以及各层做的事；
（2）LZO压缩，怎么用LZO压缩，为什么建索引；
（3）文件储存；
（4）拉链表制作；
（5）union & union all 的区别，union all 去重是根据什么去重的；谁更效率高
326 杭州纳里健康
（1）集群规模，配置，数据量，产出是报表吗？
（2）在之前公司是什么样一个角色；
（3）数据量多的时候加服务器的问题；
（4）基于某个需求你是怎样去评估他需要什么样的配置;
（5）自身未来规划；加班多吗
327 上海-北明软件
（1）sparkStreaming 怎么防止数据遗漏和重复消费
（2）sparkstreaming 设置了设置了多大内存？
（3）hive外部表内部表区别
（4）union unionall 区别
（5）项目中做过什么优化
（6）每天的数据量
（7）hdfs 的读写流程
328 邦盛科技
（1）sparkStreaming动态资源分配不是背压
（2）flume和flink的区别
（3）两个大表一个小表进行join,顺序怎么安排，为什么
（4）hdfssink中rollcount设置为0的场景
329 Business Matrix

330 北京宇信科技（成都）
（1）Spark shuffle既然使用了sortshuffle 溢写磁盘，为什么还会发生OOM
（2）Java怎么使用面向函数式编程，柯里化除了在Scala中使用，还有哪些地方会用到
（3）JVM GC 的算法有哪些
（4）Shell脚本实际上是什么（问的应该是shell底层调用了什么）
（5）Hbase 数据量达到瓶颈怎么处理
（6）列式存储和行存储的关系及区别
331 慧择网
（1）hdfs 写数据时，datanode为什么是串行写吗，而不是并行写，（源码为什么会这么写）
（2）mr shuffle 时缓冲区内的排序可以去掉么
（3）hdfs读文件时，是一行一行的读，但是如果正好读到128M结束时，最后这一行数据并没有读完，Hdfs 是怎么处理的
（4）Kafka 的死信队列是什么
332 紫川软件外包
1、sparkstreaming使用怎么方式拉去数据？
2、sparkstreaming拉去数据的时间间隔设置的是多少？
3、Hbase的你们公司rowkey设计？这样设计有什么好处？
4、Hbase中有什么表？
5、数据倾斜具体的场景，为什么会发生？用什么办法解决？（想问）
6、还研究过什么其他的新技术？
333 深圳市百果数联科技有限公司

怎么定义小文件？
2.FLume 写入数据到hdfs时，只有达到128M或1 小时才写入hdfs吗
3.集群管理，是怎么做的，有配置过动态资源吗
4.hive 的架构原理，一条hive sql 的执行过程
5.实时项目中的 Canal, 为什么选择Canal, 不使用maxwell呢
334 akulaku-深圳
（1）zookeeper里面的原理，两个能不能选举，事务一致性，数据一致性
（2）对hbase的理解
（3）rdd的理解
（4）kafka直接还是receiver问什么底层是什么（想要详细信息）
（5）转化率（电商转化金融）
（6）元组
（7）scala下划线_
335 恒大寿险视频面试（外包）
（1）介绍一下你们数仓的分层。
（2）Yarn的提交job流程。
（3）Scala的隐式转换简单介绍一下。
（4）简单介绍一下Flink。
（5）Flink的job提交流程。
（6）Flink在项目中遇到什么问题，怎么解决的。
（7）Flink的窗口了解吗
（8）Flink集群多大，什么配置
（9）Flink怎么解决数据倾斜的
（10）Flink你们最多用到几个表
（11）Flink双流join怎么实现
（12）Flink做了什么指标，怎么实现的。
（13）Flink还做了哪些指标，怎么实现的。。。。。还有呢。。。。。
336中兴线下面试（外包）
1）先写试卷，java题，选择20多道，判断3道，都是面向对象的基础题，三道大题
第一道：异常处理有哪一些，try,catch,finally,trains,train的区别
第二道：排序有哪一些，手写快排代码
第三道：abcdefg字符串，手写java代码倒叙排序
2）三个面试官：
（1）简单介绍一下数仓（很喜欢打断你）
（2）数仓建模怎么建，为什么用五层
（3）数仓的维度介绍一下
（4）数据倾斜怎么处理
（5）现场手写hql题目，要求用两阶段聚合来优化数据倾斜：
Select a,b,c,SUM(d) from t group by a,b,c
个人思路：自定义UDF函数，
自定义函数Udf1:功能是加随机前缀
自定义函数Udf2:功能是去掉前缀
Select * from t group by Udf1(a),Udf1(b),Udf1© t1
Select a,b,c,SUM(d) from t1 group by Udf2(a),Udf2(b),Udf2©
（6）觉得自己的优势是什么
（7）觉得自己的缺点是什么
337 小打卡

338 中软华为项目面试
1）一面：
从头开始讲项目
（1）flume中有一台机器坏了会怎么样?
（2）使用flume你有遇到过什么问题,怎么解决的?
（3）hive的一切优化手段?他会一直追着问还有吗
（4）hive使用的spark sql还是其他?
（5）hive数据倾斜怎么解决?
（6）spark 算1平方 + 3 平方 + … 说出代码?
（7）说出数仓(注意真是问数仓)血缘关系…有些词没听说忘了.
2）二面
（1）你简单做个自我介绍
（2）你简单描述下你刚做的项目，从实时开始
（3）两个流的数据是怎么在同一个sparkstreaming中拿到的？
（4）理解背压机制吗？
（5）启动一个job，只能执行一个job，一个时间片里可能存在多个job，多个job延迟？
（6）除了知道kafka这样消息中间件，还知道什么消息中间件？
（7）我们的数据源是一个第三方数据库和一个中间件，要做flink分析需要自定义source sink 您有这方面的开发经验吗？
（8）flink和sparkstreaming的区别
（9）你觉得你做过最难的指标是什么
（10）你们遇到过一个时间片内多个job吗（sparkstreamming）
（11）我看你简历你做过flink，你简单介绍下你是怎么用的，做了什么？
（12）你能说下flink 检查点吗
（13）是否参与过搭建平台组件。。。。。
（14）你为什么觉得flink好？
（15）你的目标计划
（16）你为什么离职？
339 软通动力外包（华为智慧云项目）面试题2020-7-7
（1）你可以简单介绍一下实时项目里面做的是什么？能不能举一个业务场景或者一个具体需求。
（2）说一下Spark-Streaming和Flink在任务调度上有什么异同点。
（3）Spark-Streaming中Master角色主要负责什么。
（4）flink的数据是写到哪里去。Flink两阶段是在哪阶段提交。
（5）你们的状态后端是存在哪里？一共有几种？
（6）Spark和mr的异同点？哪种稳定性更好。
（7）实时场景数据的规模量有多大。
（8）Redis的作用是什么？有哪几种数据类型？
（9）Flink的项目有没有涉及到流数据和维度数据的关联。
（10）你们用Flink怎么去开发一些checkpoint的超时问题。
（11）你用Flink开发做过最复杂的场景是什么。
（12）你们flink现在有多少个作业。
（13）Hive的表优化有哪些。
（14）说一下Hbase的写流程。
（15）你们Hbase中memstore刷写时间阈值是多少。
（16）Hbase是怎么读的，顺序如何。
（17）Hive中order by和sort by有什么区别。
（18）Hive和oracle有什么区别。
（19）Hive的压缩格式有哪几种。
（20）Hive的优化有哪些。
（21）你们Hive有多少个作业。
340 西安华炎~中兴外包
现场笔试：手机会被贴纸，防止拍照
笔试分选择题和手写编程题
选择题20道左右，我今天的题目偏JDBC的相关知识，整体有复习到就不难
编程题6道:接口实现，调用接口进行数值大小比较，面积计算，班级排名
算法题：手写倒序排序abcdef>>fedcba，冒泡排序，还有一道忘记了

笔试不好还是可以面试的

面试:面试官3人
先自我介绍
回先问实时，主要问spark的使用
还问JAVA基础，项目中写过哪些功能代码，代码怎么实现相应的功能；JAVA和Scala有什么联系，有什么区别；写过那些SQL代码，都实现了那些功能；你在项目中主要是做哪一块，然后就会重点问你相关的问题；处理过那些系统问题；问为什么你的数仓是5层，为什么要这样分；你做了哪些模块，中间遇到过哪些问题，怎么解决的；
面试中如果回答得不清晰，面试官会提出质疑；

面试官态度良好，不会为难你。
341 软通动力华为外包面试题
（1）flink 维表关联怎么做的（应该是开发必做，建议提前准备）
https://blog.csdn.net/u012554509/article/details/100533749
（2）redis 支持的数据类型
（3）flink支持的数据类型
（4）flink 数据倾斜是怎么解决的
（5）checkpoint 大小多少，怎么监控的
（6）flink CEP 案例
（7）flink 用 rocksDB 状态后端会有什么bug
342 杭州链恪技术面试
（1）公司数据量
（2）如何处理流量问题
（3）全网采集的数据怎么处理
（4）数据中台了解吗
（5）flume如何保证数据完整性
（6）为什么用kafka不是其他的（rubbitMQ）
（7）kafka底层实现原理
（8）kafka为什么快
（9）什么是追加写
（10）什么是零拷贝
（11）RDD的血缘关系，有什么用
（12）spark聚合操作优化
（13）spark任务调度流程
（14）spark如何定位oom原因（说出3个点）及解决办法
（15）spark优雅关闭实现原理
343 中软华腾
（1）你项目中Hbase的rowKey是怎么设置的？
（2）hashShuffle和sortShuffle的区别？
（3）具体讲讲Spark Yarn的client,cluster模式？
（4）用了哪些spark的内置函数？（一开始有点懵，原来问的是Rdd算子）
（5）spark的数据倾斜怎么解决的？
（6）spark和flink是怎么处理离线数据的？
（7）spark的任务调度器的原理，流程？
344 武汉伯均成
目前是想从SparkStreamin->Flink
1）一面
（1）数仓搭建过程
（2）做了哪些工作
（3）做了Hive哪些优化
（4）分析了哪些指标
（5）维度建模
（6）实现Hive最难的需求
（7）Spark介绍你实现哪一类指标
（8）最难的是哪一个
（9）Spark倾斜
（10）Flink和spark区别
（11）如何监控集群
（12）权限如何处理
（13）Azkanban调度流程
2）二面
（1）重复不赘述
（2）第二个问了watermark checkpoint
（3）延迟数据处理
（4）实现一个需求思路
（5）实时数仓的数据走向和数仓搭建
（6）Flink如何实现端到端的数据一致性
（7）Flink和spark几个区别
（8）讲keyedProcessFunction
（9）还有一些实现需求的细节
345 深圳市爱智慧科技
电话面试
他们项目还在调研中，还没有大数据，想搭建一个数据中台，意向让去做用户画像。。。（大佬想去当架构师的可以去了解下，对自学能力要求很高）
（1）分析过那些指标
（2）了解mongoDB吗
（3）spark的数据倾斜问题怎么解决
（4）集群的优化怎么做的（从数据采集到指标分析都可以）
（5）业务数据是怎么清洗的
（6）日志数据的字段有哪些
（7）开发的时候有没有遇到问题让你研究了很久，举个例子
（8）介绍下通信有关的知识（有可能因为我的专业是网络工程才问的这个）
（9）数据库和数据仓库的区别
（10）数据仓库会删除数据吗
（11）建模用的是雪花模型吗
（12）介绍下你熟悉的排序算法，可以手写出来吗
（13）知道CAP吗
（14）你觉得自己相对于非计算机专业的优势是什么
346 浙江大华
（1）flink窗口函数有哪些
（2）flink时间有哪些
（3）flink如何实现双流join
（4）怎么确定维度退化的表
（5）hive数据倾斜怎么办
（6）hql怎么转化成mr
（7）任务调度的依赖怎么确定
（8）调度失败怎么办（重启–他不满意）
（9）集群的配置有哪些注意点
（10）es研究过吗
（11）hbase结构
（12）hbase原理
347 上海跬智(kylin原厂)电面
公司:kylin原厂(在上海深圳办事处招人)
职位:技术支持型，帮客户解决问题，出差较多.
面试内容：电话面试30分钟，基本对着简历的点挨个问(自己写了亮点要负责)
（1）他想问他家的kylin 不会划水了问flink也不会划水了
（2）kafka原理 hive优化及优化参数(细节) 数仓建模思想 spark背压-手动offset
（3）总体感觉问的很细
348 北信源
（1）hbase怎么设计索引不影响效率
（2）spark算子，那些会shuffle，那个最特殊
（3）flink10s做一次缓存会不会有影响
（4）spark还有内存问题
（5）jvm
（6）flink的集群搭建是怎么搞的，内存分配是怎么弄得
（7）kafka写入的两种机制，假如一个数据是违规等我，然后追加了一条更正信息了，如何保证在一个分区
（8）spark数据倾斜问题
（9）shuffle会产生什么影响
（10）spark的shuffle，怎么避免shuffle
（11）hadoop有shuffle吗
349 中科边缘智慧
1、Hive中存放是什么？
2、Hive与关系型数据库的关系？
3、Flume工作机制是什么？
4、Sqoop工作原理是什么？
5、Hbase行健列族的概念，物理模型，表的设计原则？
6、Spark Streaming和Storm有何区别？
7、mllib支持的算法？
8、简答说一下hadoop的map-reduce编程模型？
9、Hadoop平台集群配置、环境变量设置？
10、Hadoop性能调优？
11、Hadoop高并发？
12、hadoop的TextInputFormat作用是什么，如何自定义实现？
13、hadoop和spark的都是并行计算，那么他们有什么相同和区别？
14、为什么要用flume导入hdfs，hdfs的构架是怎样的？
15、map-reduce程序运行的时候会有什么比较常见的问题？
16、简单说一下hadoop和spark的shuffle过程？
17、RDD机制？
18、spark有哪些组件？
19、spark工作机制？
20、spark的优化怎么做？
21、kafka工作原理？
22、ALS算法原理？
23、kmeans算法原理？
24、canopy算法原理？
25、朴素贝叶斯分类算法原理？
26、关联规则挖掘算法apriori原理？
350 杭州富通天下面试
（1）flume自定义拦截器
（2）kafka优化
（3）hive优化
（4）hive怎么变成mr
（5）udf/udtf/udaf怎么写
（6）一个任务yarn资源不够了怎么办
（7）yarn调度器
（8）spark分区和kafka分区
（9）spark怎么改变分区几种方式什么区别
（10）spark缓存分别介绍什么区别
（11）spark shuffle优化
（12）spark被压怎么做（和什么配合）
（13）es接口不通怎么办
（14）调bug过程及有什么心得
（15）爬虫数据怎么etl
351 武汉绿色网络
电话面试，我提前做了些自我介绍，项目介绍的草稿，以及打开面试题文档方便找答案
（1）JVM运行时数据区
（2）JVM新生代老年代，垃圾收集算法
（3）Hbase介绍下以及Hbase和Hive区别
（4）Hbase rowkey 的设计，说说为什么要保证唯一性
（5）Hive的架构
（6）Hive的排序，怎么保证大数据量的有序，我说sort by加归并
（7）Hadoop的架构
（8）Hadoop在你们项目中做了哪些优化
（9）数仓分层
（10）怎么进行ETL，我说用Hive sql ，他很好奇没有写Java代码，我说因为数据不是很脏，万分之一
（11）flume和kafka区别
352 格创东智(TCL子公司)
1面技术细节:
（1）拉链表实现，sort by,和order by区别，数仓维度建模，
（2）hive优化(在map阶段设置combiner聚合会影响结果吗)
（3）除了count()以外还有什么可以统计行数的
（4）spark手动维护偏移量、精准一次消费、那一套、redis去重?为什么要用、怎么用的
（5）spark挂了重启需要注意哪些地方
（6）spark文件shuffle过程，最终结果如果输出到HDFS，那么小文件如何处理?
（7）atlas ranger 表和字段的权限管理
2面：架构面
（1）问了下数仓架构
（2）为什么要flume-kafka-flume这样采集
（3）工作中遇到的问题,如何解决的.(我说了hive和mr调优具体问调了那些配置文件哪些参数)
353 OPPO实时
（1）Spark实时，ES实时报表
（2）讲了下手动维护offset和redis去重那一套
（3）怎么精准一次消费.
（4）为什么要redis去重,直接在spark里distribute不行吗?
（5）spark消费kafka为什么要手动维护这么麻烦 spark很多连接kafka(或ES)的现成api你们不用吗为什么非要自己写工具类?
354 神州数码
（1）问了集群的规划，实时的流程
（2）为什么spark 和 kafka 不在一个节点上
（3）kafka分区数
（4）重启spark有无异常
（5）spark 写入es后多久才能处理
（6）spark的任务调度，画图
（7） habse rowkey设计
（8）又问了java，如GC
（9）分组topN
355 傲林科技
（1）项目介绍
（2）flink checkpoint机制，使用的注意事项
（3）flink Exactly-once怎么保证
（4）flink对于状态的理解
（5）sparkStreaming内存管理，StorageMemoryManager分几个组件
（6）sparkStreaming stage划分
（7）sparkStreaming的任务调度
（8）flume kafka架构
（9）zk的选举算法
（10）jvm G1算法类加载机制
（11）多线程，锁
（12）hashmap实现
（13）zk hbase mysql是不是强一致性1 4.hbase注意事项
（14）scala高阶函数
（15）设计模式
（16）看过哪些源码
356 东华博泰（西安）
（1）问我对linux是不是熟悉
（2）怎么限制linux用户登录，怎么设置权限
（3）查看端口号占用情况
（4）查看ip地址的连接数
（5）linux启动顺序
（6）查看apache访问日志里前五的ip数（访问量最高）
（7）数据库里怎么查看执行计划
357 瑞友外包去华夏基金项目
（1）先介绍自己
（2）让讲项目
（3）参与过数仓的实际搭建吗，采集平台怎么搭建的
（4）问hive中etl用什么脚本开发的
（5）也用过sparkstreaming是吗
（6）flume开发流程，Hadoop调优有参与过吗，
（7）UDF怎么自己定义（前后两个人问了两遍）
（8）用IDEA做什么了
（9）用的什么语言
（10）Nginx是你搭的吗
（11）Kylin +Presto都用过吗
（12）我问他们用的什么技术，搭的怎么样了
（13）答刚刚搭建好hdp没记太清，也是用的hive、spark streaming
358 平安好车主
1.先做个自我介绍，上家公司之前做过的项目情况，简单介绍一下之前自己做过的事情，上家公司每天产生的数据有多少？
2.上家公司常用的大数据框架有哪些？
3.常用的Hive优化有哪些？
4.离线数据仓库每层做的事情有哪些？
5.LZO的切片是什么意思？
6.半连接和全连接是指什么？
7大表和大表之间的join有什么优化方法？
8.数据在前端是用什么进行展示的？
我向面试官提问的问题：
1.如果我能入职，进公司后会做什么工作？
2.贵公司的大数据部门有多少人？选用的是什么框架？
359 省钱快报
1.azkaban有什么缺陷? 有了解过oozie其他的框架吗?
2.azkaban任务出现问题了怎么办？重启？
我们遇到的少，那可能你们公司做的好把。
3.任务如果卡死，怎么报警，邮件电话钉钉？
3.hive分区表与分桶表的区别。
4.hive的4个by讲一个。
5.count（），count（1），count（一列）区别说一下。
count * 好像不会算null值，具体不清楚。
6.sqoop的上游如果分库分表，比如用户表，怎么导hdfs？
7.sqoop使用都遇到了什么问题？
8.sql执行顺序说一下。
9.从canal到sparkstreaming的数据怎么保证有序？或者利用kafka什么保证有序的？
10.分析过留存吗？比如我想分析过去1年，每天的1日留存怎么做？
11.新增变化慢的拉链表，那变化比较快的怎么处理？
12.olap用过哪些？？在hbase做count（*）之类的统计吗？
13.hive什么时候发生oom，数据倾斜？还有两个忘了，都是hive出问题了怎么办？
14.数据质量监控怎么做的？
15.order by 一定只有一个reducer吗？
16. left 什么 join 用过吗？中间单词没听清楚。
17.mysql中的数据变化了，dwd层是怎么处理的？？
18.日活有多少？用户假如在多个渠道登录，app。pc有没有合并？
19.问的问题都很具体，细节，其他问题想不起来了。
360 天津中汽
1.介绍离线项目的架构，遇到那些问题，负责模块
2.分布式集群的CAP原则，zookeeper可不可以同时满足？更注重哪一特性
2.1 Hive数据倾斜
3.kafka怎么解决数据丢失？
3.1 MR shuffle机制
4.canal原理
5.离线一天的数据量
6.hbase的rowkey设计原则，Phoenix使用过吗？hbase一天写入的数据量
6.1 hbase读数据流程
7.Redis数据类型，持久化机制
8.sparkstreaming读取kafka的方式
spark数据倾斜怎么办
8.1 拉链表怎么实现？
9 string可不可以被继承
10 接口可不可以有方法体，与抽象类区别
11 callable与runnable实现线程的区别
11.1 treeset 有序吗，怎么排序？自然排序和定制排序
12. Flink的时间语义
13. Flink的waterMark机制，Flink watermark传递机制
14. Flink checkpoint机制
15. 简单介绍一下cep状态编程
16. 使没使用过Flink window join
361 浩鲸新智能科技
1、自我介绍
2、谈谈对大数据、数据中台看法
3、讲下离线项目
4、hive和mysql区别
5、hadoop的搭建
6、sql的优化
7、其他数据库的了解程度
8、银行政府业务接触没
9、职业规划，期望薪资
面试官不太懂大数据好像，没深层次的东西。
362 易动网云科技
1、数据中心有一个机柜，机柜的总空间容量为h个U位。设备的U位大小表示设备装入机柜后需占多少个U位空间。假设有一组U位大小不一，不可分割的设备，设备数量为n，其U位大小记录在数组中。我们将设备装入机柜，在不超过机柜的总的空间容量的前提下，请编写代码求解机柜中设备实际占用的U数之和的最大值是多少？（不考虑设备间的间隔，设备可以连续放置。）

上图为一个42U机柜放置了若干设备的示意图。
示例：
输入：
每个设备的U位数，devices = [4, 6, 4, 7, 9]
设备的个数 int n = 5;
机柜的总U数 int h = 12
输出：11 (4+7)
每个设备的U位数，devices = [8, 23, 3, 16, 2, 19]
设备的个数 int n = 6;
机柜的总U数 int h = 38
输出：38 (3+16+19)

2、有单链表x和y，请将x和y合并成z。x和y为增序，要求合并后z为增序。
示例：
输入（x，y）：1->2->4, 1->3->4
输出(z)：1->1->2->3->4->4

3、随机输入一个3至18位的正整数字符串，请编码找出与这个正整数最接近的回文字符串（这个正整数本身除外），如果结果不唯一，返回值最小的那个。
示例：输入：“234”，输出：“232”
363 民生易贷
1、自我介绍
2、介绍下hadoop生态圈，各个组件把项目用到的都说了一遍
3、hive的拉链表，数据是全量还是增量
4、spark架构、调度、内存管理
5、kafka数据倾斜
6、其他数据库有没有了解
7、flink会不会
8、ETL工具除了sqoop会哪些我说了个Kettle
公司数仓离线实时刚起步
364 睿帆
1、遇到的异常，什么情况下
2、linux命令，查内存等等的命令
3、grep 查询一行数据包含a或b怎么写
4、线程和进程
5、软连接和硬链接区别详细一点
6、cp和硬链接的区别
7、hbase存储过程
8、zk的运行原理和选举机制
9、kafka怎么用的
10、sparkstreaming双流join
11、spark提交流程
12、spark任务的调优
13、spark日志查看
14、yarn有没有用过什么命令
15、hadoop常用的命令
16、redis是单线程这个问题你怎么看
365 赢时胜
1.所有数据都采用压缩吗
2.数据清洗、脱敏手机号、身份证号能想到的如何脱敏 String->***替换似乎不是理想
2.元数据管理 atlas 架构存储、索引
3、spark SQL HQL选择有没有什么考量
4.hive小文件小文件危害
5.hive strict 严格模式的局限
6.hive SQL列转行行转列实现
7.RDD dataset 、dataframe 区别转换
8.spark内存模型
9.spark flink区别
10.spark 直连卡夫卡有啥优点
11.sparkstreaming 如何进行版本迭代升级
12.如何优雅关闭
13.spark 背压机制
14.实现topn
15.scala 隐式转换怎么理解底层原理
16. scala tuple 有几个 Java tuple 有几个
17.scala 方法和函数区别
366 汇纳科技
笔试：
1.spark提交任务流程画图
2.coalesce和repartition的区别
3.transformation和action是什么？有什么区别？分别举例
4.什么是数据倾斜？为什么会出现数据倾斜？spark怎么解决数据倾斜？
5.hbase怎么避免数据倾斜

面试：
0.自我介绍和项目介绍
1.sqoop是一次性导入，还是定期导入，怎么做的？
2.用kylin干什么？cube太多怎么处理
3.日志文件是动态的，怎么采集
4.谈谈spark优化
5.公司服务器是固定的，内存固定20G,spark任务运行太慢，怎么优化？（提示）从代码方面来优化
6.spark数据倾斜怎么处理
7.用过什么数据库
8.数据清洗怎么做的
9.怎么确定kafka台数？kafka的topic个数跟什么有关？
10.java方面也做过吗？谈谈java做过哪些东西？
11.sqoop和dataX怎么选择的，为什么？
12.你们用的架构是什么？apache还是CDH？为什么这么选择？
13.维度退化是怎么做的
14.sql熟练吗，说说你做过哪些指标
15.你在写sql中遇到难写的sql吗？最后怎么解决的？
367 招商基金—深圳

368 数码辰星科技

groupby的字段可不可以concat别的字段
hbase中表如何设计的
3.如果有两张特别大的表join怎么进行优化
4.两张特别小的维度表和一张事实表怎么join
hbase表中都有什么字段
6.kafka怎么实现的幂等性
列式存储插入数据会不会很慢
flink和spark区别
flink状态编程
10.为什么用maxwall
为什么用lzo压缩
12.除了范式建模和维度建模还了解什么建模
数仓模型怎么维护
14.精确一次性消费
369 魔变科技
公司背景做教育行业软件一个是微信小程序教师助手 /自习室
用户体量100w 行为数据10G 就TM离谱
一面
问了架构他们在做离线所以重点问了些离线东西
包括数据流向你在采集这块负责什么
数仓建模每层做了什么你做了什么有什么难的指标
问了以后问了点spark flink 问了spark shuffle和mr的shuffle区别
问了streaming和flink区别
然后回过头问我建立的技术点一个一个问
问了技术框架原理 HBASE ES HADOOP YARN
问了一些指标实现

二面
技术总监面试
问了近期项目的难点我说的flink的
又问了离线方面遇到过什么难点没
问了些数仓指标难点遇到什么困难运行状况
数仓如何测试测试流程
问了数据采集这块怎么采集数据流向问了临界时间做了什么特殊处理
然后问我为什么来深圳个人发展意向
简单介绍了他们的产品和目前做的事情我问了他们数据量问了他们现在做到什么阶段他们在做离线迭代说会有加班问能不能接受
370 闪送
问题总结
1sqoop到数据底层原理导数剧失败临时文件怎么解决还有为什么有临时文件
2 hive数据倾斜的解决方式使用sql 有null值的数据倾斜

reduce的个数怎么算的
配置文件修改不生效

3 行转列列转行函数排序函数窗口函数
4 数仓建模订单状态表字段发生改变思路
5 窗口函数求新增值以及新增的累计值每天求前面所有的新增总和
371 滴滴
滴滴金融

滴滴最近感觉缺人，数仓的可以试试，面试也不写sql, 面试视频面试使用的zoom, 非常偏向于项目内容
372 携程
2020-09-03 晴北京携程第三次面试

Sqoop底层为什么默认是4个Map？
日志服务器上每天大概又多少个log文件？
你们的文件后缀都是什么？
你们的数据倾斜一般都是怎么处理的，在哪里有数据倾斜？
你们为什么将维度表存在HBase中？
你们怎么保存日志30天的？操作步骤讲一下？
你们的事实表和事实表用的是双流Join对么？代码逻辑简单描述一下？
你们用什么将数据导入到Kafka的？
讲一下MaxWell运行时架构底层原理，数据导入导出的原理？
HDFS块大小139切不切？为什么？
Hive优化知道多少？
MapJoin怎么用的？
MapJoin的底层原理？
为什么大表Join小表？
Map方法出来的数据落盘落了，等待Reduce来读，那么落盘到了哪里？
前面埋点数据，怎么到的Nginx？
你们Kafka里面的每天数据大概多少？
你们每天数据量大概多少？
你们数仓分层为什么这么分？
你们DWS、DWT多少张表？
你们实时指标大概多少个？都是怎么出的？
你们的报表都是自己出么？
Hadoop底层运行原理，三个组件是怎么一起串联协调工作的，怎么从MR走到HDFS的，然后走到Yarn。
熟悉那些Hadoop优化。
数仓建模为什么分这四步，确认业务怎么确认的？重点说一下。
Spark优化怎么优化的？
你能用Spark实现连续类指标么？如连续三天连续七天等等？
373 携程
易车一面：
1.scala 中class object区别？
2.归并排序
3.mr数据切片
4.hive grouping sets()函数
5.jvm gc
6.zk 如何数据一致性
7.rowkey设计原则
8.说一下对rdd的理解
9.mr流程
10.yarn机制
11.为什么行动算子能触发计算。

374 原力棱镜（要求java好
了解数据库存储的数据结构吗？
行式存储和列式存储区别？
用了什么列式存储？parquet
为什么用parquet不用orc？
flink情景题：kafka两个topic分别是游戏角色信息（比如等级）和角色操作事件（比如吃一口药），现在想要把角色等级和操作事件绑定在一起（吃药的时候多少级），用flink落地实现？
hash冲突了解吗？怎么解决？
jvm垃圾回收器用的什么？CMS
为什么用CMS不用别的？基于标清算法…
linux查看磁盘占用？
linux查看某一进程资源占用？
linux有一个超大的csv文件（200g，不能全读进内存）不考虑效率，去除第一行数据？多说几种？
设计模式了解吗？flink中用到了什么设计模式？

375 山东大课堂
hadoop集群搭建的注意事项
mr的优化
flume架构
kafka的优化
你独立做的项目介绍业务，如何实现的
hive小文件处理，数据倾斜处理

376 长安通信
讲一下自己做的项目
离职原因
kafka精准一次性，高吞吐的原因，优化
redis数据类型，快的原因，redis持久化
hbase的热点问题，rowkey设计
spark提交流程
spark提交参数的优化
手写sql：用户连续登录的最大天数
es文档查询流程，es大数据量查询怎么处理（我问面试官，面试官说正遇到这个问题，不知道怎么解决）
问算法会不会，快排算法

377 大鹏教育
1.自我介绍
2.离线项目
3.离线项目的历史数据存在哪里
4.项目中有没有用到动态分区

378 北京绎云科技有限公司
1.自我介绍
2.在项目中负责什么
3.是否了解flink
4.用flink写过什么指标
5.在使用flink中有没有自定义过算子
6.是否可以独立搭建大数据平台
7.搭建大数据平台需要搭建哪些东西
8.es用过吗，就是把flink分析的数据放入es。
9.整套环境大概多久可以搭建起来
10.实时里面一定要用Hbase吗？
11.团队成员有几个人，分工。
12.离职原因
13.项目开发周期。

379 大鹏教育
数仓怎么搭建的？
历史数据存在哪里了？
zookeeper在数仓中的作用是什么？
是用azkaban调度的吗？为什么不用datax？
实现了哪些需求？
实时项目有参与吗？怎么做的？

380 华清科盛
1，手写shell脚本
2，mr过程讲一下
3，实时统计过哪些指标，挑两个介绍下怎么实现
4，es跟kibana怎么实现可视化的
5，集群是配置在公司还是别的地方
6，spark数据倾斜怎么解决

381 上海睿民
1、HBase的rowkey设计需要注意什么？
2、wordcount的实现，textFile的底层是什么？
3、map和FlatMap的区别？
4、SparkStreaming中kafka的偏移量如何保存？
5、SparkStreaming程序挂掉了，但是没有修复，kafka中的数据也丢失了如何处理？
几天才发现修复之后程序会报什么异常？
6、groupby和groupbykey的区别？
7、有一个部分科目的成绩单（班级、姓名、成绩），通过spark程序实现取每个班级每门科目前三名？

382 神州数码
1. 先介绍数仓项目；
2. 规模多大？服务器处理节点多少？
3. 10台服务器，大数据平台是怎么分的？
4. 分层是你做的吗？说一下分层吧。
5. 实际中，比如销售额度，按照月、年来分析，这个建模你是怎么设计的？
6. 你们工作中的即席查询是什么时候引入的？
7. 你对presto比较熟是吧，你说一下底层实现原理呗。
8. Spark写过吗？写一个wordcount需要用到的算子从头说一下吧。
9. HiveSQL写的多吗？说一下4个by。
10. Hashmap你了解吗？
11. 写接口SpringBoot写得了吗？
12. Java连接池了解吗？
13. 有博客吗？有gitHub吗？
14. 你开发中写Java还是写Scala?
15. HiveSQL中分页怎么做的？
16. Spark的巫师计划你知道吗？
17. 你简历中的ES了解的多吗？
18. 数据倾斜你遇到过？说一说。举个业务场景。
19. Linux常用命令有哪些？
20. VI编辑器。
21. 查那个进程占用的内存比较多是哪个命令？
22. 分析进程中的线程呢？
23. 期望薪资是多少？

383 文思海辉
1、项目介绍
2、kafka阻塞了怎么办
3、spark调优做过没怎么做的
4、flink了解吗

383 一只船教育
1，canal和maxwell区别
2，讲一下项目
3，精准一次性消费怎么实现的
4，spark和flink的主要区别，为什么要用flink
5，项目中都统计过哪些指标
6，linux查看系统版本命令，查看磁盘挂载命令

384 赞同科技
Hive：
自定义UDF、UDTF函数
优化
说下Hbase
说下Azkaban
数据从哪里开
会不会搭建集群
公司数据量多少
技术中台
大数据部门几个人：

385 农行项目：
kafka
数据量过大如何处理
数据重复了怎么办挂了怎么办
优化
spark算子了解多少

386 公司：南瑞国电
平时你在公司具体是负责哪方面，你们的表有多大，部门中任务怎么分配的，数据过来怎么处理，举个例子说说你主要做的事情，怎么调度的，三年都做过哪些事

公司：博彦科技
Flume与sqoop的应用场景
在公司主要负责那些工作
ETL的流程
会使用那些数据库，会用oracle吗

387 公司：泰康保险外包
1自我介绍
2介绍数仓项目
3数仓中举例某个指标从ods 开始的具体实现
4一个SQL题
5 hive优化
6开发过程中自己负责哪一块，小组几个人
7数据量

388 公司：山东大课堂
1.先上来随便聊了聊离职原因啥的
2.然后问了问人员构成
3.hadoop生态圈组件
4.做过哪些项目

389 公司：北京未来趣
1.自我介绍
2.介绍离线项目
3.介绍实时项目
4.介绍数据量
5.瞎聊

390 公司：中智诚征信有限公司
三个SQL：
1、现在有两张表，a表和b表，a表里的部分id，b表没有，把这部分id取出来
2、将String类型的字符串“20201230”转化为“2020-12-30”
3、现在有1000万个id，随机取出50万个，怎么实现
关于项目：
1、项目中有提到kafka，说说你对kafka的了解
2、Kafka单条消息大小的参数调大之后，之后数据大小恢复正常了要不要调回来，有没有什么影响
3、你们公司数据量多大，日活多少
4、离线数仓你负责哪些模块，说几个你完成的指标，会从你说的指标中挑两个说说思路

391 公司：普华集团
1、自我介绍
2、说说实时项目整体流程
3、实时项目中的维度表为什么写到HBase，出于什么考虑
4、说说你对ES的理解
5、离线项目中的建模部分，说说你所了解的建模理论，你们的离线建模使用的什么模型，建模过程选择几张表举个例子
6、你们公司数据量多大，日活多少

392 中智诚
1两张表 a和b 都有一个id字段但是部分有a表有的id，b表没有，把这部分id取出来
2字符串类型日期“2020/12/30”转化成“2020-12-30”
3现在有一张表有1000万个id，随机取50万出来
4说实时项目
5精准一次性消费
6为什么要用spark streaming统计日活
7Kafka压测具体咋操作

393 合生活
1数据量多了和少了怎么办？
2判断数据重复，并定位
3项目落地流程
4工作主要做那一块
5怎么保证数据的准确性
6拉链表断掉怎么办
7实时项目为什么用kafka
8数仓开发流程，你可以做那层到那层
9hive小表join大表，不要大表join小表

394 公司：最右（一面）
笔试题：
爬楼梯，每次可以爬1阶或者2阶，比如3阶楼梯有3种方法：
1，1，1
1，2
2，1
打印出n阶楼梯的所有方法
要真的会做，就算抄的也要明白思路，因为面试会问这道题为什么这样考虑

面试题：
1、手写sql，现在有一张表，有以下字段
uid event ts date
分别表示用户id，事件，时间戳，日期
手写sql求出日期为2020–12–25活跃的用户2020–12–26日的第一条事件及时间戳
2、sparkstreaming怎么实现精准一次性消费
3、flink怎么实现精准一次性消费
4、flink两阶段提交，每个阶段具体做了什么事
5、hive的结构，对hive源码了解多少
6、一个hive sql提交后，mr怎么解析这个sql，就是说怎么将一个hive sql转化成mr任务并运行出结果的，源码中怎么体现
7、flume三大组件，sink的过程是怎样的，前后两个flume分别用的什么channel，有落盘过程吗，用memory channel可能会丢数据，对业务没有影响吗
8、kafka分区策略，10条数据，3个分区，每种策略对应的是怎么个分法
9、处理完业务数据再提交偏移量可能会造成数据重复消费，只能是at least once，怎么实现exactly once
10、hive怎么解决数据倾斜，有没有遇到过数据倾斜，怎么处理的
备注：对做过的项目不感兴趣，但是如果简历上的专业技能部分只要写了熟悉架构，就会问的特别细，细到底层怎么实现的那种

395 公司：极点触碰（一面）
1、离职原因
2、详细说下实时整体架构
3、实时中为什么用HBase存维度表，出于什么考虑
4、代码能力怎么样
5、ES在项目中主要是怎么应用的，用ES做了哪些事，对ES了解多少
6、为什么用Maxwell，为什么不用canal，出于什么考虑
7、Hive引擎为什么用mr不用spark，两者的区别是什么

396 公司：中智诚征信有限公司（二面）
1、为什么离职
2、有搭建集群的经历吗
3、简单介绍一下实时项目
4、看你简历上即席查询用的kylin，presto了解吗，说说你所了解的
5、平时sql写得多还是代码写得多

397 公司：亚信科技
1、自我介绍
2、为什么离职
3、介绍一下上个公司做过的项目
4、说一下做过比较难的指标
5、Sql中遇到的比较难的函数

398 公司：合生创展
1、dws宽表制定流程
2、制定了哪些开发规范
3、怎么保证数据的准确性
4、开发流程
5、介绍离线项目
6、Hive优化
7、数据倾斜怎么做

399 公司：中智诚
1、1000w数据随机采样50w
2、20201212 转换2020-12-12
3、a/a/ 转换 a-a-
4、项目介绍
5、kafka优化
6、hive数据倾斜
400 公司：吉贝克朝阳的
1.自我介绍
2.做过哪些项目
3.说自己公司主要是orcale的,连数仓都没有,想找有证券金融方面的
4.问了问sql写的怎么样

401 公司：北京大德盛业
辣鸡公司,别去,连技术部都没有,去了你就是技术部部长

402 公司：美篇
1.自我介绍
2.介绍离线架构
3.问了问公司在最后存储可视化的时候有没有什么优化?(我说的是es+kinana,我也不知道这玩意还能优化)
4.聊指标体系(我说的是一个业务一个体系,就是业务和哪些维度相关联)
5.问了即席查询,他想和我聊presto,但是我不太熟,我就说了说presto和impala.麒麟之间的区别,泛泛的说了说
6.出了个题,就是给1g内存,单机情况怎么去求1t数据(里面是纯数字)里面的50个较小数
他回答说是把一部分加载到内存中,然后去比
7.出了一个sql
给出time,user_id
求time,新增用户,一日留存,次日留存,一直到七日留存
公司情况,15年成立,数据量是每日1t??
用的是阿里的maxcompute,就是不用自己维护组件,如果要增加服务器配置,自动增加配置的一个平台
现在数仓离线都在跑

403 公司：久智集团
一面：overwrite和overload区别
数据来源，MySQL数据怎么导到hive中
数仓分层是怎么分的，dwd清洗是用什么清洗
集群怎么搭的
拉链表原理
二面：上级给的业务无法按时完成要怎么解决
期望什么样的工作
三面：公司之后的发展方向

404 中智诚
1，3道sql
字符串20%20%20，想要替换%变成#

  20201212----->2020-12-12

  去掉a表中b表的id字段

2，离线项目讲一下
3，kafka调优说下
4，kafka有多少个topic 怎么分区的
5，hive表优化说下

405 更美微信电话面试
问数据量多大
每条日志数据多大
项目组几个人
日活月活日活我说100w 月活320w 他表示怀疑
你们用kafka吗？kafka中数据量大小？
hive内部表外部表
用过那些窗口函数三个rank区别
查看分区表的命令
先问了 sort by order by 我说order by全区排序用的较少容易oom
问了一个简单SQL 结果我就用order by 处理，他就问你不是说order by容易oom吗
平时负责什么工作
前端埋点的日志有哪些，刚答了启动日志，事件日志就问了事件日志有哪些字段，为啥要埋点这个字段，跟后面统计的哪个指标相关的呢？
遇到过数据倾斜吗？咋判断是发生了数据倾斜，咋解决的？
spark了解的多吗？说一说你工作用的算子。
还有啥想问的？我问了他们公司数据倾斜怎么解决的。

406 羽实萧恩
1.sql题，求学生总成绩top10
2.数据库流向说下
3.sql优化 sql语句优化
4.维度建模，雪花和星型说下区别
5.hadoop数据倾斜的影响和解决方案

407 赞同科技
一面
1.介绍项目(把实时讲了一遍)
2.zookeeper监听机制
3.hbase结构以及rowkey设计原则
4.两个数据源的数据量说下
5.为什么要自定义udtf函数，怎么自定义
6.数据中台了解吗？

408 公司：金融壹账通
问题：
自我介绍
为什么离职
数据如何采集的？
数仓搭建和建模怎么做的？
数仓每层都做了什么？
hive内部表和外部表的区别？
sql写的怎么样？（没有给我出具体的sql题）
拉链表具体是怎么实现的？

409 公司：传智教育
问题：
自我介绍
kafka生产者开启幂等性的原理？
ISR队列原理？
数仓快速变化维是怎么实现的？
数仓的几个概念：上转，下转，切片（我说我都没听过，不知道）

410 宇信科技二面：
自我介绍
简述最近的一个项目流程（我说的是实时项目）
问ES的倒排索引，举了一个场景，一万个文章，让说一下spark代码实现的思路（回答不太好）
举了一个小文件场景：有10万个50B大小的文件保存在HDFS中，问会发生什么问题
问了kafka为什么手动保存偏移量，不是能自动保存吗，听起来好像对手动保存，精确一次消费不太清楚

411 北京润通风华科技有限公司（昌平）

业务量在多少：1G
集群规模是多大的：10台
集群中各个组件是怎么分配的

2.SparkStreaming写一个根据itemid和tradmarkid写一个topN
也可以用Flink来实现
通过json解析工具对数据进行解析

3.Flink与SparkStreaming的差别

412 东方国信（朝阳区）
1.介绍项目
2.业务量
3.提交离线任务的时候，参数配置上做了哪些优化
4.Flink的API使用，自定义序列化
5.Flink的提交方式，为什么使用会话而不是per-job
6.Flink做了哪些优化
还有一些，实在想不起来了。。。问了三个小时

413 沃东天骏（亦庄）
一面：
1.我面试的所有公司都会问，公司的业务数据量小，为什么使用大数据方式来处理，团队有多少人
2.说一下Flink和SparkStreaming的差别，更喜欢用哪种，为什么，做了哪些改进
3.spark sql 中的时间算子，spark sql中不支持hive中的哪些函数
4.离线数仓的建模想法，每次的分工，对京东的数仓有了解吗？
5.如何能保证业务数据的准确性
6.实时与离线的指标是分开使用的，还是结合使用的
7.sparkStreaming和Flink是需要在后台运行的，怎么做的监控，如何进行的调优

414 文思海辉（海淀）
二面：
1.介绍项目
2.Kafka的一些技术点，调优，故障等
还要几个实在想不起来了

三面：
1.spark与MR的区别
2.使用spark引擎的原因，什么情况使用spark引擎，什么情况使用MR引擎
3.HBase的读写流程，RowKey设计，分区设计，为什么这么设计分区
4.ES的原理，ES的每个node的内存大小（好像是这个意思）
5.利用MR手写wordCount

415普华
1 自我介绍
2 hive数据倾斜
3 MySQL锁
4 MySQL索引，作用，索引查询命令，什么查询命令会让索引失效
5 Mysql和数据仓库有什么功能有什么区别
6 Mysql实现高并发
7 java并发问题
8 es介绍，深浅分页
9 hive4个by有啥区别
10 口述出了一道sql题，记不清是啥了
11 kafka峰值数据大小
12 实时项目怎么实现精准一次消费
13 hive优化

1.介绍最熟悉的一个项目
2.现在用的是flink那个版本
3.sparkstreaming和flink之间的区别
4.flink是如何保证一致性语义的
5.watermark和window窗口的作用
6.采集过程中如何处理小文件的过程
7.小文件会带来什么样的问题
8.Hbase有做二级索引吗
9.熟悉es吗
10.大数据集群有没有自己搭建过
11.用的是什么版本的（Apache）
12.为什么没有用CHD等社区版本的
13.集群的监控是用什么做的

416 羽实箫恩
1 Mysql存储过程
2 口头出了一个sql，求男女人数
3 hive 优化
4 问我对他们公司有什么要了解的
5 期望薪资最快啥时候能到岗

中国农业银行总行（外包）
说一下你做过的业务，最近做的业务
公司数据量对大？多少个集群
几个项目组，组里多少人
Kafka的分区分配策略
spark streaming窗口函数
spark做了哪些优化
数据倾斜如何处理
flink中watermark机制
然后就是离职原因最快可以什么时候入职
我问了他们的工作内容集群主要负责项目

417 一起教育科技
离职原因，为啥没拿年终奖就离职了（我说我们公司是第二年才会发）
你负责哪一块项目，你最擅长哪些
讲一下数仓分层
元数据管理，质量监控怎么做的
对kylin有哪些了解，使用kylin发现哪些问题

418 极点触碰
（貌似是个0-1）
1、hive的数据倾斜（我说了倾斜，他说了一条优化，我给他补充了一堆优化）
2、kylin展示的有哪些数据
3、sqoop的数据导出来是到了哪里
3、为什么要用到hbase

419联通华盛通信有限公司
自我介绍3-5分钟
最近做的业务？用的框架？流程是什么？
hadoop做过什么配置？修改过什么配置文件？
针对大规模数据量查询如何做到秒级响应？
使用过的框架和工具？具体做什么用？
上个问题说到的框架的原理和优化
420 公司：58
1、讲一讲你对java面向对象思想的理解
2、一个KV类型的值，对key设置一个过期时间，用Java代码怎么实现，不能使用redis
3、用java实现一个具有优先级的队列，讲一下编程思路
4、详细说一下Spark中的reduceByKey算子的shuffle读和shuffle写过程，如果没有reduceByKey算子，不使用其他算子，要实现这个功能，你怎么实现
5、缩减分区用什么算子
6、说一下Flink的运行时架构
7、ES是怎么做聚合的，说原理
8、实际工作中遇到过什么问题
9、对排序算法了解多少

421 公司：银河创想
1、自我介绍
2、介绍实时项目框架，数据存到哪里，处理流程
3、离线框架，数据存储位置
4、Sql题，字段有书名，书的标签若干逗号分隔，统计出现频率前十的书签
5、Spark中那些算子存在shuffle
6、Shuffle什么意思

422 公司：腾云忆想
1、常用的技术栈有哪些?
2、在大数据组件里面,有哪些是理解的比较深刻的?我说的flume和kafka
3、kafka数据精准一致性是怎么实现的?我回答的ack等级和幂等性,他想问kafka内部原理
4、算子和flink熟悉吗
5、flink和spark做checkpoint的区别
6、spark为什么做不到精准一次性?
他说是有两种,一种是端到端精准一次性,一种是引擎内部(最小的数据粒度,flink是event,spark是RDD)
7、hive的调优方向
8、hive动态分区的弊端(本来想随口说一说,结果对方开始仔细问了)
9、shell命令场景:就是某一个进程往我磁盘里写东西写的很快,需要去定位这个进程

423 公司：腾讯外包
1、自我介绍
2、介绍数仓项目
3、hive优化
4、mapreduce过程
5、zk选举机制
6、维度建模理论

你可能感兴趣的:(pianaipj-真题宝典-4)

底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
绘本讲师训练营【24期】8/21阅读原创《独生小孩》 1784e22615e0
24016-孟娟《独生小孩》图片发自App今天我想分享一个蛮特别的绘本，讲的是一个特殊的群体，我也是属于这个群体，80后的独生小孩。这是一本中国绘本，作者郭婧，也是一个80厚。全书一百多页，均为铅笔绘制，虽然为黑白色调，但并不显得沉闷。全书没有文字，犹如“默片”，但并不影响读者对该作品的理解，反而显得神秘，梦幻，給读者留下想象的空间。作者在前蝴蝶页这样写到：“我更希望父母和孩子一起分享这本书，使他
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
本周第二次约练 2cfbdfe28a51
中原焦点团队中24初26刘霞2021.12.3约练161次，分享第368天当事人虽然是带着问题来的，但是咨询过程中发现，她是经过自己不断地调整和努力才走到现在的，看到当事人的不容易，找到例外，发现资源，力量感也就随之而来。增强画面感，或者说重温，会给当事人带来更深刻的感受。
今日联对0306 诗图佳得
自对联：烟销皓月临江浒，水漫金山荡塔裙。一一肖士平2020.3.6.1、试对肖老师联：烟销皓月临江浒，夜笼寒沙梦晚舟。耀哥求正2、试对萧老师联:烟销浩月临江浒，雾散乾坤解汉城。秀霞习作请各位老师校正3、自对联：烟销皓月临江浒，水漫金山荡塔裙。一一肖士平2020.3.6.4、试对肖老师垫场联：烟销皓月临江浒，雾锁寒林缈葉丛。小智求正[抱拳]5、试对肖老师联：烟销皓月临江浒；风卷乱云入峰巅。一一五品6
2022-07-08 保利学府里李楚怡1307022
——保利碧桂园学府里——童梦奇趣【科学实验室】「7.9-7.10」✏玩出大智慧约99-144㎡二期全新升级力作
2022-04-18 Apbenz
语重心长的和我说，不要老是说不行，人至而立之年危机四伏，内在的，外在的，感觉就是心力憔悴，让人无所适从。面对职场的无情，突然好羡慕干体力劳动的外卖小哥。难道命运是想让我去送外卖了吗？干体力活才能让我活下去？fastadmin打卡成功,淘宝金币任务完成。ㅏㅓㅗㅜㅡㅣㅐㅔㅑㅕㅛㅠㅢㅒㅖY行。야자여자요리우유의사얘기예
每日一题——第八十二题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将一个控制台输入的字符串中的所有元音字母复制到另一字符串中#include#include#include#include#defineMAX_INPUT1024boolisVowel(charp);intmain(){charinput[MAX_INPUT];charoutput[MAX_INPUT];printf("请输入一串字符串：\n");fgets(input,sizeof(inp
每日一题——第八十三题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将输入的整形数字输出,输出1990，输出"1990"#include#defineMAX_INPUT1024intmain(){intarrr_num[MAX_INPUT];intnum,i=0;printf("请输入一个数字：");scanf_s("%d",&num);while(num!=0){arrr_num[i++]=num%10;num/=10;}printf("\"");for(
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
第四天旅游线路预览——从换乘中心到喀纳斯湖陟彼高冈yu 基于Google earth studio 的旅游规划和预览旅游
第四天：从贾登峪到喀纳斯风景区入口，晚上住宿贾登峪；换乘中心有4路车，喀纳斯①号车，去喀纳斯湖，路程时长约5分钟；将上面的的行程安排进行动态展示，具体步骤见”Googleearthstudio进行动态轨迹显示制作过程“、“Googleearthstudio入门教程”和“Googleearthstudio进阶教程“相关内容，得到行程如下所示：Day4-2-480p
linux sdl windows.h,Windows下的SDL安装奔跑吧linux内核 linux sdl windows.h
首先你要下载并安装SDL开发包。如果装在C盘下，路径为C:\SDL1.2.5如果在WINDOWS下。你可以按以下步骤：1.打开VC++，点击"Tools",Options2,点击directories选项3.选择"Includefiles"增加一个新的路径。"C:\SDL1.2.5\include"4，现在选择"Libaryfiles“增加"C:\SDL1.2.5\lib"现在你可以开始编写你的第
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
相信相信的力量孙丽_cdb3
孙丽中级十期坚持分享第345天有一个特别有哲理的故事：有一只老鹰下了蛋，这个蛋，不知怎的就滚到了鸡窝里去了，鸡也下了一窝蛋，然后鸡妈妈把这些蛋全都浮出来了，孵出来之后等小鸡长大一点了，就觉得鹰蛋孵出来的那只小鹰怪模怪样，这些小鸡都嘲笑它，真难看，真笨，丑死了，那只小鹰觉得自己真是谁也不像，真是不好看，后来鸡妈妈也不喜欢他，我怎么生出你这样的孩子来了？真烦人，后来这群小鸡和小鹰一起生活，有一天，老鹰
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
509. 斐波那契数(每日一题) lzyprime
lzyprime博客(github)创建时间：2021.01.04qq及邮箱：2383518170leetcode笔记题目描述斐波那契数，通常用F(n)表示，形成的序列称为斐波那契数列。该数列由0和1开始，后面的每一项数字都是前面两项数字的和。也就是：F(0)=0，F(1)=1F(n)=F(n-1)+F(n-2)，其中n>1给你n，请计算F(n)。示例1：输入：2输出：1解释：F(2)=F(1)+
郎朗大婚娶公主：所有光环的背后，都是十年如一日的自律简小尘
近日，关于郎朗大婚的新闻上了热搜，看了新娘的照片，既有天使般的面容，更有魔鬼般的身材，关键是人家还身世好，又有才华，这真的是让所有男人羡慕嫉妒恨哪。有些人不禁会想，“凭什么郎朗的人生就象开挂了一样，可我却每天都活得这么狼狈！”其实，每个开挂的人生背后，都是苦行僧般的自律。01欲戴王冠，必承其重。练琴不能只靠兴趣，更需要自律！我们先来看一下朗朗在小时候的作息时间表：早晨5:45起床，练琴1小时。中午
《中华小厨师》单行VS爱藏：姜是老的辣，书是新的好 cicoky
《汉书·郦食其传》有曰：“王者以民为天，而民以食为天。”自古以来，吃饱饭是每一个人的基本要求，而吃好饭却是每一个人的最终追求。于是，厨师这一职业孕育而生，其渊源之久，甚至可追溯到4000年前的奴隶时代。职业本身无贵贱，但职业能力却有高低之分。所以一家餐馆生意好不好，厨师的水平决定一切，而站在所有厨师顶端的就被称之为“特级厨师”。今天要说的就是一个关于“特级厨师刘昴星”的故事。连载历程1995年第4
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
2023-04-17|篮球女孩长一木
1小学抑或初中阶段，在课外书了解到她的故事。“篮球女孩”。当时佩服她的顽强，也对生命多了一丝敬畏。今天刚好在公众号看到，长大后的“篮球女孩”。佩服之余又满是心疼。网络侵删祝那素未蒙面的女孩，未来一切顺遂。
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
数组去重好奇的猫猫猫
整理自js中基础数据结构数组去重问题思考？如何去除数组中重复的项例如数组：[1,3,4,3,5]我们在做去重的时候，一开始想到的肯定是，逐个比较，外面一层循环，内层后一个与前一个一比较，如果是久不将当前这一项放进新的数组，挨个比较完之后返回一个新的去过重复的数组不好的实践方式上述方法效率极低，代码量还多，思考？有没有更好的方法这时候不禁一想当然有了！！！hashtable啊，通过对象的hash办法
春季养肝正当时 dxn悟
重温快乐2023年2月4日立春。春天来了，春暖花开，小鸟欢唱，那在这样的季节我们如何养肝呢？自然界的春季对应中医五行的木，人体五脏肝属木，“木曰曲直”，是以树干曲曲直直地向上、向外伸长舒展的生发姿态，来形容具有生长、升发、条达、舒畅等特征的食物及现象。根据中医天人相应的理念，肝五行属木，喜条达，主疏泄，与春天相应，所以春天最适合养肝。养肝首先要少生气，因为肝喜条达恶抑郁。人体五志肝为怒，生气发怒最
log4j配置 yy爱yy
#log4j.rootLogger配置的是大于等于当前级别的日志信息的输出#log4j.rootLogger用法:（注意appenderName可以是一个或多个）#log4j.rootLogger=日志级别,appenderName1,appenderName2,....#log4j.appender.appenderName2定义的是日志的输出方式，有两种：一种是命令行输出或者叫控制台输出，另一
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它