大数据开发面试

1、在linux系统找出同时满足下列条件的文件

(1)文件名包含字符串“profile”

(2)文件大小大于10MB

(3)文件的修改时间在7天前

答案:find / -name *profile* -mtime +7 -size +10M

2、有两类应用,游戏和工具

游戏类的应用有:Agame1,Bgame2,Cgame3,Dgame4,Egame5......Jgame10

工具类的应用有:Atool1,Btool2,Ctool3,Dtool4,Etool5......Jtool10

有一张用户安装应用列表(表名:user_install_app)

user_id                     app_name

user1                        Agame1,Bgame2,Cgame3,Atool1,Ctool3,Dtool7

user2                        Agame1,Bgame6,Cgame3,Egame5,Btool2,Ctool6,Dtool7

user3                       Cgame3

user4                       Dtool4

请用SQL实现下面的需求:

(1)同时装有Fgame6和Ctool3的用户

(2)同时装有游戏和工具类(且没有安装Ctool3)的用户分别安装游戏和工具类应用的个数

3、MapReduce中排序发生在哪几个阶段,都采用什么排序算法,并用java程序实现算法,(如果不知道该排序算法,写一个自己熟悉的排序算法),并分析该算法的时间复杂度

4、hdfs元数据管理 读写流程,副本策略,spark job state task区别弄清楚。hbaae优化等

 

 

 

 

 

你可能感兴趣的:(学习+面试+慢生活)