前言
已经经历过了hr的谈话,然后来到了第一轮面试现场
面试官:刚刚我们HR也有跟你聊过,
我:对,刚刚有人事跟我聊过了。
面试官:对你现在还在职吗?我只是收了你简历,其他的都还没看着,
我:我现在已经离职了。
面试官:离职了是吧?那你现在在哪里?广州?
我:我现在在广州。
面试官:平均我看你做项目这块,不是什么金融方面是吗?是物联网公司吗?
我:我上一份工作是做的是一个电商的。
面试官:电商是吧?
我:对。
面试官:用的是什么技术?
我:就是大数据这一方面,因为电商其实还是平台蛮大的,这上面做的是一个垂直电商。
面试官:嗯嗯~
环节总结:在面试刚进行的时候,面试官一般会先看你的简历,了解一下你的基本情况,比如在职状态,哪里人,工作了多久,上家公司的情况,基本会浏览一下你大体用过的技术和框架,在这个环节,一般都是相对轻松愉快,甚至和面试官套一下近乎(求职者当然也是可以反问一下面试官的,说不定是老乡或者校友),基本上如实回到即可
我:我在项目里面主要就做两个项目,一个是用户分析,一个是用户推荐。
面试官:行,你给我介绍一下你在这些项目中你可以自己哪方面的工作,主要是你负责那一块,你真正去做的那一个,可以做个描述。
我:我在第一个项目用户分析,我主要就是做一个数据的采集,数据的采集就是使用flume加kafka,下沉到hdfs这边,然后还有一个sqoop。对关系型数据库导入到数据导入到hive这边,然后还有就是一个离线的ETL这过程。
环节总结:在项目分析这个环节,需要准备得相对充分一些,主要需要准备好自己比较擅长的东西,和在项目中主要负责的。在项目中用到的技术,尽可能做到百问不倒,如果自己不擅长的东西,就不要说,最好提都不要提,以免一问三不知,让自己的后期薪资大打折扣
面试官:那你用了哪些组件,你那个ETL是用什么去做的?
我: Etl的话我们是用Kettle的那个工具,在这个工具上面直接对这个数据进行操作,就没有在hive里面做,因为大家对于hive来说可能有可能会太重了嘛
面试官:嗯……,那行,我看你简历里面开发工具的是有一些什么,你对spark熟悉吗?就spark sql,还有hadoop,hdfs那种形式吗?
心里忍不住暗骂,这叫啥问题,我如果说不熟悉,我们还能聊得下去吗?但是你不能说出来。
我:熟悉。
面试官:那hdfs你是怎么操作的?平时工作中是怎么做的呢?
我:HDFS它就是一个分布式存储工具嘛
(如果你get不到面试官的点,你可以乱答一通,尽可能不要沉默下去,或者直接说不知道。当然如果你会玩的话,你也可以直接绕过你不懂的问题,把话题撤回到你擅长的领域里面去
)
面试官:那你们有没有去操作过这些里面的一些文件,怎么去处理?
我:我们这边的话,使用hdfs主要是加hive,就是把hdfs的表映射到hive里面,因为我们会在hive这边操作,就是用kettle,然后操作hive里面数据。
面试官:你对hdfs文件是怎么去做的呢?然后怎么在hive里面,整一张表能够映射到能够关联到hdfs的一些文件呢?
我:怎么关联到hdfs是吧?
面试官:对啊!如果你说,你有没有对hdfs的一些文件,这不是在hive里面,在hdfs系统里面对这些文件进行一些操作,进行一些数据这方面的计算,有没有做过这一块?
我:没有,我们是,我们直接把那些元数据存储在hdfs这边,然后映射到hive里面,然后hive在那里形成,我们对hive进行一个分层。那么刚映射过来就是一个原数据层,然后我们基本上是在hive这边操作的
(分层?原数据层?那问个数仓分层的东西,看你怎么还怎么绕
)
面试官:嗯,行。还有数仓的分层,而且怎么分层,每个分层是怎么加工,这些了解吗?
哈哈,回到了我的主场,那就看我表演咯。
我:了解,了解。(心里在偷笑)我们的hive也是分为三层,一个是原数据层,也就是ods都还有一个dw还有一个APP应用层。
我们的数据是从,因为是刚才也说是从hdfs那边映射过来,所以就是原数据层。
然后这些数据可能会是我们电商系统,可能就会有用户的一些注册的信息,比如说他刚刚来这个APP就要注册,
我们就可以得到他一些他填写的信息。还有一些订单,还有一些购物车的信息,
然后我们拿到这些信息就要向上抽取,让数据比如拿到一个用户注册的用户,注册一张表,它可能里面的字段就只有几个,
一个是ID,然后一个手机的注册号码,然后还有一个地址吗?然后因为也是主要做母婴这一方面,可能还有婴婴幼儿这一些出生年月这一个,注册,就只有这几个字段。
然后我们就通过sql就是向上抽取,然后我们再可以结合一些其它的表,比如说它的订单表,还有一些收货表,收货地址有收货地址,
还有一些然后向上出去又比如说我们拿到他的手机号码,我们可以对手机号码进行分提取,
他用的是哪一家公司的,有是联通移动还是电信这三家公司的一个运营商,然后也可以拿到他的地址,中间4位数不就是我们的省市地址吗?我们就可以得到这一些字段。
然后还有其他收货地址的话,我们也可以进行一个比如说是他所处的城市,一是一级是一线城市还是多少线城市,我们也可以得到,然后我们就把这些数据进行提取,然后再会去从一张张白表,
然后到一张张用户的宽表,所以我们就提起这些主要是提取到这些制造,形成一张张用户宽表,然后主要用来分析用户,看用户他平时在购买这一方面的一些偏好数据,
比如他会就可以从订单表上,我们也可以向上提取,继续说他平时喜欢购买哪一些品牌奶粉,形成一个偏好数据,所以这就是我们一个用户分析的其实也是比较重要的ETL过程
面试官:好,嗯,好
我:还有什么要问的吗?
面试官:没其他的?你这几个组件,你对哪个组件比较熟悉?
我:操作组件的话,我可能就会在数据采集这块还有离线的ETL这一方面,还有一个数据库的导入导出,主要是我职责主要在这三方面上
环节总结:在面试进行到技术问答的环节了,成败一般都是看这个环节了,这个时候需要平时多刷一下高频面试题了,因为这是第一轮面试,技术深度相对还是不是很深。不过有足够的准备还是好的,不要打没有准备的战
面试官:你现在人,我刚才问了?你现在人在广州是吧?
我:对,我人在广州在天河这边。
面试官:已经离职了吗?还是在职?
我:已经离职了
面试官:这几天方便过来面试,我这边是第一轮面试,还要参加第二轮到现场过来面试的。
我:是去千灯湖是那边吗?
(如释重负……
)
面试官:对,是到我这边
我:可以。但不过我这边去可能会有点远,因为我在天河这边可能过去也得要差不多两个小时
面试官:坐地铁一个小时,可能路不熟,可能要长一点时间就可以了。
我:因为我现在在这边离地铁也比较远,我这边还要坐公交坐四五个站到地铁那边
面试官:到时候我让人事联系你,你看看安排,一般是安排下午3:00左右的面试。你是肯定可以来的及的
(接下来,因为面试官已经相中了你,你完全可以肆无忌惮的问面试官一些问题了,了解一些你想知道的问题了
)
我:我可以问一下,现在在这个项目,我听人事说是在广发这边的是吧?
面试官:是在广佛线千灯湖地铁站出口,对走路10分钟就可以到了。
我:我想问一下这个项目目前是已经开展了,还是现在先人才储备过去?
面试官:我这项目15年就开始了
我:15年就开始了是吧?已经工作,那已经这项目已经好久了。
面试官:是啊!我这个团队就好几十人
我:现在应该集群之类这平台之前都已经搭建好了,已经运行了吧
面试官:是的,你一来其实就能干活
我:入职就可以?
面试官:是的,就怕你到时候,觉得工程量工作量太多,还是怎么样,对了还问,顺便问下你对加班方面有没有意见?
我:加班这些方面的话我并没有什么太大意见,因为对于我们这些这些做软件搞程序这一方面都是基本上也可以说是差不多习以为常了。
(招聘福利上不是写着朝久晚六?周末双休吗?
)
面试官:对,我觉得你既然说做互联网这种公司的话,他们加班是蛮厉害的。
我:对,因为我是来学习,我上一家公司是电商嘛
面试官:对。反正年轻能够多花点时间积累经验,以后就会好过,日子就好过。
我:是。可以再问你一些问题,关于贵公司目前在广发这边的项目的事,基本上,目前贵公司这就是在这个项目用的是哪一个技术点比较多?
面试官:我现在这边团队的技术,大数据这方面技术,hive,hbase,python,hdfs,以后还有用到linux自己开发脚本,再有一些其它的话,kafka,storm……这些都有
我:现在就是指?
面试官:主要的话,就是我刚才面试,你的这种。最基本的话,要懂得查数,懂得hive我们去查数据,然后懂得在linux里面开发。
我:现在是在hive,那这边就可能是偏离线数据多一点。离线处理这一方面,大概是因为也是做银行的大概的数据量也是很大的这一种。
面试官:数据量很大,所以有些表的话几十亿条数据都有。
我:几十亿条的话,如果一条也有四五k的,不止应该是不止,应该就有一天也有几百g这
面试官:有。
我:现在这个项目你刚刚也说是有15年开始,现在这个团队目前有多少人呢?
面试官:整个的数据团队有100多人,我这边广发这边有40个人
我:光广发那边就有40,广发那边驻点的就有40多个是吧?
面试官:也不对,因为广发大数据团队的话有50多个人,差不多20个人。我这边有好几个项目组的。另外如果整个公司在广发这边有200人,
我:好,了解。我现在也只能想到要了解的是这一些,好,感谢。
面试官:好行,那就今天到这了,到时候等一下通知
我:好好麻烦,谢谢。
环节总结:最后一个环节了,求职者可以问面试官一些问题,比如项目情况,办公地点,入职以后会负责的内容,项目的团队,工作的氛围……可以了解一下公司和以后的工作情况,看是否和自己预期的一样。
另外,因为这是一个真实的面试过程,全程录音下来了
现在免费送给大家,在我的公众号豆浆油条大数据回复 【666】 即可获取。
我是豆浆油条,一个大数据程序员。
静谧的早晨,一杯香浓的豆浆,一份美味的油条,生活就是这么简单……人才们的 【三连】 就是豆浆油条创作的最大动力,我们下期见!
注:如果本篇博客有任何错误和建议,欢迎人才们留言!
文章持续更新,可以微信搜索「 豆浆油条大数据 」第一时间阅读,回复【资料】有我准备的一线大厂面试资料和简历模板
.