超详细!腾讯NLP算法岗面经(已offer)

超详细!腾讯NLP算法岗面经(已offer)_第1张图片

作者 | ZipZou

整理 | NewBeeNLP

面试锦囊之面经分享系列,持续更新中超详细!腾讯NLP算法岗面经(已offer)_第2张图片 

可以后台回复"面试"加入交流讨论组噢a913854d398c2642caa307257860c3f3.png

分享一篇旧文,希望大家都成功上岸~

写在前面

首先来段简单的自我介绍:2021届硕士,硕士期间未有实习经历,本科大三有过一次实习,小公司,可以忽略。本人投递的是腾讯暑期实习:技术研究-自然语言处理方向

腾讯校招开启的比较早,提前批在3.5号就已经开启了,我算是赶上了最早的那一批。本次的算法岗竞争同往年一样,也蛮激烈的,我亲眼看着,从投递最初NLP岗的投录比为3:1,面试时升到了4:1,最后完成流程后变为了5:1,NLP方向相对好些,CV、机器学习等竞争更大,CV 9:1,ML 10:1,听师兄描述,算法岗到后面会到20:1都可能,所以还是要趁早准备。

本人的面试流程大概如下,3月1日找的内推,收到完善简历的链接,在官网投了简历,当时选择的意向BG是WXG,3月2日上午收到HR小姐姐电话,说她们是PCG部门,问我面不面,我大概询问了PCG的主要业务,得知是社交类的业务居多,然后就拒绝了,说还是优先考虑面WXG那边,于是HR小姐姐便说帮我转投。

这点很诡异,官网的显示是,校招从3.5日开始提前批,但是实际上在这之前应该就开始筛简历并且面试了。

在腾讯,据说简历如果被捞了,如果同意面试简历就会被锁定,从简历池中提到面试的部门,这样其他的BG就看不到你的简历了,然后走官方流程,当时不知道,主要是考虑WXG当时更符合我的预期吧。

3月4日,再次收到HR电话,官网当时状态是未发起面试,这次是直接约面试时间,问我啥时候有空,约了3月6日(在此之前大致准备了下算法题,但是没有仔细准备,所以隔了两天,再充分准备下)。3月6日下午,参加了电话面试,3.9,查公众号状态进入复试。期间等待了一段时间,3.15日收到二面电话,并且是当天面试,于是当天晚上8点面试,到9点左右结束。第二天,官网流程变为HR面,17日下午收到面试邀请链接,约20.40的视频面试,20日状态更新为已完成。

一面(技术面)

一面个人感觉面的不是很好,虽然大部分问题答出来了,但是还是有不清晰的地方,而且有些问题没有答出来,甚至以为会挂,一面时间持续了大概有1小时2分钟。面试形式:电话面试。

  1. 简要的自我介绍。

自我介绍之前大致准备了下,就主要介绍个人情况,我主要是按照简历上的内容,大概介绍了下,时间在3分钟左右,但是个人感觉亮点不够突出,这点大家可以再发挥。

  1. 研究生阶段最有挑战的项目是什么?

我觉得这是我的一面面试官比较关注的点,这点聊了很久。因为我们组的主要方向是智能化软件测试,或者说智能软件工程,然后介绍了最近研究的一个项目。大概介绍了这个项目的动机,然后传统的一些研究方法,以及我们准备采用的一些方法(NLP相关)。

  1. 对于这个项目,传统的方法是怎么样的?

介绍了在软件测试领域大致的做法,主要是机器学习相关的内容了,即人工抽取的一些特征,已经使用的方法。

  1. 列举下这个任务在传统用法的一些典型特征。

我大概列举了几个,感觉这里的案例说的不是很清楚,因为那些工作主要不是我在做,我只是对这些工作有过一些了解。

  1. 看你简历里有QA相关的论文,大概介绍下里面用的方法。

主要介绍了这篇论文用的模型,以及方法,细节面试官没有深究。

  1. 你在这篇论文里用到的是GloVe,为何不用word2vec,或者说word2vec与GloVe有什么区别?

我大致说了下他们的区别:word2vec是NNLM的一个较为典型的代表,其利用了DNN的方法来训练获取到词向量,而且词向量是中间产物,这个思路最早是Bengio提出,Google Brain提出的word2vec让词向量火了起来。而GloVe是采用词频统计信息,利用一些数学方法逐步优化得来,它没有神经网络的结构,所以词向量训练的速度相对更快。(这里当时不记得具体的公式推导了,原论文我倒是看过,但是当时记得不清了,实际上GloVe是词共现矩阵+类SVD的方法)

  1. 你清楚word2vec吗,大致描述下word2vec的结构以及训练方法。

清楚(好刚的我,面完发现答的有瑕疵),从宏观上描述了DNN的一个结构,从输入(大致带过分词,词表构建,one-hot等过程),到隐层,到输出层。然后详细讲了两种训练结构,即CBoW和Skip-Gram,但是当时这两种方法被我说反了。(当时并无觉察)讲完两种训练方法后,大致介绍了下训练时候词表大小过大,输出层过大的优化方法,即:hierarchical softmax和negative sampling。

  1. 现阶段NLP的研究相对CV发展还是很缓慢,你认为是什么原因?

自然语言存在变化性,和不确定性,即语义的抽取对神经网络来说是很难的,在英文,人脑可以通过词形来建立词与词之间的关系,但是语义不确定性很强,比如歧义,一词多义,词序等等都会影响语义。而CV的特征相对固定,如图像处理,filter提取的特征一般是某种轮廓或边缘特征,这些特征对于特定的物体都是固定的,所以效果会更好。(说了很多废话,不清楚,其实总结就是感知智能和认知智能,感知智能很容易实现,即CV,而认知智能有很多挑战,即NLP)

  1. 你知道隐马尔可夫模型吗,大概介绍下。

当时HMM的具体理论在准备阶段就大致地看了下,面试官很nice,没有很为难,理论的不记得那来实践的,就接着这个问题,问了HMM的几个要素,即:初始概率,状态转移矩阵,发射矩阵,这三个要素,然后我主要讲了下这三个要素的运算过程,提及了一下维特比算法。(这里当时准备的不充分,说的不是特别清楚,后来我去恶补了一下)

  1. 维特比算法其实是一种动态规划算法,动态规划算法通常用来解决什么问题,在HMM里是怎么使用的?

你可能感兴趣的:(自然语言处理,算法,面试,人工智能,机器学习)