首先来段简单的自我介绍:2021届硕士,硕士期间未有实习经历,本科大三有过一次实习,小公司,可以忽略。本人投递的是腾讯暑期实习:技术研究-自然语言处理方向。
腾讯校招开启的比较早,提前批在3.5号就已经开启了,我算是赶上了最早的那一批。本次的算法岗竞争同往年一样,也蛮激烈的,我亲眼看着,从投递最初NLP岗的投录比为3:1,面试时升到了4:1,最后完成流程后变为了5:1,NLP方向相对好些,CV、机器学习等竞争更大,CV 9:1,ML 10:1,听师兄描述,算法岗到后面会到20:1都可能,所以还是要趁早准备。
本人的面试流程大概如下,3月1日找的内推,收到完善简历的链接,在官网投了简历,当时选择的意向BG是WXG,3月2日上午收到HR小姐姐电话,说她们是PCG部门,问我面不面,我大概询问了PCG的主要业务,得知是社交类的业务居多,然后就拒绝了,说还是优先考虑面WXG那边,于是HR小姐姐便说帮我转投。
这点很诡异,官网的显示是,校招从3.5日开始提前批,但是实际上在这之前应该就开始筛简历并且面试了。
在腾讯,据说简历如果被捞了,如果同意面试简历就会被锁定,从简历池中提到面试的部门,这样其他的BG就看不到你的简历了,然后走官方流程,当时不知道,主要是考虑WXG当时更符合我的预期吧。
3月4日,再次收到HR电话,官网当时状态是未发起面试,这次是直接约面试时间,问我啥时候有空,约了3月6日(在此之前大致准备了下算法题,但是没有仔细准备,所以隔了两天,再充分准备下)。3月6日下午,参加了电话面试,3.9,查公众号状态进入复试。期间等待了一段时间,3.15日收到二面电话,并且是当天面试,于是当天晚上8点面试,到9点左右结束。第二天,官网流程变为HR面,17日下午收到面试邀请链接,约20.40的视频面试,20日状态更新为已完成。
一面个人感觉面的不是很好,虽然大部分问题答出来了,但是还是有不清晰的地方,而且有些问题没有答出来,甚至以为会挂,一面时间持续了大概有1小时2分钟。面试形式:电话面试。
自我介绍之前大致准备了下,就主要介绍个人情况,我主要是按照简历上的内容,大概介绍了下,时间在3分钟左右,但是个人感觉亮点不够突出,这点大家可以再发挥。
2. 研究生阶段最有挑战的项目是什么?
我觉得这是我的一面面试官比较关注的点,这点聊了很久。因为我们组的主要方向是智能化软件测试,或者说智能软件工程,然后介绍了最近研究的一个项目。大概介绍了这个项目的动机,然后传统的一些研究方法,以及我们准备采用的一些方法(NLP相关)。
3. 对于这个项目,传统的方法是怎么样的?
介绍了在软件测试领域大致的做法,主要是机器学习相关的内容了,即人工抽取的一些特征,已经使用的方法。
4. 列举下这个任务在传统用法的一些典型特征。
我大概列举了几个,感觉这里的案例说的不是很清楚,因为那些工作主要不是我在做,我只是对这些工作有过一些了解。
5. 看你简历里有QA相关的论文,大概介绍下里面用的方法。
主要介绍了这篇论文用的模型,以及方法,细节面试官没有深究。
6. 你在这篇论文里用到的是GloVe,为何不用word2vec,或者说word2vec与GloVe有什么区别?
我大致说了下他们的区别:word2vec是NNLM的一个较为典型的代表,其利用了DNN的方法来训练获取到词向量,而且词向量是中间产物,这个思路最早是Bengio提出,Google Brain提出的word2vec让词向量火了起来。而GloVe是采用词频统计信息,利用一些数学方法逐步优化得来,它没有神经网络的结构,所以词向量训练的速度相对更快。(这里当时不记得具体的公式推导了,原论文我倒是看过,但是当时记得不清了,实际上GloVe是词共现矩阵+类SVD的方法)
7. 你清楚word2vec吗,大致描述下word2vec的结构以及训练方法。
清楚(好刚的我,面完发现答的有瑕疵),从宏观上描述了DNN的一个结构,从输入(大致带过分词,词表构建,one-hot等过程),到隐层,到输出层。然后详细讲了两种训练结构,即CBoW和Skip-Gram,但是当时这两种方法被我说反了。(当时并无觉察)讲完两种训练方法后,大致介绍了下训练时候词表大小过大,输出层过大的优化方法,即:hierarchical softmax和negative sampling。
8. 现阶段NLP的研究相对CV发展还是很缓慢,你认为是什么原因?
自然语言存在变化性,和不确定性,即语义的抽取对神经网络来说是很难的,在英文,人脑可以通过词形来建立词与词之间的关系,但是语义不确定性很强,比如歧义,一词多义,词序等等都会影响语义。而CV的特征相对固定,如图像处理,filter提取的特征一般是某种轮廓或边缘特征,这些特征对于特定的物体都是固定的,所以游戏账号购买效果会更好。(说了很多废话,不清楚,其实总结就是感知智能和认知智能,感知智能很容易实现,即CV,而认知智能有很多挑战,即NLP)
9. 你知道隐马尔可夫模型吗,大概介绍下。
当时HMM的具体理论在准备阶段就大致地看了下,面试官很nice,没有很为难,理论的不记得那来实践的,就接着这个问题,问了HMM的几个要素,即:初始概率,状态转移矩阵,发射矩阵,这三个要素,然后我主要讲了下这三个要素的运算过程,提及了一下维特比算法。(这里当时准备的不充分,说的不是特别清楚,后来我去恶补了一下)
10. 维特比算法其实是一种动态规划算法,动态规划算法通常用来解决什么问题,在HMM里是怎么使用的?
大致描述了下动态规划的最优解问题,然后结合HMM的迭代过程说了一些。(后来仔细看了下,感觉面试官应该还是想听到HMM的理论,因为HMM推导会用到它里面的假设,然后得到递推关系,就可以分解为子问题,利用维特比算法求解)
11. 快结束时,来道算法题吧,在一个敏感词过滤的场景下,要怎么在一个字符串里找出敏感词的位置?
当时懵了,没想出来,只说了一个暴力解。(面试官应该是想听到KMP一类的算法)
12. 算法复杂度是多少?
大概算了下,面试官和蔼的说,没想到也没关系。他还曾循循善诱,从多个敏感词的词表简化到一个词,我对不起他。
13. 你实习的时间实验室有没有什么要求,能实习吗?
没要求,当然能。(就这意思)
14. 你还有什么问题要问我的吗?
面试官很和蔼地介绍了面试的BG是TEG,部门是AI产品部。大致介绍了下实习生的培养方式和考核方式。
面试官大概介绍了周会情况、周报情况,并说明疫情期间,线上工作,可能会要求写日报,方便查看工作进度之类,我表示理解。
时长:1 h 2 min,结束,表示感谢,感谢不杀之恩!
二面也是技术,但是和初面不同的是,二面没有那么关注项目了(但是也是从项目开始问),比较注重理论层面。自初面结束之后,有一周时间的空档,我恶补了基础理论知识,首先是对初面的知识查漏补缺,再刷了剑指offer,捡起了李航《统计学习方法》,基本的机器学习算法以及推导。面试形式:电话面试。
个人发现,NLP岗位,很多面试官喜欢问:HMM、CRF、LDA这些知识。
介绍了下我的这个项目的模型,以及用的一些方法。
2. 了解,那么获取的词向量你是怎么获取的?
从word2vec中获取,然后作为模型的输入(讲了一些实验操作)。
3. 你的词向量自己训练过吗?
我讲了很多废话。
4. 你的词向量自己训练过吗?
没有。(面试官心态:早说不就完了)
5. 你知道几种词向量的方法?
这里说的很详细,我带了一下传统的,如IDF、词袋、LDA,GloVe等偏统计方法,然后具体描述了NNLM下的模型:word2vec(和一面一样,介绍的比较详细),character level CNN Model(英文适用,中文不太适用);转向RNN结构:传统RNN将序列压缩至向量的过程,LSTM解决RNN长依赖模型,双向语言模型(BiLSTM);根据双向语言模型,导出了ELMo以及内部细节;主流热门的Transformer系列:Transformer内部细节详细讲了一下,然后转向GPT(Transformer Decoder,单向模型,和之前的双向模型做了个区分),详细说了一下,然后是BERT(Transformer Encoder,双向语言模型,和GPT的对比和ELMo的相同点,以及区别)详解。
如果觉得翻译不好的话,建议论文阅读原文[ ]。
6. n元模型了解吗,如果共现频率为零怎么解决?
大致讲了下ngram与n阶马尔可夫。共现为0的解决方案有点忘记了,但是提了一下在GloVe中有提及这个情况的解决方案,但是我也忘记了。
7. 你认为为什么BERT能达到这么好的效果?
我认为BERT的效果很大程度上取决于Transformer的一个Attention机制,即Self-Attention,正如原文标题《Attention is all you need》,注意力机制很好地找出了文本序列的语义相关度,在语义层面上,能够提取到更关键的特征,比如理解序列中的指示代词。其次是Transformer的结构优势,没有RNN的梯度消失问题,理论上支持任意长度的文本,用了position embedding(区别说明了下Transformer的三角函数和BERT的position embedding的不同)。
8. 注意力机制你了解多少,或者说你了解哪几种?
注意力机制最初是在CV领域用的比较多,其次被应用到了NLP领域,并且取得了较好的效果。我主要研究NLP比较多,CV了解不深,所以只了解NLP的两种attention。最早的Attention是在seq2seq中提出(或者说Encoder-Decoder模型),讲了下这个模型注意力机制的细节,以及注意力获取的方式,文献名我忘记了,原始的论文应该是NMT相关场景。然后讲了BERT的Self-Attention细节,比如Q、K、V这些。
这里到BERT想要继续向后拓展的时候,被面试官打断了。
9. LSTM你了解吗,它的大致结构是怎么样的?
大概描述了下它的三个门。
10. 假设输入是$x$维,LSTM的参数量为多少?
当时着急了,没怎么算出来,事后算了下,还挺简单的。
面试官:你下去可以再确认下。
11. 正则化你用过吗,有哪些正则化方法?
用过,我了解的有L1、L2正则化,讲了很多废话。。。
尝试讲L1、L2的细节的时候,被打断了。
12. 还有其他的吗?
有,比如Dropout、Batch Normalization不知道算不算,但是它能达到正则化的效果。
13. 文本相似性一般有那几种度量方法?
之前项目里有过这个相似性的问题,我不知道面试官具体想要的点在哪,就先说了下VSM的基础知识,他又再次深入地问了下,可以用什么模型。
然后我大致说了下常用的方法,比如最简单的word2vec加权,然后用VSM,RNN得到固定维度的向量后,用VSM,以及这一系列的方法。然后补充说了,利用深度学习转化为二分类的问题的思路和方法,以及BERT中的使用,因为BERT是有做文本相似性任务的。 深度学习之外,还有很多方法,比如主题模型、LDA之类的,我当时没想到,面试完后想到了。
14. 序列标注做过吗?
没有。
15. HMM和CRF有什么区别?
之前恶补了HMM的理论,详细讲了HMM,但是CRF只有大概了解,就没仔细说。 HMM的2个假设,正向反向算法(递推式推导),EM算法,维特比算法。CRF打破了两个假设,所以效果更好。(说的比较大概,也和面试官说了这部分不是很了解,只知道个大概)
16. 传统机器学习算法了解吗,比如XGBoost和SVM这些?
了解。
17. 那你讲一下SVM吧。
讲了下SVM的推导:hard margin, soft margin, 几何距离、函数距离,最优化,拉格朗日乘子法,对偶问题,KKT条件,损失函数,惩罚系数等。
18. 为什么SVM求解要求解他的对偶问题?
为了使原问题更好求解,因为原问题不好求解,引入对偶问题之后就更好求解了。
面试官:哈哈哈,就是因为这个?好吧。
其实,是因为对偶问题可以降低原问题的计算复杂度。
好了,结束,没让我问问题,当时是晚上8点开始面,面试官也忙,我表示感谢,他就匆匆挂电话了,时长:50 min。
HR面就不涉及技术了,主要是和HR各种聊,在这之前,看网上很多面经,都说HR面还是很多坑的,即有套路,但是好在面我的HR小哥哥比较真实,没有过分的套路我。面试形式:视频面试(腾讯会议)。
致谢,结束,时长:20-30 min。
恕我直言,17号面完HR,忐忑无比,开始日常刷流程,直到20日晚才刷到已完成。开始牛客找组织,看有没有已完成,但是没收到offer的同学 (没办法,太恐怖了,眼看着3:1到我结束面试,已经5:1了,慌张)。然后开始关注内部状态,⾮非常感谢⽜牛客⽹网的腾讯⼤大⽜牛们帮忙。经历5个⼯工作⽇日 后,内部状态变更更为:实习已录⽤。
技术岗,刷算法题!时间来不及就先剑指offer 66道,相对简单,多刷几遍,然后做leetcode。
算法岗,基础机器学习算法:SVM、Bayes、DT、Clustering、boosting(Adaboost、GBDT)、bagging(RF)、LR。
项目,一定要熟悉,不熟悉的就别往简历上写。说不清楚的会被喷的很惨,一定会被diss,甚至会质疑简历真实性。简历上写了的就要再次复盘,要了然于胸,不要忘记了然后讲不明白。
论文,要熟悉所在领域的一些经典论文模型,里面的细节也要清楚,最好读原文。
NLP的经典:HMM、CRF、LDA,我在很多次面试都碰到这些,重点圈出,个人遭遇,视情况准备吧。
HR套路,虽然面我的HR没怎么 套路我,但是HR毕竟还是要尽量选择稳定的人,所以HR面还是要长心眼,对某些敏感问题的态度要坚决,宗旨:我爱XX公司,我一定去,工作地点不挑,实习时间能满足。
预祝各位能够斩获理想offer,加油!