面经 | NLP算法岗(腾讯)

​今年腾讯大部分hc留给提前批实习转正,建议尽早准备。

提前批投递时可以自主选择部门,有些部门的hc几乎全都留给实习生转正,建议无法实习的童鞋们,提前做好调研,避开这些部门。

部门选错了就直接凉了哦(手动微笑脸)

面经 | NLP算法岗(腾讯)_第1张图片

体验总结

a. 面试内容很全面,会涉及相关领域的前沿工作,并且会问的相当深入

b. 项目问的非常细节,我们的项目面试官基本都有了解,不会出现面试官不懂项目的情况

c. 不会问特别难的算法(比如线段树,公共祖先),感觉腾讯更注重基础

 

一面 

  • 自我介绍+项目

  • 序列标注常见算法有什么

    • 之前常见的序列标注问题的解决方案都是借助于HMM模型,最大熵模型,CRF模型

  • CRF HMM 区别

    • HMM是有向图,CRF是无向图

    • HMM是生成式模型(要加入对状态概率分布的先验知识)

    • CRF是判别式模型(完全数据驱动)

    • CRF解决了标注偏置问题,去除了HMM两个不合理的假设等等。

  • 多分类序列标注怎么做

  • 如何构建想要的词表

  • 指针与引用的区别

  • TransformerXL是什么?为了什么而提出

    • XL是“extra-long”的意思,即Transformer-XL做了长度延伸的工作;

    • Transformer规定输入大小为512,原始的输入需要进行裁剪或填充,即将一个长的文本序列截断为几百个字符的固定长度片段,然后分别处理每个片段。

    • 这存在着文章跨片段依赖不能学习到的问题,也限制了长距离依赖。为了解决这一问题,Transformer-XL被提出。

    • 那么Transformer XL进行了什么改进呢?

    • 使用分段RNN(segment-level recurrence mechanism)且存储上一次处理的片段信息;使用了相对位置编码方案(relative positional encoding scheme))

  • BERT ELMO XLNET 区别

    • 模型结构

    • 自回归和自编码语言模型在生成方面的问题

    • XLNet维持了表面看上去的自回归语言模型的从左向右的模式,这个Bert做不到。这个有明显的好处,就是对于生成类的任务,能够在维持表面从左向右的生成过程前提下,模型里隐含了上下文的信息。

  • 一道编程题:全排列,一般难度

 

 

二面 

  • 自我介绍+项目 

  • 项目 

  • 项目现在再看可以怎么改进

  • 项目的学习率怎么调的

  • 发没发论文,毕业前是否有发论文的打算

  • 根据项目引申了很多

     

 

三面 

  • 自我介绍+项目 

  • BERT warm-up 

  • BERT都有什么改进

  • ERNIE 怎么做的

    • 把bert的单字mask改为词mask,直接对语义知识进行建模,增强了模型语义表示能力。

    • 引入多源数据语料进行训练;

    • 引入了论坛对话类数据,利用 DLM(Dialogue Language Model)建模 Query-Response 对话结构,将对话 Pair 对作为输入,引入 Dialogue Embedding 标识对话的角色,利用 Dialogue Response Loss 学习对话的隐式关系,进一步提升模型的语义表示能力;

    • 通过在自然语言推断、语义相似度、命名实体识别、情感分析、问答匹配 5 个公开的中文数据集合上进行效果验证,ERNIE 模型相较 BERT 取得了更好的效果。

    • 继1.0后,ERNIE英文任务方面取得全新突破,在共计16个中英文任务上超越了BERT和XLNet, 取得了SOTA效果。

  • ERNIE 2.0相对于1.0有什么改进

    • 百度提出可持续学习语义理解框架 ERNIE 2.0。该框架支持增量引入词汇( lexical )、语法 ( syntactic ) 、语义( semantic )等3个层次的自定义预训练任务,能够全面捕捉训练语料中的词法、语法、语义等潜在信息。

  • 算法题:

    • n分解成最少多少个平方数的和  

    • n个串的最大公共前缀

    • 树后序遍历非递归(要求空间时间复杂度,并不断改进)

 

本文来自程序媛驿站,未经授权不得转载.

面经 | NLP算法岗(腾讯)_第2张图片

 

你可能感兴趣的:(面经)