秋招面试题(NLP)总结5. 预训练模型

零. 词向量

  1. 词向量 onehot的缺点 word2vec,glove,elmo,bert区别
  2. 如何判断两个词相似
  3. Fasttext原理,相对于word2vec有什么优势
  4. word2vec的训练过程word2vec是有监督的还是无监督的?讲了word2vec,层级softmax和负采样这些
  5. Word2vec的训练方式,那种更好,CBOW模型和skipgram模型,霍夫曼树,负采样等等
  6. LDA的词表示和word2vec的词表示有什么区别word2vec 负采样如何做到的
  7. 你了解哪些词向量生成方式,每一种是怎样做的,Word2vec,tf-idfn_gramGlove,Fasttext
  8. Fasttext 原理,为什么用skipgram不用cbow,采样怎么做到,公式是什么?
  9. Fasttext原理,cbow和skipgram的区别,分层softmax和負采样,負采样的采样原理,为什么要这样采样,Fasttext哈希规则,怎么把语义相近的词哈希到一个桶里。
  10. Fasttext怎么做分类的,词向量用什么训练的,维度多大 Fasttext和word2vec的区别
  11. Fasttext的过程FastText n-gram 内存不足怎么办?
  12. jieba怎么用的,gensimhanlp涉及的算法(double-trie),考察常用的分词算法
  13. Glove的推导过程
  14. 因果词向量的应用场景
  15. 什么情况下需要将连续特征离散化--- One-hot
  16. 稀疏词向量 用skip-gram还是cbow训练好,请说出理由

一. ELMo

  1. BERT 和 ELMO 的区别

二. Bert

  1. BERT细节介绍,与GPT、ElMo比较。
  2. Bert, XLNet, Roberta, AlBert的区别
  3. bert mask,cls等比较详细的
  4. 分类损失函数都有哪些
  5. word2vecbert区别,然后损失函数(负采样,哈夫曼softmax
  6. Bert的两种输出
  7. 为什么人工智能在图像里应用落地更好,在nlp不行。谈谈你的看法
  8. Bert掩码如何实现
  9. BERT为什么只用TransformerEncoder而不用Decoder
  10. 微软 UniLM 主要为解决什么问题提出的?三个子模型分别是什么?
  11. 谈一谈模型压缩的相关知识三大角度:蒸馏,剪枝,量化。
  12. 剪枝与正则化的联系
  13. 结构化剪枝和非结构化剪枝
  14. 介绍预训练语言模型 ELMoBERTTransforler-XLXLNETERNIERoBERTaALBERTELECTRA。。。笔者从BERTmask LM以及QA任务出发讲解了BERT后续各大预训练的改进
  15. 能否描述下Bert的分词方法,如何实现WordPiece

你可能感兴趣的:(秋招)