NLP - 模型

 
 

目录

        • 1 关于Transformer,面试官们都怎么问?
        • 2 关于ELMO,面试官们都怎么问?
        • 3 关于BERT,面试官们都怎么问?
        • 4 关于GPT、XLNET的相关知识?
        • 5 关于FastText
        • 6 关于XLNet
        • 6 关于Transformer-XL
        • 6 其他内容

1 关于Transformer,面试官们都怎么问?

1.Transformer的结构是什么样的?
 
2.Transformer Decoder端的输入具体是什么?
 
3.Transformer中一直强调的self-attention是什么?self-attention的计算过程?为什么它能发挥如此大的作用?self-attention为什么要使用Q、K、V,仅仅使用Q、V/K、V或者V为什么不行?
 
4.Transformer为什么需要进行Multi-head Attention?这样做有什么好处?Multi-head Attention的计算过程?各方论文的观点是什么?
 
5.Transformer相比于RNN/LSTM,有什么优势?为什么?
 
6.Transformer是如何训练的?测试阶段如何进行测试呢?
 
7.Transformer中的Add & Norm模块,具体是怎么做的?
 
8.为什么说Transformer可以代替seq2seq?
 
9.Transformer中句子的encoder表示是什么?如何加入词序信息的?
 
10.Transformer如何并行化的?
 
11.self-attention公式中的归一化有什么作用?
 
12.transformer 为什么使用 layer normalization,而不是其他的归一化方法?

 
参考博客:
【1】https://blog.csdn.net/fengdu78/article/details/104629336
【2】https://zhuanlan.zhihu.com/p/82391768
【3】https://zhuanlan.zhihu.com/p/49271699
【4】transformer 为什么使用 layer normalization,而不是其他的归一化方法?

 
 

2 关于ELMO,面试官们都怎么问?

1.ELMo的基本原理是什么?
  ELMO采用了典型的两阶段过程,第一个阶段是利用语言模型进行预训练;第二个阶段是在做下游任务时,从预训练网络中提取对应单词的网络各层的Word Embedding作为新特征补充到下游任务中。
 
2.ELMo的训练过程是什么样的?损失函数是什么?
 
3.ELMo训练好了之后如何使用?
 
4.ELMo的优点是什么?ELMo为什么有效?
 
5.ELMo为什么能够达到区分多义词的效果?
 
6.ELMo把三种不同的向量叠加的意义是什么?这样做能达到什么样的效果?

参考博客:
【1】https://zhuanlan.zhihu.com/p/139840113
【2】https://zhuanlan.zhihu.com/p/82602015
【3】https://zhuanlan.zhihu.com/p/49271699
【4】https://zhuanlan.zhihu.com/p/46833276

 
 

3 关于BERT,面试官们都怎么问?

1、不考虑多头的原因,self-attention中词向量不乘QKV参数矩阵,会有什么问题?
2、为什么BERT选择mask掉15%这个比例的词,可以是其他的比例吗?
3、使用BERT预训练模型为什么最多只能输入512个词,最多只能两个句子合成?
4、为什么BERT在第一句前会加一个[CLS]标志?
5、Self-Attention 的时间复杂度是怎么计算的?
6、Transformer在哪里做了权重共享,为什么可以做权重共享?
7、BERT非线性的来源在哪里?
8、BERT的三个Embedding直接相加会对语义有影响吗?
9、Transformer的点积模型做缩放的原因是什么?
10、在BERT应用中,如何解决长文本问题?

参考博客:
【1】https://zhuanlan.zhihu.com/p/132554155
【2】https://zhuanlan.zhihu.com/p/46833276
【3】https://zhuanlan.zhihu.com/p/76714382

 
 

4 关于GPT、XLNET的相关知识?

【1】The Illustrated GPT-2 (Visualizing Transformer Language Models)
【2】图解GPT2 [翻译:The Illustrated GPT-2 (Visualizing Transformer Language Models)]
【3】语境嵌入研究综述
【4】OpenAI GPT2原理解读

 
 

5 关于FastText

使用词embedding而非词本身作为特征,这是fastText效果好的一个原因;另一个原因就是字符级n-gram特征的引入对分类效果会有一些提升 。

【1】fastText原理及实践

 
 

6 关于XLNet

使用词embedding而非词本身作为特征,这是fastText效果好的一个原因;另一个原因就是字符级n-gram特征的引入对分类效果会有一些提升 。

【1】fastText原理及实践

 
 

6 关于Transformer-XL

Transformer-XL(extra long)是为了进一步提升Transformer建模长期依赖的能力。它的核心算法包含两部分:片段递归机制(segment-level recurrence)和相对位置编码机制(relative positional encoding)。Transformer-XL带来的提升包括:1. 捕获长期依赖的能力;2. 解决了上下文碎片问题(context segmentation problem);3. 提升模型的预测速度和准确率。

【1】详解Transformer-XL
【2】https://www.cnblogs.com/pinard/p/7068574.html

 
 

6 其他内容

一、AI算法基础
1、样本不平衡的解决方法?
2、交叉熵函数系列问题?
与最大似然函数的关系和区别?
3、HMM、MEMM vs CRF 对比?
4、SVM和LR的区别与联系?
5、crf的损失函数是什么?
lstm+crf怎么理解?
6、GBDT vs Xgboost
7、评估指标f1和auc的区别是哪些?
8、sigmoid用作激活函数时,分类为什么要用交叉熵损失,而不用均方损失?
9、神经网络中的激活函数的对比?

二、NLP高频问题
1、word2vec和tf-idf 相似度计算时的区别?
2、word2vec和NNLM对比有什么区别?(word2vec vs NNLM)
3、 word2vec负采样有什么作用?
4、word2vec和fastText对比有什么区别?(word2vec vs fastText)
5、glove和word2vec、 LSA对比有什么区别?(word2vec vs glove vs LSA)
6、 elmo、GPT、bert三者之间有什么区别?(elmo vs GPT vs bert)
7、LSTM和GRU的区别?

三、其他算法问题
1、怎么进行单个样本的学习?
2、 决策树 bagging boosting adaboost 区别?RF的特征随机目的是什么?
3、transformer各部分怎么用?Q K V怎么计算;Attention怎么用?
4、HMM 假设是什么?CRF解决了什么问题?CRF做过特征工程吗?HMM中的矩阵意义?
5、说以一下空洞卷积?膨胀卷积怎么理解?什么是Piece-CNN?
6、怎么解决beam-search局部最优问题?global embedding 怎么做?
7、数学题:什么是半正定矩阵?机器学习中有什么应用?
8、卷积的物理意义是什么?傅里叶变换懂吗?
9、说一下Bert?
10、推导word2vec?
11、怎么理解传统的统计语言模型?现在的神经网络语言模型有什么不同?
12、神经网络优化的难点是什么?这个问题要展开来谈。
13、attention你知道哪些?
14、自动文章摘要抽取时,怎么对一篇文章进行分割?(从序列标注、无监督等角度思考)
15、在做NER任务时,lstm后面可以不用加CRF吗?
16、通过画图描述TextRank?
17、LDA和pLSA有什么区别?
18、Transformer在实际应用中都会有哪些做法?
19、讲出过拟合的解决方案?
20、说一下transforemr、LSTM、CNN间的区别?从多个角度进行讲解?
21、梯度消失的原因和解决办法有哪些?
22、数学题:贝叶斯计算概率?
23、数学题:25只兔子赛跑问题,共5个赛道,最少几次比赛可以选出前5名?24、数学题:100盏灯问题?

【1】NLP/AI面试全记录(持续更新,最全预训练总结)
【2】视频:HMM/CRF by李宏毅

你可能感兴趣的:(NLP,nlp)