Raki的nlp-begginer 提问

task1

logistic回归的公式?

Raki的nlp-begginer 提问_第1张图片

softmax和logistic的异同点?

都用于分类,logistic是二分类,softmax是多分类,在类别为2时两者等价

logistic sigmoid函数的优缺点

优点:

1. 函数取值范围为(0,1),具有概率意义
2. 求导简单
3. 单调递增

缺点:

1. 非0中心化,只有取值在0附近才高度敏感,广泛的饱和性

softmax的特点

  1. 相比argmax,它是可导的函数
  2. Raki的nlp-begginer 提问_第2张图片

解释下bag of words 和 n-gram,有什么缺陷

  1. 词袋模型Raki的nlp-begginer 提问_第3张图片

  2. N-Gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。

  3. 每一个字节片段称为gram,对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的向量特征空间,列表中的每一种gram就是一个特征向量维度。

  4. 该模型基于这样一种假设,第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram

交叉熵损失的作用,为什么不选择最小均方误差或者绝对值误差?

交叉熵用于衡量两个分布的差异,回归任务更适合最小均方误差

task2

RNN,LSTM,GRU的结构,为什么可以缓解长程依赖问题?

Raki的nlp-begginer 提问_第4张图片

Raki的nlp-begginer 提问_第5张图片
Raki的nlp-begginer 提问_第6张图片
Raki的nlp-begginer 提问_第7张图片
Raki的nlp-begginer 提问_第8张图片Raki的nlp-begginer 提问_第9张图片

word embedding?Word2Vec,GloVe,还知道其他的词表征方式吗?(textrank,tf-idf,LSA,pLSA,ELMo,GPT,fastText,Bert,LDA)

史上最全词向量讲解(LSA/word2vec/Glove/FastText/ELMo/BERT)

task3

你对注意力机制的理解?Raki的nlp-begginer 提问_第10张图片

你输入一句话“春季男装男鞋”,这句话就是Q,你想要搜索而输入的东西,而K则是“春季男装男鞋”这句话里的关键词“春季、男装、男鞋”等,根据这个K搜索出来的结果就是V

注意力机制是一个加权表示,自注意力用自己的所有权重加权表示自己

软性注意力,硬性注意力

Raki的nlp-begginer 提问_第11张图片

Raki的nlp-begginer 提问_第12张图片

为什么缩放点积模型要除根号D_k?

在这里插入图片描述

textRNN?

卷积神经网络的核心思想是捕捉局部特征,对于文本来说,局部特征就是由若干单词组成的滑动窗口,类似于N-gram。卷积神经网络的优势在于能够自动地对N-gram特征进行组合和筛选,获得不同抽象层次的语义信息

pooling层的作用是什么,average/sum pooling有什么特点

  1. 减小计算量
  2. 减小内存消耗
  3. 提高感受野大小
  4. 如果下一网络层的参数数量与特征图大小相关(例如全连接层),pooling可以减小参数个数
  5. 增加平移不变性

mean-pooling,即对邻域内特征点只求平均,max-pooling,即对邻域内特征点取最大。根据相关理论,特征提取的误差主要来自两个方面:

  1. 邻域大小受限造成的估计值方差增大
  2. 卷积层参数误差造成估计均值的偏移

一般来说,mean-pooling能减小第一种误差,更多的保留图像的背景信息,max-pooling能减小第二种误差,更多的保留纹理信息。Stochastic-pooling则介于两者之间,通过对像素点按照数值大小赋予概率,再按照概率进行亚采样,在平均意义上,与mean-pooling近似,在局部意义上,则服从max-pooling的准则

task4

CRF和HMM的异同点?(判别,生成)

如何用简单易懂的例子解释条件随机场(CRF)模型?它和HMM有什么区别?
如何轻松愉快地理解条件随机场(CRF)?

维特比算法

如何简单地理解维特比算法(viterbi算法)?

F1,精度,召回率?

Raki的nlp-begginer 提问_第13张图片
Raki的nlp-begginer 提问_第14张图片
Raki的nlp-begginer 提问_第15张图片

AUC, ROC曲线?

【面试看这篇就够了】如何理解ROC与AUC

了解其他类型的NER任务吗?

平面NER,嵌套NER,不连续NER

task5

困惑度的公式,你怎么理解困惑度

惑度实际上是计算每一个单词得到的概率导数的几何平均,因此困惑度可以理解为平均分支系数(average branching factor),即模型预测下一个单词时的平均可选择的单词数量
Raki的nlp-begginer 提问_第16张图片Raki的nlp-begginer 提问_第17张图片

有什么更好的评价语言模型的准则吗?

交叉熵
BLEU
Raki的nlp-begginer 提问_第18张图片

了解GPT等大模型吗,为什么表现好

GPT-3参数规模已经接近人类神经元的数量,这说明它的表示能力已经接近人类了。但是它有个阿喀琉斯之踵——没有常识

综合问

实验结果如何,在metric上的得分,有没有尝试过别的模型,有什么改进的思路吗?

数据增强
选择更好的模型
调参

使用了什么损失函数,什么损失函数适用于什么任务?

交叉熵损失 - 多分类
均方误差 - 回归

使用了什么优化器,说一下各种优化器的原理

mini-batch SGD
Adam

使用了什么正则化方法,有哪些正则化方法?为什么可以起到正则化作用?

  1. L1,L2正则化,L1会导稀疏特征,L2会将权重往原点拉

  2. 梯度剪裁,防止梯度过大的时候,参数一次性被“发射”出去很远,大幅度更新

  3. 提前停止,当验证集上metric得分不再上升的时候,提前停止可以防止模型过拟合

  4. dropout,Raki的nlp-begginer 提问_第19张图片

  5. 标签平滑
    Raki的nlp-begginer 提问_第20张图片

过拟合欠拟合怎么解决?

过拟合:

  1. 增加正则化
  2. 减少模型参数
  3. 增加训练数据
  4. 对数据进行清洗,去噪

欠拟合:

  1. 增加数据量
  2. 数据增强
  3. 扩充模型容量
  4. 训练更多个epoch

验证集上的得分不再提高怎么办,继续训练会发生什么?

过拟合

了解transformer吗?bert?gpt?bert的衍生家族?

  1. Transformer论文逐段精读【论文精读】
  2. BERT 论文逐段精读【论文精读】
  3. GPT,GPT-2,GPT-3 论文精读【论文精读】

还知道NLP有哪些任务吗?

文本分类,序列标注,文本匹配,阅读理解,文本摘要,机器翻译,文本生成

有过科研经历吗?对科研有什么看法

各显神通

每个模型的结构,原理

各显神通

你可能感兴趣的:(nlp-beginner,NLP,机器学习,深度学习,人工智能,神经网络,自然语言处理)