从词向量到Bert——简单作业题+讲解

习题

1.关于Word2vec,下列哪些说法是正确的()
(A) Word2vec是有监督学习
(B)Word2vec利用当前特征词的上下文信息实现词向量编码,是语言模型的副产品
(C)Word2vec不能够表示词汇之间的语义相关性
(D)Word2vec是一个三层的深度神经网络模型

2.Transformer 结构中不包括以下哪个内容?
(A) Encoder-Decoder
(B) Self-Attention
(C) Add & Norm
(D) Single-Head Attention

3.Transformer 的优点不包括以下哪点?
(A) 每层都计算复杂度
(B) 用最小的序列化运算来测量可以被并行化的计算。
(C) 从1到n逐个进行计算一个序列长度为n的信息要经过的路径长度
(D) Self-attention可以比RNN更好地解决长时依赖问题

4. Bert模型输入不包括以下哪些内容
(A) 文本向量
(B) 位置向量
(C) 字向量
(D) 时间

5. 不考虑多头的原因,self-attention中词向量不乘QKV参数矩阵,会有什么问题?

答案及解析

1.答案:B 解析:A,word2vec利用的是中心词预测周围词或者周围词预测中心词的方法,可以看作是自监督,是直接从一段文本构造而来,原始数据是没有对应的标签的。C,由于语义相近的词通常具有类似的上下文,所以word2vec是可以学习到语义相关性的。D,word2vec包括一个embedding层,然后就是输出层,不算做深度神经网络

2.答案:D

3.答案:C 解析:A选项每层的计算复杂度为O(n2*d),n 代表序列长度,d代表embedding维度,而RNN的复杂度为O(n*d2),通常d大于n所以通常transformer每层的计算复杂度小于RNN。B,由于序列中每个token之间的计算并没有时间先后的依赖所以可并行。D,self-attention两个不连续的token之间可以直接通过query和key产生交互,并不需要像RNN那样只能一步步传递过来,所以可以更好地解决长时依赖问题。C选项的解释应该是说,比如在 RNN 中,两个 token 之间的交互需要经过序列一步步过来,而在 self-attention 中两个位置的token直接通过点积计算,这个信息的传递路径就很短

4.答案:D 解析:BERT的输入包括三种embedding,token embedding、position embedding、segment embedding,时间步的信息由position embedding控制。

5.答案:解析:不乘以QKV参数那么QKV全部等于输入的embedding,整个模型的参数基本只有embedding和Position-wise Feed-Forward部分的参数,模型表达能力大大下降,结果可能会比较差;具体来说,qk一致会使得自身的比重非常大,当前词很难较好的注意到其他词,对于词表征的学习产生不利影响。

本部分习题都是参考开课吧NLP训练营的,欢迎大家讨论哟

你可能感兴趣的:(NLP)