《动手学》:语言模型_课后作业

语言模型

一段自然语言文本可以看作是一个离散时间序列,给定一个长度为T的词的序列w1,w2,…,wT,语言模型的目标就是评估该序列是否合理,即计算该序列的概率:

P(w1,w2,…,wT).

本节我们介绍基于统计的语言模型,主要是n元语法(n-gram)。

具体内容(附代码)链接:https://www.kesci.com/org/boyuai/workspace/project

代码讲解视频链接:伯禹学习平台


选择题

1.

下列关于n元语法模型的描述中错误的是:


答案:C

2.

包含4个词的文本序列的概率为P(w1,w2,w3,w4)=P(w1)P(w2|w1)P(w3|w1,w2)P(w4|w1,w2,w3)P(w1​,w2​,w3​,w4​)=P(w1​)P(w2​∣w1​)P(w3​∣w1​,w2​)P(w4​∣w1​,w2​,w3​),当n=3时,基于n−1阶马尔科夫链,该概率表达可以改写为:

A. P(w1​,w2​,w3​,w4​)=P(w1​)P(w2​)P(w3​)P(w4​)

B. P(w1​,w2​,w3​,w4​)=P(w1​)P(w2​∣w1​)P(w3​∣w2​)P(w4​∣w3​)

C. P(w1​,w2​,w3​,w4​)=P(w1​)P(w2​∣w1​)P(w3​∣w1​,w2​)P(w4​∣w2​,w3​)

D. P(w1​,w2​,w3​,w4​)=P(w1​)P(w2​∣w1​)P(w3​∣w1​,w2​)P(w4​∣w1​,w2​,w3​)

答案:C

由2阶马尔科夫链,从第三个词开始每个词只与其前两个词有关。

3.

下列关于随机采样的描述中错误的是:

A.训练数据中的每个字符最多可以出现在一个样本中

B.每个小批量包含的样本数是batch_size,每个样本的长度为num_steps

C.在一个样本中,前后字符是连续的

D.前一个小批量数据和后一个小批量数据是连续的

答案:D

随机采样中前后批量中的数据是不连续的。

4.

给定训练数据[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10],批量大小为batch_size=2,时间步数为2,使用本节课的实现方法进行相邻采样,第二个批量为:

A. [5, 6]和[7, 8]

B. [2, 3]和[7, 8]

C. [4, 5]和[6, 7]

D. [2, 3]和[6, 7]

答案:B

因为训练数据中总共有11个样本,而批量大小为2,所以数据集会被拆分成2段,每段包含5个样本:[0, 1, 2, 3, 4]和[5, 6, 7, 8, 9],而时间步数为2,所以第二个批量为[2, 3]和[7, 8]。

你可能感兴趣的:(《动手学》:语言模型_课后作业)