语言模型
一段自然语言文本可以看作是一个离散时间序列,给定一个长度为T的词的序列w1,w2,…,wT,语言模型的目标就是评估该序列是否合理,即计算该序列的概率:
P(w1,w2,…,wT).
本节我们介绍基于统计的语言模型,主要是n元语法(n-gram)。
具体内容(附代码)链接:https://www.kesci.com/org/boyuai/workspace/project
代码讲解视频链接:伯禹学习平台
选择题
1.
下列关于n元语法模型的描述中错误的是:
答案:C
2.
包含4个词的文本序列的概率为P(w1,w2,w3,w4)=P(w1)P(w2|w1)P(w3|w1,w2)P(w4|w1,w2,w3)P(w1,w2,w3,w4)=P(w1)P(w2∣w1)P(w3∣w1,w2)P(w4∣w1,w2,w3),当n=3时,基于n−1阶马尔科夫链,该概率表达可以改写为:
A. P(w1,w2,w3,w4)=P(w1)P(w2)P(w3)P(w4)
B. P(w1,w2,w3,w4)=P(w1)P(w2∣w1)P(w3∣w2)P(w4∣w3)
C. P(w1,w2,w3,w4)=P(w1)P(w2∣w1)P(w3∣w1,w2)P(w4∣w2,w3)
D. P(w1,w2,w3,w4)=P(w1)P(w2∣w1)P(w3∣w1,w2)P(w4∣w1,w2,w3)
答案:C
由2阶马尔科夫链,从第三个词开始每个词只与其前两个词有关。
3.
下列关于随机采样的描述中错误的是:
A.训练数据中的每个字符最多可以出现在一个样本中
B.每个小批量包含的样本数是batch_size,每个样本的长度为num_steps
C.在一个样本中,前后字符是连续的
D.前一个小批量数据和后一个小批量数据是连续的
答案:D
随机采样中前后批量中的数据是不连续的。
4.
给定训练数据[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10],批量大小为batch_size=2,时间步数为2,使用本节课的实现方法进行相邻采样,第二个批量为:
A. [5, 6]和[7, 8]
B. [2, 3]和[7, 8]
C. [4, 5]和[6, 7]
D. [2, 3]和[6, 7]
答案:B
因为训练数据中总共有11个样本,而批量大小为2,所以数据集会被拆分成2段,每段包含5个样本:[0, 1, 2, 3, 4]和[5, 6, 7, 8, 9],而时间步数为2,所以第二个批量为[2, 3]和[7, 8]。