《动手学》:文本预处理_课后作业

文本预处理

主要内容包括:

1.读入文本

2.分词

3.建立字典,将每个词映射到一个唯一的索引(index)

4.将文本从词的序列转换为索引的序列,方便输入模型

具体内容(附代码)链接:https://www.kesci.com/org/boyuai/project/5e42bd745f2816002ce96c45

代码讲解视频链接:伯禹学习平台


选择题

1.

下列哪一项不是构建Vocab类所必须的步骤:

A.词频统计,清洗低频词

B.句子长度统计

C.构建索引到token的映射

D.构建token到索引的映射

答案:B

句子长度统计与构建字典无关

2.

无论use_special_token参数是否为真,都会使用的特殊token是____,作用是用来____。

A.,在小批量中数据不等长时做填充

B.,标记句子的开始

C.,标记句子的结束

D.,表示未登录词

答案:D

你可能感兴趣的:(《动手学》:文本预处理_课后作业)