[nlp]问答摘要与推理 : 构建vocab词典

[nlp]问答摘要与推理 : 构建vocab词典_第1张图片

P.S.代码之后传到github , blog里只总结方法。

  1. 数据集路径
  2. 载入数据 (这里可以封装函数def load_dataset)
  3. 空值处理
  4. 无用字符清理
  5. 切词
    1. 分词方法选择
    除了jieba分词,还有哈工大的等。下为jieba分词的例子,可以使用jieba.load_userdict(‘user_dict.txt’)载入自定义词典(一词一行),避免被分词。[nlp]问答摘要与推理 : 构建vocab词典_第2张图片
    2.切词后再清理
sentence='2010款的宝马X1,2011年出厂,2.0排量'

你可能感兴趣的:(nlp)