2020-02-14:伯禹打卡笔记

伯禹 文本预处理课程学习

文本预处理

一般的文本预处理步骤:

分词(中英文不同,中文分词难度大一些,有一些分词工具:spaCy、NLTK、jieba等,还可以在分词之后去除停用词等,根据语料及使用场景决定)

词的向量表示(One-hot(资料中的词典),Word2Vec,可以参考https://www.cnblogs.com/MartinLwx/p/10005520.html。

语言模型

文本可以看做一个词的序列,语言模型的目标就是评估该序列是否合理,也就是条件概率​来表示文本是否合理。

w为一个单词,P的计算可以用相对词频计算:

P(w_1|w_2)=\frac {n(w_1,w_2)}{n(w_1)}​

n元语法(n-gram)

当前单词的预测基于前面n个单词,例如当n=2时:

时序数据的采样问题

n>2时,n元语法存在大量重合样本,可以采用更加高效的采样方式:随机采样,相邻采样

你可能感兴趣的:(2020-02-14:伯禹打卡笔记)