中文文本分类

手把手带你做一个文本分类实战项目(模型+代码解读)

https://www.bilibili.com/video/BV15Z4y1S7aR/?spm_id_from=333.788.recommend_more_video.-1&vd_source=c47fbb8166930edc486d8fdc405bf569

中文文本分类_第1张图片
中文汉字对应的数字索引
之后对应的数字索引
之后找到tokn embedding的东西

1、模型预处理
2、模型构建
3、损失函数构建

词袋模型

中文文本分类_第2张图片

我们得到了单词的向量表示
那么我们如何得到文本的向量表示
再所有的词出现变为0

中文文本分类_第3张图片

词袋模型的问题在哪里?

词袋模型也有一种表示叫做one-hot表示
我和吃,吃和饭,我和饭这两个词之间的距离是一样的,但实际上是不一样的,这个就是表达的意思是缺失的。

1、维度会很大

词表是2万个字

one-hot来表示

2、信息表达缺失

词向量:每个维度都有值,维度可控
中文文本分类_第4张图片
每一个索引对应一个向量

词向量表格怎么来?

(1)先用模型学出来,再放到文本分类模型中去
中文文本分类_第5张图片
(2) 随机初始化,放入文本分类模型中学习

如何生成词表

最简单:从零开始给一个数字索引

但是考虑一个问题:是所有的词我都要嘛?

UNK
删掉的词再出现
线上的遇到没看到的词

PAD符号
为了方便矩阵化处理,一个batch保持一致

把所有句子最开始pad到一个长度
把一个Batch pad到一个长度,不同abtch长度可能不同

模型是为了得到一个句子的表达

你可能感兴趣的:(论文,分类,人工智能)