Transformer系列 _1 数据处理 笔记2021-06-29

数据处理

课程来源 : YouTube wangshuseng https://www.youtube.com/watch?v=NWcShtqr8kc&t=0s
PPT : https://github.com/wangshusen/DeepLearning

Transformer系列 _1 数据处理 笔记2021-06-29_第1张图片
年龄是数值特征
Transformer系列 _1 数据处理 笔记2021-06-29_第2张图片

性别是二分类特征
Transformer系列 _1 数据处理 笔记2021-06-29_第3张图片
国籍是分类特征
Transformer系列 _1 数据处理 笔记2021-06-29_第4张图片
Transformer系列 _1 数据处理 笔记2021-06-29_第5张图片
对国籍进行one-hot encoding ,因为国籍之间是不能表示大小的。
Transformer系列 _1 数据处理 笔记2021-06-29_第6张图片
注意将0保留 当作“未知”类别,比如一些缺失的数据。
在这里插入图片描述
例子:
Transformer系列 _1 数据处理 笔记2021-06-29_第7张图片

Why using one-hot vectors?

Transformer系列 _1 数据处理 笔记2021-06-29_第8张图片
明显不合理,用标量表示categorical feature 没有意义
Transformer系列 _1 数据处理 笔记2021-06-29_第9张图片

processing Text Data

把文本变成单词
Transformer系列 _1 数据处理 笔记2021-06-29_第10张图片
用哈希表记录词频。
Transformer系列 _1 数据处理 笔记2021-06-29_第11张图片
完成后,对哈希表进行排序,由高到低。
Transformer系列 _1 数据处理 笔记2021-06-29_第12张图片
换成index之后,目的 保留常用词,删掉低频词。
为什么去掉低频词?
1.没有意义
2.字典大,计算量大,容易overfitting
Transformer系列 _1 数据处理 笔记2021-06-29_第13张图片

One-hot Encoding

Transformer系列 _1 数据处理 笔记2021-06-29_第14张图片
Transformer系列 _1 数据处理 笔记2021-06-29_第15张图片
Transformer系列 _1 数据处理 笔记2021-06-29_第16张图片

你可能感兴趣的:(笔记,自然语言处理,深度学习)