分词+数据增强方法

import jieba

selg_list = jieba.cut("贪心学院专注于人工智能教育",cut_all=False)
print("/".join(selg_list))

jieba.add_word("贪心学院")
seg_list = jieba.cut("贪心学院专注于人工智能教育",cut_all=False)
print("/".join(seg_list))

D:\soft\Anaconda\envs\py3.9\python.exe D:/soft/pycharm/pythonProject2/jieba分词.py
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\Claire\AppData\Local\Temp\jieba.cache
贪心/学院/专注//人工智能/教育
贪心学院/专注//人工智能/教育
Loading model cost 0.515 seconds.
Prefix dict has been built successfully.

进程已结束,退出代码0

前向最大匹配

forward-max matching

例子:我们经常有意见分歧
词典:[“我们”,“经常”,“有”,“有意见”,“意见”,“分歧”]

max-len = 5
最大匹配算法,关键词最大
让我匹配到的单词是越长越好的

分词+数据增强方法_第1张图片
分词+数据增强方法_第2张图片
分词+数据增强方法_第3张图片
分词+数据增强方法_第4张图片

后向最大匹配

分词+数据增强方法_第5张图片
缺点?
在这里插入图片描述

https://zhuanlan.zhihu.com/p/145521255

数据增强方法

词汇替换

去替换原始文本中某一部分,而不改变句子本身的意思

基于同义词典的替换

随机去一个单词,将其替换为对应的同义词。
英文当中WordNet数据库来查找同义词

分词+数据增强方法_第6张图片

基于word-embeddings的替换

分词+数据增强方法_第7张图片
分词+数据增强方法_第8张图片

Masked Language Model的替换

pipeline端到端的管道

把随机一个位置改为mask
让Bert找mask是什么值

分词+数据增强方法_第9张图片

基于TF-IDF的替换

Back Translation(回译)

分词+数据增强方法_第10张图片

Text Surface Translation

缩写和非缩写的形式转换

英文的缩写列表:contractions库
分词+数据增强方法_第11张图片

Random Noise Injection

在文本中加入注入噪声,来生成新的文本,最后使得训练的模型对扰动具有鲁棒性

分词+数据增强方法_第12张图片

QWERTY keyborad Error Injection == 可能会很有意思

分词+数据增强方法_第13张图片

Unigram Noising

采样

Blank Noising

_

Sentence Shuffling

交换顺序

Random Insertion

随机选择

Random Swap

随机交换两个单词
分词+数据增强方法_第14张图片

Random Deletion

概率p随机删除句子中的每个单词
分词+数据增强方法_第15张图片

5. Instance Crossover Augmentation

tweet被分成两半,文本情绪各自一半

分词+数据增强方法_第16张图片

6. Syntax-tree Manipulation

主被动被转换

7. MixUp for Text

按比例合成

wordMixup

在一个batchsize中随机取两个随机的句子,之后填充相同的长度,之后按比例混合,之后新的mix-up word embeddings

sentMixup

句子的embedding的混合

8.生成的方法

给定一个条件,生成一个句子

生成任务!!

你可能感兴趣的:(研一,python,开发语言)