自然语言处理(六):文本预处理之文本数据增强

自然语言处理笔记总目录


什么是回译数据增强法: 回译数据增强目前是文本数据增强方面效果较好的增强方法,一般基于google翻译接口,将文本数据翻译成另外一种语言(一般选择小语种),之后再翻译回原语言,即可认为得到与与原语料同标签的新语料,新语料加入到原数据集中即可认为是对原数据集数据增强。一般来说,最多只采用不超过3次的翻译。

常见的文本数据增强方法:

  • 回译数据增强法

回译数据增强实现:

from google_trans_new import google_translator

p_sample1 = "酒店设施非常不错"
p_sample2 = "这家价格很便宜"
n_sample1 = "拖鞋都发霉了, 太差了"
n_sample2 = "电视不好用, 没有看到足球"

translator = google_translator()

En = translator.translate([p_sample1, p_sample2, n_sample1, n_sample2], lang_tgt='en')

cn_res = translator.translate(En, lang_tgt='zh-cn')

print(cn_res)

结果:
在这里插入图片描述

google_trans_new报错解决办法

你可能感兴趣的:(自然语言处理,自然语言处理,人工智能,nlp,python,深度学习)