【nlp】1.5 文本数据增强(回译法)

文本数据增强

  • 回译数据增强法

回译数据增强法

回译数据增强目前是文本数据增强方面效果较好的增强方法, 一般基于google翻译接口,将文本数据翻译成另外一种语言(一般选择小语种),之后再翻译回原语言,,即可认为得到与与原语料同标签的新语料,新语料加入到原数据集中即可认为是对原数据集数据增强。

回译数据增强优势:

  • 操作简便, 获得新语料质量高

回译数据增强存在的问题:

  • 在短文本回译过程中,新语料与原语料可能存在很高的重复率, 并不能有效增大样本的特征空间

高重复率解决办法:

  • 进行连续的多语言翻译,如: 中文→韩文→日语→英文→中文,根据经验,最多只采用3次连续翻译, 更多的翻译次数将产生效率低下, 语义失真等问题.

回译数据增强实现:

# 思路分析
# 1 实例化翻译对象  google_translator()
# 2 translate(text,  lang_src='zh-cn', lang_tgt='ko') 中文翻译成韩语
# 3 translate(ko_res, lang_src='ko', lang_tgt='zh-cn

你可能感兴趣的:(NLP自然语言处理,自然语言处理,python,人工智能)