文本数据增强

在人工智能领域,为了使模型具有更好地泛化能力,一般需要更多更全面的训练数据集;而往往真实情况,在工业界获取大量标注数据是不现实的,数据增强技术就尤为关键。

数据增强相关github项目:

1)EDA:

英文版本: https://github.com/jasonwei20/eda_nlp 

中文版本:https://github.com/zhanlaoban/EDA_NLP_for_Chinese

相关版本:EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks | Papers With Code

2)AEDA:https://github.com/akkarimi/aeda_nlp

EMNLP2021之AEDA:一种更简单的文本分类数据增强技术 - 知乎

基于EDA思想,区别在于只是随机插入标点符号;

3)DAGA:https://github.com/ntunlp/daga

4)textaugment : https://github.com/dsfsi/textaugment 

Word2vec + Wordnet + Translate

5)people_daily_augment传统NER增强: https://github.com/DSXiangLi/ChineseNER/tree/main/data/people_daily_augment

6)uda :https://github.com/google-research/uda

其他一些介绍:

    https://zhuanlan.zhihu.com/p/420295576

    https://www.jianshu.com/p/91b507b1e304

你可能感兴趣的:(自然语言处理,人工智能,深度学习)