自然语言处理分析

语义理解

1.数据增强
1.1简单数据增广EDA
对原文进行基于规则的修改可以增加数据量
简单的数据增广可以带来较为明显的提升
同义词替换:将句子中的n个单词替换为同义词
随机插入:将句子中的n个单词的同义词插入到随机的位置上
随机交换:随机选择句子中两个单词互换位置
随机删除:以一定概率随机删除句子中的单词
1.2基于文本生成的数据增广
2.知识迁移
模型参数共享
(Parameter Sharing)
领域自适应
(Domain Adaptation)
样本迁移
(Instance Transfer)

3.知识图谱
通过远监督获取命名实体识别的标注数据产生大量噪声标签。
通过预训练模型和自训练迭代解决噪声问题。
通过预训练模型训练命名实体识别分类器。
预训练模型参数用于初始化自训练模块产生伪标签。

你可能感兴趣的:(自然语言处理,机器学习,人工智能)