天马杯-NLP赛道(科技新闻分类与摘要)赛后总结

天马杯-NLP赛道(科技新闻分类与摘要)赛后总结_第1张图片

天马杯-NLP赛道(科技新闻分类与摘要)赛后总结_第2张图片

天马杯-NLP赛道(科技新闻分类与摘要)赛后总结_第3张图片

一、赛题任务

       本赛题的数据分为五个领域的金融科技新闻,选取其中三个领域的正负样本作为训练集,另外两个领域一个作为A榜评测数据,一个作为B榜评测数据。其中数据中分类标签1只有454条(总共样本为45440条),摘要占分30%,分类占分70%。

四个领域的说明如下(没有B榜的领域标签):

1、JG

监管趋势与宏观政策

最新的政府、央行、监管趋势,政府宏观政策,监管领导的观点(银监、人行等)。

(1)重点关注央行、银保监会出台的涉及金融科技方面的政策,也可关注科技部、工信部出台的涉及科技、与金融科技技术方面相关的政策。

(2)主要关注银保监会、央行领导的发言&观点,如在重要论坛、重要会议上,涉及金融科技方面的讲话。

2、JT(A榜测试集)

金融巨头资讯

国内大行的科技,数字化转型的一些业务和科技战略及观点。(国内六大行及股份行)

(1)国内六大行(工、农、中、建、交、邮储银行)、国内12家股份制银行(招商银行、平安银行、中信银行、浦发银行)在金融科技方面的新举措、新发展、或研发的新产品&新技术,取得的成绩&荣誉、认证等;

(2)国内六大行领导、12家股份制银行(董事长、行长)在重要会议上涉及金融科技方面的发言&观点;

3、KJ

科技公司新闻

(1)国内外顶级科技公司(蚂蚁集团、京东数科、华为、科大迅飞等)研发的新产品&新技术,取得的荣誉奖项、获得的认证(如国家金融科技认证中心、中国信通院、银行卡检测中心等机构发起的金融行业方面的认证)等资讯。

(2)科技方面,可重点关注人工智能、大数据、云计算、区块链这4个方面关于新技术&新产品方面的资讯。

4、TRZ

投融资概况

主要关注国内外和科技相关的金融科技公司(蚂蚁集团、京东数科、旷视科技等)在上市、投资、融资等方面的资讯。

二、各团队方案

(一)、分类任务

1、赛题任务总结

       由于赛题的出发点就是跨领域学习,和小样本学习,以及数据增强。所以大多数队伍都是主要针对分类结果进行提分。并且在训练集的摘要中,很多队伍都已经发现摘要是数据的前面一部分,几乎完全重合。所以很多队伍都是直接将A榜测试集的数据前面部分进行截取,作为摘要,还得到了90多的分数(摘要得分)。最后评委点评时也说了,他们官方抽取摘要的方式,A榜是直接取文本的前面字段,B榜是采取的生成的方式,这就导致如果直接采取截取数据前面部分作为摘要,会导致A榜结果较高,B榜会低一些。

      其次,在分类上,还是只有少部分队伍考虑到了跨领域的问题,很多队伍也都没有考虑跨领域的问题,忽略了赛题的核心出发点,这一部分在评委点评时也说了,赛题本身的出发点就是跨领域和小样本学习以及数据增强,各赛队应该多从这几个方面入手,查找最近的相关论文,实现其中的方法,这些几乎没有团队做到。对于数据增强,应该做更多的工作,对于小样本数据应该有更多的思考,应该加强对数据的分析,而不是只是分析数据正负样本比例,在以后的工作过程中面对的数据都是多个领域的,应该从多个领域思考数据。

2、方案总结

      这一部分主要是数据和模型两方面入手,主要解决正样本少以及跨领域的问题,很多队伍主要还是针对正样本少进行提分。

(1)解决正样本少

      这一部分首先想到的应该是数据增强,很多队伍也都使用了这个方法,但是效果其实并没有特别好,这一部分评委也说,这些数据增强后的方法会引入大量噪音,是否评测过数据增强后,模型效果有没有提升,是否应该增强后再进行降噪。方法主要有:

1)标签为0,欠采样,取20%数据,标签为1 ,上采样,用回译增强,对正样本的数据翻译到一个其他语言(翻译成很多种语言,容易产生噪音),再翻译回来。

2)EDA增强。

3)同义词替换,在句子中随机抽取n个词,然后从synonyms中文同义词词典中随机抽取同义词,并进行替换。

4)数据生成,结合数据分析结果,对句子较长,且标签为1的进行截取,生成多个正样本,模型效果得到提升。

(2)解决跨领域

      这里很少队伍考虑到了,基本上考虑这个因素的队伍的得分就比较高。其中效果最好,方法最新颖(最复杂)的当然是第一名的方案。、

      首先来看一下第一名的方案,名字为《基于prompt的实体弱化分类模型》与《HAN分类模型》进行平均融合。

      首先,在数据上,利用FinBert+平均池化生成句向量计算训练集和测试集的样本相似度矩阵,从训练集中筛选出和测试集相似的4000条样本,缓解跨领域的问题。

      在《基于prompt的实体弱化分类模型》的方法中,主要使用了最近比较火的prompt方法,因为要判断一条数据是否是“金融科技新闻”,其在每一条数据后面加入:这[MASK]和金融科技相关。然后预测[MASK]为“是”、“否”。来判断是否属于金融科技新闻。并在这个基础上,模型又加入了两个预训练任务,分别为预测领域实体随机mask任务。预测领域实体为了弱化跨领域的影响,所有领域实体都预测为[ORG]。加入随机mask任务是为了增强非领域实体表示。在这过程中使用的是FinBert预训练模型。并且在最后是加权融合最后四层,对于一个词,求在最后四层上的归一化概率值作为四个层的权值,每个权值乘以当前层的原始概率值为融合后的这个词的概率值。

     在《HAN分类模型》的方法中,使用word2vec词向量进行预训练、单句字词最大长度100,可以覆盖80%的句子;单样本最多50个句子,可以覆盖80%的样本。上一个基于prompt的方法就可以达到一个很高的结果了,这个单模型比基于prompt的方法的效果要差一些,但是融合后,效果比两个模型都要好,并且可以提高模型的泛化能力。

     其他队伍的一些方法,除了第一名的方法效果非常好之外,在其他队伍的分享中发现,使用测试集和训练集中的金融科技新闻数据进行相似度计算,再进行分类效果也比较好:

1)欠采样,选择样本进行针对性训练(包含“金融科技”、“科技金融”)字样。将训练出的模型进行测试集的预测,并将预测结果训练集的全部正例和全部负例分别进行比较,公式为Score=正例相似度+(100-负例相似度)

2)JG领域作为验证。为了验证模型的迁移效果,单独划分出一个领域作为验证,具体为,选择与测试集规模相近的JG领域作为验证集,其他两个领域作为训练集,达到较好的效果。这样做的原因是:通过分层抽样的方式进行数据抽取,进行五折交叉验证训练,但是发现线上线下分数不一致,经过分析,在训练和验证的过程中使用到了同一领域样本,存在领域信息泄露,导致线上线下gap较大。

3)采用tf-idf从数据集中挑选适用于分类的关键词,采用余弦相似度算法将测试集数据与训练集数据判定类别为金融科技的样本数据进行比较,综合两种算法得到最终分类标签。

(二)摘要

     这一部分90%的队伍都是直接截取测试集的前面字段作为摘要,因为几乎所有队伍都发现训练集摘要基本和文本前面部分重合,并且以这样的方式提交A榜测试集在摘要上可以达到一个很高的得分,并且摘要得分在总得分中占比不高,所以这一部分基本没有新奇的方法。

(三)其他策略

     在整个答辩的过程中,因为数据的样本严重不均衡的问题,参赛队伍基本上都是针对这个问题和跨领域的问题而提出一些解决方案,使用到的策略基本是常见的策略,并没有什么比较新奇的策略。主要有:阈值划分、对抗训练等。

(四)一些队伍的展望

  1. 重新预训练:可以使用更多的领域数据,从头开始预训练。
  2. 模型尝试:通过graph transfer 模型构建出样本关联图,通过图关联学习的方法。

你可能感兴趣的:(自然语言处理,分类,人工智能)