CCF BDCI 互联网新闻情感分析 baseline思路(持续更新..)

9.14

上分上分,血的教训,之前跑了十来版没怎么上分,事实证明!k-fold很重要!!!却也充满了随机性。。目前roberta+5fold线上0.8091,当前排名top34

9.4 

xlnet设置maxseqlength512,线上单模0.7999,再voting一下,线上0.8067,当前排名top9

9.2

上分啦,跑了三个模型(两个bert,一个xlnet),voting了一下,线上0.8036,当前排名top11

关于洗数据,暂时的方案是把特殊字符清理掉,还有网址和fontsize那些垃圾文本,但是,洗了不如不洗,同参数同模型,用洗完的数据跑效果更差了,还得继续尝试别的清洗方案。

btw,吐槽一下跑了一个xlnet已经48h过去了,还没跑完。

 

8.30

改了一波xlnet参数,依旧未清洗数据,现在eval_accuracy为0.8525,线上f1-score为0.7981,当前排名 top 9

效果还不错,有空清洗一波数据,用rawdata目前这效果很满足了

bert跑了一波,线下0.725,线上f1-score 0.7673

 

8.29

数据量比较小,训练集及测试集仅7000+的三分类任务

将文本几乎未做清洗,直接放入xlnet模型进行三分类任务的finetuning

先跑了一版max_seq_length=128试试 

效果不错,线下eval_accuracy为0.8182,线上f1-score 0.74

todo.. 看看大家如何清洗数据,bert调参

你可能感兴趣的:(nlp)