天池零基础入门NLP - 新闻文本分类Top1方案的bert4torch复现

天池有些长期比赛可以练习玩玩(还可以继续提交),于是试了下简单的新闻文本分类任务,Top1的解决方案思路是”预训练+fgm+交叉验证模型融合“,代码是基于bert4keras的,本人基于bert4torch复现了”fgm+交叉验证模型融合“部分(未复现预训练),默认参数下f1=0.9727,具体详细详细解决方案请参考原作者。

  • 比赛链接:零基础入门NLP - 新闻文本分类
  • Top1:天池新闻分类Rank1
  • 复现项目链接:bert4torch复现项目

复现指标

  • 三个指标分别为作者提交,本人自己跑,bert4torch复现跑
解决方案 说明 指标
Top1 —— 正式赛f1=0.9735
Top1复跑 bert以第1折交叉epoch=5初始化,1个epoch,seed=0, 1993, 2020三者融合 长期赛f1=0.9736
Top1_bert4torch复现 bert+attn+fgm+cv 长期赛f1=0.9727, dev_5cv=(0.97083, 0.97074, 0.96914, 0.96892, 0.96613)

bert4torch框架介绍

bert4torch是一个基于pytorch的训练框架,前期以效仿和实现bert4keras的主要功能为主,特点是尽量简洁轻量,提供丰富示例,有兴趣的小伙伴可以试用,欢迎star。

bert4torch项目​github.com/Tongjilibo/bert4torch

你可能感兴趣的:(nlp,自然语言处理,分类,深度学习,bert,pytorch)