2019达观杯信息抽取比赛总结

本文主要记录下自己这两个月参加比赛的过程和经验

  • 赛题描述

达观信息抽取比赛提供了一个脱敏数据集,训练集有17000条,测试集为3000条,此外还有一个一百万条的未标注语料可用于训练预训练模型。任务为在3个字段(a, b, c)上进行识别,o为非实体标签举个栗子:给定一行文本1_2_3_4_5_6_7_8_9,通过模型算法后输出1_2_3_4/o 5_6_7_8/c 9/o

  • 思路

实体识别可以当作是序列标注问题,因而所有的序列标注模型都可以应用到这个任务上
首先要把原始数据转化为BIO或BIOE格式(我的模型用的是BIOE)
如5_6_7_8/c转化为
5 B-c
6 I-c
7 I-c
8 E-c
(B代表实体的开始 I为实体中间 E结束)

  • 基本模型

预训练模型: word2vec elmo
基本模型使用了实体识别最流行的bilstm + crf

  • 比赛过程中不同模型的线上结果记录

50维word2vec + bilstmcrf 0.85
300维word2vec + bilstmcrf 0.87
1024维elmo + bilstm 0.89
1024维elmo + bilstm + 数据增强 0.90
1024维elmo + bilstm + 数据增强 + 简单集成 0.91

  • 经验总结

就是。。。一定要用预训练模型,整个比赛过程对效果帮助最大的是elmo的使用,基于word2vec + bilstmcrf 调参往死里调也超不过0.87,一引入elmo直接到0.89

你可能感兴趣的:(2019达观杯信息抽取比赛总结)