[NLP比赛推荐]商品标题实体识别

[NLP比赛推荐]商品标题实体识别_第1张图片

比赛链接 https://www.heywhale.com/home/competition/620b34ed28270b0017b823ad/content/3

1 赛题背景

京东商品标题包含了商品的大量关键信息,商品标题实体识别是NLP应用中的一项核心基础任务,能为多种下游场景所复用,从标题文本中准确抽取出商品相关实体能够提升检索、推荐等业务场景下的用户体验和平台效率。本赛题要求选手使用模型抽取出商品标题文本中的实体。
与传统的实体抽取不同,京东商品标题文本的实体密度高、实体粒度细,赛题具有特色性。

2 比赛数据

  1. 本赛题数据来源于特定类目的京东商品标题短文本,分为有标注样本和无标注样本,供选手选择使用。

  2. 数据格式:训练集数据每一行第一列为一个字符或空格(汉字、英文字母、数字、标点符号、特殊符号、空格),第二列为BIO形式的标签,两列以空格分隔。

  3. 两条标注样本之间以空行为分割。

  4. 训练集:有标注训练样本:4万条左右(包括验证集,不再单独提供验证集,由选手自己切分;总量根据baseline模型效果可能会稍作调整);无标注样本:100万条。
    初赛A榜测试集:1万条(与训练样本格式相同,差异仅在于无标注)
    初赛B榜测试集:1万条(与训练样本格式相同,差异仅在于无标注)
    复赛测试集:1万条(与训练样本格式相同,差异仅在于无标注)
    决赛测试集:1万条(与训练样本格式相同,差异仅在于无标注)

  5. 标注样本示例:
    [NLP比赛推荐]商品标题实体识别_第2张图片

    点击下载样例(右键存储或者左键+Ctrl/command+S)

  6. 实体说明:
    实体共有52种类型,均已经过脱敏处理,用数字代号1至54表示(不包含27和45);其中“O”为非实体。标签中“B”代表一个实体的开始,“I”代表一个实体的中间或者结尾。“-”后的数字代号表示该字符的实体类型。
    值得注意的是实体不仅仅与实体词有关,而且与当前标题所售卖商品有关。举例说明,一个售卖产品为手机壳的商品标题中出现的“iPhone13”与售卖产品为手机的商品标题中出现的“iPhone13”为不同的实体标签。

3 数据下载

数据名称 数据描述 下载链接
数据样例 初赛训练集数据样例 点击下载

** 4 提交要求**

选手针对测试数据提交预测结果文件,结果文件格式和标注样本完全一致(txt格式),每一行第一列为一个字符或空格(汉字、英文字母、数字、标点符号、特殊符号、空格),第二列为BIO形式的标签,两列以空格分隔,两条标注样本之间以空行为分割。
结果文件内容举例:

[NLP比赛推荐]商品标题实体识别_第3张图片

点击下载样例(右键存储或者左键+Ctrl/command+S)

5 评测标准

本赛题采用实体级别的micro F1值作为排名依据。
记测试集真实标注实体结果为:G ={g1, g2, g3,…, gn}, 预测结果为S = {s1, s2, s3, …, sn},其中每个元素为实体词及其类型,按照在标题中出现的顺序排列。

[NLP比赛推荐]商品标题实体识别_第4张图片

复赛阶段,将根据模型在单卡GPU(NVIDIA T4,或者同等算力的GPU卡)上的推理耗时对micro F1值进行惩罚:
1) 如果模型在单卡上单条数据的平均推理时间tinference小于360ms,不做惩罚;
2) 反之,如果tinference大于360ms,需要乘以一定的惩罚系数,具体如下:

Image Name

6 其他说明

  1. 允许使用外部数据,但在复赛开始前需要发布到赛题系统公开区;
  2. 不限制使用开源框架;
  3. 无标注数据提供给参赛者作为NLP预训练的选项;
  4. 参赛者在模型中可自行发挥进行标注格式转换,只需保证提交结果为BIO格式;
  5. 只允许产出一个模型;
  6. 复赛阶段,模型在单卡(NVIDIA T4,或者同等算力的GPU卡)上单条数据的推理时间要小于360ms,如果超过360ms,会根据推理耗时进行惩罚。

你可能感兴趣的:(NLP,实体识别,自然语言处理,人工智能,nlp)