论文地址:
论文代码 : https://github.com/yzhihao/MCSCSet
阅读前提:需要对CSC任务有一定的了解
论文内容:提出了医疗领域的CSC数据集 MCSCSet(Medical Chinese Spelling Correction Dataset )
该论文提出了一个医疗领域的CSC数据集。
数据集大小:200K 个样本(医学专家人工标记)
数据集来源:腾讯医典(https://baike.qq.com/)的查询日志
作者还提供了一个benchmark模型作为baseline用户后续比较
现有的CSC模型都是通用的(Open-Domain),并不适用于特定领域(Specific Domain)。例如对于某一个Open-Domain训练出的模型在本文提出的医疗数据集MCSCSet下的表现如:
该模型在SIGHAN-15(Open-Domain数据集)下表现很好,但在MCSCSet(Specific Domain)表现就很差。
医疗术语通常有5种错误,如下图:
本论文的主要贡献如下:
略
医疗领域的CSC任务在定义上和CSC任务完全一致。即:
给定输入文本序列 X = { x 0 , x 1 , x 2 , ⋯ , x n } X=\{x_0, x_1, x_2, \cdots, x_n\} X={x0,x1,x2,⋯,xn}, x i x_i xi 表示一个字符。经过修正函数 F ( X ) F(X) F(X) 修正后,输出修正结果序列 Y = { y 0 , y 1 , y 2 , ⋯ , y n } Y=\{y_0, y_1, y_2, \cdots, y_n\} Y={y0,y1,y2,⋯,yn},其中输入文本长度和输出文本长度一致,即只修改错字,不处理少字和多字的情况。
在数据分布上,医疗领域CSC和传统CSC的不同点如下:
200K条样本的收集过程如下:
数据标注过程如下:
最终的样本样例如下:
{拔知齿}要做手术吗 {拔智齿}要做手术吗 字音/字形
{膝盖前交叉忍带断裂}术后{康复训练} {膝盖前交叉韧带断裂}术后{康复训练} 字音
{手臂内侧}{经络堵赛}症状 {手臂内侧}{经络堵塞}症状 字形
注意,如果第二点我没有理解错的话。这个数据集的部分错误可能是人造的。
样本样本里如下表所示:
数据集的统计情况如下:
训练集:验证集:测试集=8:1:1
句子长度分布情况如下图:
大部分的句子长度都在10个字左右
医疗实体的词频情况如图所示:
大部分的医疗实体词只出现了一次
错误类型的分布情况如下:
大部分错误都是字音相似,还有一部分是字形相似。仅有少数样本是重复、缺字或语序混乱。
作者提供的数据集也包含“重复、缺字或语序混乱”这三种样本,因此其也是可以用于语法纠错的
作者还提供了一个适合医疗领域的混淆集,样例如图所示:
略
作者的实验情况如下:
不过作者没说这个指标是Character-level还是Correction-level的