基于Anchor的 ner 命名实体识别 医疗实体

赛题说明
本次大赛旨在通过糖尿病相关的教科书、研究论文来做糖尿病文献挖掘并构建糖尿病知识图谱。参赛选手需要设计高准确率,高效的算法来挑战这一科学难题。第一赛季课题为“基于糖尿病临床指南和研究论文的实体标注构建”,第二赛季课题为“基于糖尿病临床指南和研究论文的实体间关系构建”。本次大赛禁止使用外部数据,可以使用外部工具。本次大赛禁止通过构造字典方式来进行实体预测。

文件标注工作基于brat软件,http://brat.nlplab.org/。其中.txt文件为原始文档,.ann文件为标注信息,标注实体以T开头,后接实体序号,实体类别,起始位置和实体对应的文档中的词。如果需要在brat软件中查看标注结果,需要添加.conf文件。

第一赛季
大赛主办方提供与糖尿病相关的学术论文以及糖尿病临床指南,要求选手在学术论文和临床指南的基础上,做实体的标注。实体类别共十五类。

类别名称和定义
疾病相关:
1、疾病名称 (Disease),如I型糖尿病。
2、病因(Reason),疾病的成因、危险因素及机制。比如“糖尿病是由于胰岛素抵抗导致”,胰岛素抵抗是属于病因。
3、临床表现 (Symptom),包括症状、体征,病人直接表现出来的和需要医生进行查体得出来的判断。如"头晕" "便血" 等。
4、检查方法(Test),包括实验室检查方法,影像学检查方法,辅助试验,对于疾病有诊断及鉴别意义的项目等,如甘油三酯。
5、检查指标值(Test_Value),指标的具体数值,阴性阳性,有无,增减,高低等,如”>11.3 mmol/L”。

治疗相关:
6、药品名称(Drug),包括常规用药及化疗用药,比如胰岛素。
7、用药频率(Frequency),包括用药的频率和症状的频率,比如一天两次。
8、用药剂量(Amount),比如500mg/d。
9、用药方法(Method):比如早晚,餐前餐后,口服,静脉注射,吸入等。
10、非药治疗(Treatment),在医院环境下进行的非药物性治疗,包括放疗,中医治疗方法等,比如推拿、按摩、针灸、理疗,不包括饮食、运动、营养等。
11、手术(Operation),包括手术名称,如代谢手术等。
12、不良反应(SideEff),用药后的不良反应。

常规实体:
13、部位(Anatomy),包括解剖部位和生物组织,比如人体各个部位和器官,胰岛细胞。
14、程度(level),包括病情严重程度,治疗后缓解程度等。
15、持续时间(Duration),包括症状持续时间,用药持续时间,如“头晕一周”的“一周”。

第二赛季
大赛主办方瑞金提供与糖尿病相关的学术论文以及糖尿病临床指南。选手从中抽取实体之间的关系。实体之间关系共十类。

实体关系类别名称
1、检查方法 -> 疾病
2、临床表现 -> 疾病
3、非药治疗 -> 疾病
4、药品名称 -> 疾病
5、部位 -> 疾病
6、用药频率 -> 药品名称
7、持续时间 -> 药品名称
8、用药剂量 -> 药品名称
9、用药方法 -> 药品名称
10、不良反应 -> 药品名称

评估标准
采用F1-Measure作为评测指标。

选手提交格式
初赛提交结果为zip文件,参考submit。zip中的文件需要与测试txt文件的文件名相同,后缀名为.ann。文件中每一列以tab分割,共三列:第一列为实体编号,编号自拟且需唯一,不参与评测;第二列包含实体类别和实体的起始和终止位置,以空格分割,注意部分实体可能在第二列有分号,表示该实体跨行;第三列是实体所对应的词语, 不参与评测 。

 

文章数据集

基于Anchor的 ner 命名实体识别 医疗实体_第1张图片

NER标注

基于Anchor的 ner 命名实体识别 医疗实体_第2张图片


测试文本:

重视糖尿病与非酒精性脂肪性肝病共存的
不良结局
高鑫
[提要]   回顾近年来关于 2 型糖尿病和非酒精性脂肪性肝病的研究进展,分析和评价两者之间的密
切关系,探讨非酒精性脂肪性肝病是否是 2 型糖尿病的肝脏并发症,2 型糖尿病的肝病结局不容忽视。
[关键词]   非酒精性脂肪性肝病; 糖尿病, 2 型; 非酒精性脂肪性肝炎; 进展性纤维化
Think highly of the poor outcome of non-alcoholic fatty liver disease in type 2 diabetes Gao Xin. Department
of Endocrinology, Zhongshan Hospital, Fudan University, Shanghai 200032, China
[Summary]   Researches in type 2 diabetes and non-alcoholic fatty liver disease have been made in recent
years. The intimate connection between these two diseases has been analysed and explored. Whether non-alcoholic
fatty liver disease is a hepatic complication of type 2 diabetes remains to be elucidated. The poor outcome of liver
disease in patients with type 2 diabetes should be emphasized.
[Key words]   Non-alcoholic fatty liver disease; Diabetes mellitus, type 2; Non-alcoholic steatohepatitis;
Advanced fibrosis
(Chin J Endocrinol Metab, 2014, 30: 1-2)
非酒精性脂肪性肝病(NAFLD)和 2 型糖尿病由
于存在共同的危险因素而常常并存。 两者的患病率随
着日益流行的肥胖、胰岛素抵抗、代谢综合征同步增
长。 流行病学调查显示,总人群中 NAFLD 的患病率为
20% ~ 30% ,而在 2 型糖尿病人群中脂肪肝的伴随率
高达 60% ~80% [1]。 越来越多的证据支持,糖尿病的
代谢状态和 NAFLD 的病理之间存在复杂的相互作用。
NAFLD 和 2 型糖尿病相互预测了彼此的发生,且互为
促进因素。
国内外已有研究证实 2 型糖尿病合并 NAFLD 患
者其胰岛素抵抗、糖脂代谢、肝酶水平、炎症因子均较
单纯糖尿病患者更加恶化。 更高的糖脂毒性和氧化应
激状态加重了患者的肝脏负担和慢性血管并发症风
险,从而增加了肝脏相关死亡率和心血管事件的发生
风险[2]。 研究表明,年龄、糖尿病、肥胖、高血压和胰
岛素抵抗程度是肝纤维化的独立预测因素,其中 2 型
糖尿病与非酒精性脂肪性肝炎(NASH)、纤维化存在
显著相关性[3],且肥胖和糖尿病均独立增加肝细胞肝
癌的发生风险,使 NASH 患者的肝脏相关死亡率上升
10 倍[4]。 目前,国外已有一些小样本的病理研究显
示,肝活检证实 2 型糖尿病患者中,NASH、进展性纤维
化分别为 63% ~78%和 22% ~34% [5,6]。 虽然这些以
糖尿病患者为研究对象的肝脏病理研究样本量较小,
且得到 NASH 和纤维化的患病率差异较大,但足以引
起研究者们对 2 型糖尿病患者肝脏情况的广泛关注。
我国 是 糖 尿 病 大 国, 成 人 糖 尿 病 患 病 率 已 高 达
9. 7% [7],估算患者总数达 9 240 万,遗憾的是国内目
前还没有这方面的研究数据,我国 2 型糖尿病中确切
的 NASH 尤其是肝纤维化的患病率尚无从知晓。
上述这些研究结果说明 2 型糖尿病患者的远期肝
脏结局不容乐观。 而 NAFLD 也恶化了 2 型糖尿病患
者的血糖控制,促进糖尿病重要慢性并发症的发生和
进展[8]。 由于肝穿刺检查的有创性且技术要求较高,
不宜在糖尿病人群中广泛开展,限制了 2 型糖尿病中
NASH 及肝纤维化的进一步研究。 本杂志此期刊登了
3 篇反映 2 型糖尿病伴随脂肪肝患者肝病不良结局的
论文。 复旦大学附属中山医院张林杉等[9]对 435 例住
院 2 型糖尿病患者进行了精确的质子磁共振波谱肝脏
脂肪含量(LFC)测定,发现 LFC 与糖尿病病程呈负相
关。 新诊断 2 型糖尿病中可排除进展性纤维化(纤维
化评分<-1. 455)的 NAFLD 比例显著高于已诊断 2 型
糖尿病(26. 3%对 15. 5% , P<0. 05);而进展性纤维化
的 NAFLD 患者(纤维化评分>0. 676)中已诊断 2 型糖
尿病所占比例显著高于新诊断 2 型糖尿病(79. 2% 对
20. 8% ,P<0. 05),提示随着糖尿病病程的延长,LFC
的减少与 NAFLD 向进展性纤维化发展相关,预示不良
肝病结局。 姚培培等[10] 也发现随着年龄和糖尿病病
程增加,NAFLD 检出率有下降趋势。 为什么糖尿病导
致 NAFLD 的进展和不良结局? 同时张林杉等[11]的另
一项研究还发现 2 型糖尿病合并 NAFLD 患者的血清
铁蛋白(SF)较单纯 2 型糖尿病患者显著升高,NASH
患者的 SF 显著高于单纯性 NAFLD,且 SF 是 2 型糖尿
病中 NAFLD 及 NASH 的独立危险因素,提示铁负荷参
与了 NAFLD 的发生及发展,与肝脏的不良结局有关。
令人感兴趣的是本期发表的刘学奎等[12] 对该院体检
的 2 798 名健康者进行为期 5 年的随访观察结果,他
们发现红细胞压积(HCT)≤0. 49 L / L 组 NAFLD 发病
率15. 9% , HCT > 0. 49 L / L 组发病率 26. 5% ( P <
0. 01), 随着 HCT 的增高,发生 NAFLD 的风险增高
(RR=1. 045)。 这一结果与铁负荷增加存在一定的关
联 ,具体机制非常值得深入研究。 另外,对 NAFLD 与
糖尿病慢性并发症的关系也日益受到关注。 本期发表
的姚培培等[10] 对 1 205 例住院 2 型糖尿病患者伴随
NAFLD 与白蛋白尿排泄率的关系进行分析,结果发现
NAFLD 的检出率与白蛋白尿组负相关,虽然经校正年
龄和病程后二者并无相关性,但是对合并 NAFLD 的糖
尿病患者是否会增加传统的糖尿病并发症的风险进行
研究是非常有意义的。
早期诊断和干预 NAFLD 对防治 2 型糖尿病的发
生和进展具有重要意义;另一方面,糖尿病与 NAFLD
共患人群中肝病不良结局及肝病相关死亡率增加亟需
引起高度重视,2 型糖尿病的肝脏脂肪变性以及纤维
化进展带来的肝病结局在某种意义上可视为一种糖尿
病并发症。 然而这方面的研究目前尚处于起步阶段,
许多机制尚未阐明,值得我们深入探索。

 

 


格式这么丑跟我没关系哈,官方给的测试集合就是这样,坑的是还有\n\r在字符串中,并且还要预测被\n\r分割的NER

算法预测效果:

T1    Disease 1 5    视糖尿病
T2    Disease 6 15    非酒精性脂肪性肝病
T3    Disease 49 58    非酒精性脂肪性肝病
T4    Disease 82 91    非酒精性脂肪性肝病
T5    Disease 95 101    2 型糖尿病
T6    Disease 102 104    肝脏
T7    Disease 108 114    2 型糖尿病
T8    Disease 115 117    肝病
T9    Disease 134 142    酒精性脂肪性肝病
T10    Disease 144 147    糖尿病
T11    Disease 155 163    酒精性脂肪性肝炎
T12    Disease 924 932    酒精性脂肪性肝病
T13    Disease 933 938    NAFLD
T14    Disease 941 947    2 型糖尿病
T15    Disease 980 982    肥胖
T16    Disease 983 988    胰岛素抵抗
T17    Disease 989 994    代谢综合征
T18    Disease 1015 1020    NAFLD
T19    Disease 1050 1053    脂肪肝
T20    Disease 1085 1088    糖尿病
T21    Disease 1172 1177    NAFLD
T22    Reason 1182 1187    胰岛素抵抗
T23    Test 1188 1192    糖脂代谢
T24    Test 1193 1195    肝酶
T25    Test 1198 1202    炎症因子
T26    Disease 1207 1210    糖尿病
T27    Reason 1221 1225    糖脂毒性
T28    Reason 1226 1229    氧化应
T29    Anatomy 1239 1241    肝脏
T30    Anatomy 1260 1262    肝脏
T31    Disease 1268 1273    心血管事件
T32    Disease 1292 1295    糖尿病
T33    Disease 1296 1298    肥胖
T34    Reason 1299 1302    高血压
T35    Reason 1303 1311    胰 岛素抵抗程度
T36    Disease 1312 1316    肝纤维化
T37    Disease 1331 1334    糖尿病
T38    Disease 1335 1344    非酒精性脂肪性肝炎
T39    Disease 1345 1349    NASH
T40    Disease 1367 1369    肥胖
T41    Disease 1370 1373    糖尿病
T42    Disease 1378 1384    肝细胞肝 癌
T43    Disease 1392 1396    NASH
T44    Anatomy 1400 1402    肝脏
T45    Disease 1456 1460    NASH
T46    Disease 1504 1507    糖尿病
T47    Disease 1538 1541    纤维化
T48    Anatomy 1570 1572    肝脏
T49    Disease 1689 1693    肝纤维化
T50    Test 1760 1762    血糖
T51    Disease 1767 1770    糖尿病
T52    Test 1791 1796    肝穿刺检查
T53    Disease 1812 1815    糖尿病
T54    Disease 1835 1839    NASH
T55    Disease 1841 1845    肝纤维化
T56    Disease 1871 1874    糖尿病
T57    Disease 1876 1879    脂肪肝
T58    Disease 1881 1883    肝病
T59    Test 1935 1942    质子磁共振波谱
T60    Test 1942 1949    肝脏 脂肪含量
T61    Test 1950 1953    LFC
T62    Test 1960 1963    LFC
T63    Disease 1965 1968    糖尿病
T64    Disease 1981 1987    2 型糖尿病
T65    Disease 2015 2020    NAFLD
T66    Disease 2035 2038    糖尿病
T67    Disease 2075 2080    NAFLD
T68    Disease 2121 2127    2 型糖尿病
T69    Disease 2158 2161    糖尿病
T70    Test 2167 2170    LFC
T71    Disease 2186 2189    纤维化
T72    Disease 2199 2201    肝病
T73    Disease 2222 2225    糖尿病
T74    Disease 2231 2236    NAFLD
T75    Disease 2250 2253    糖尿病
T76    Disease 2257 2262    NAFLD
T77    Disease 2294 2300    2 型糖尿病
T78    Disease 2303 2308    NAFLD
T79    Test 2315 2318    铁蛋白
T80    Disease 2326 2332    2 型糖尿病
T81    Disease 2339 2343    NASH
T82    Disease 2381 2386    NAFLD
T83    Disease 2389 2393    NASH
T84    Test 2404 2407    铁负荷
T85    Disease 2412 2417    NAFLD
T86    Anatomy 2426 2428    肝脏
T87    Test 2497 2502    红细胞压积
T88    Test 2503 2506    HCT
T89    Test_Value 2507 2515    ≤0. 49 L
T90    Disease 2522 2527    NAFLD
T91    Test 2541 2544    HCT
T92    Test 2588 2591    HCT
T93    Disease 2599 2604    NAFLD
T94    Test 2629 2632    铁负荷
T95    Disease 2663 2668    NAFLD
T96    Disease 2671 2674    糖尿病
T97    Test 2729 2734    NAFLD
T98    Test 2736 2743    白蛋白尿排泄率
T99    Disease 2756 2761    NAFLD
T100    Disease 2802 2807    NAFLD
T101    Disease 2809 2813    糖 尿病
T102    Disease 2823 2826    糖尿病
T103    Disease 2854 2859    NAFLD
T104    Disease 2864 2870    2 型糖尿病
T105    Disease 2889 2892    糖尿病
T106    Disease 2894 2899    NAFLD
T107    Disease 2905 2909    肝病不良
T108    Disease 2912 2914    肝病
T109    Disease 2916 2918    死亡
T110    Disease 2931 2937    2 型糖尿病
T111    Reason 2938 2944    肝脏脂肪变性
T112    Disease 2955 2957    肝病
T113    Disease 2970 2974    糖尿 病
 

效果很棒

本算法思路归结如下,采用不同大小的anchor,基于FeatureMap做分类预测并对大小作回归,类似于YOLO的思路了。把图像中目标检测的思路,移植到了NLP中。

 

比赛才开始,我就透露了思路,总是忍不住想更新CSDN。

 

最新的predict效果如图:val_acc已经92%+,电脑配置比较差,跑一个epoch要4个小时,不想玩这个比赛了。

基于Anchor的 ner 命名实体识别 医疗实体_第3张图片

你可能感兴趣的:(基于Anchor的 ner 命名实体识别 医疗实体)