赛题说明
本次大赛旨在通过糖尿病相关的教科书、研究论文来做糖尿病文献挖掘并构建糖尿病知识图谱。参赛选手需要设计高准确率,高效的算法来挑战这一科学难题。第一赛季课题为“基于糖尿病临床指南和研究论文的实体标注构建”,第二赛季课题为“基于糖尿病临床指南和研究论文的实体间关系构建”。本次大赛禁止使用外部数据,可以使用外部工具。本次大赛禁止通过构造字典方式来进行实体预测。
文件标注工作基于brat软件,http://brat.nlplab.org/。其中.txt文件为原始文档,.ann文件为标注信息,标注实体以T开头,后接实体序号,实体类别,起始位置和实体对应的文档中的词。如果需要在brat软件中查看标注结果,需要添加.conf文件。
第一赛季
大赛主办方提供与糖尿病相关的学术论文以及糖尿病临床指南,要求选手在学术论文和临床指南的基础上,做实体的标注。实体类别共十五类。
类别名称和定义
疾病相关:
1、疾病名称 (Disease),如I型糖尿病。
2、病因(Reason),疾病的成因、危险因素及机制。比如“糖尿病是由于胰岛素抵抗导致”,胰岛素抵抗是属于病因。
3、临床表现 (Symptom),包括症状、体征,病人直接表现出来的和需要医生进行查体得出来的判断。如"头晕" "便血" 等。
4、检查方法(Test),包括实验室检查方法,影像学检查方法,辅助试验,对于疾病有诊断及鉴别意义的项目等,如甘油三酯。
5、检查指标值(Test_Value),指标的具体数值,阴性阳性,有无,增减,高低等,如”>11.3 mmol/L”。
治疗相关:
6、药品名称(Drug),包括常规用药及化疗用药,比如胰岛素。
7、用药频率(Frequency),包括用药的频率和症状的频率,比如一天两次。
8、用药剂量(Amount),比如500mg/d。
9、用药方法(Method):比如早晚,餐前餐后,口服,静脉注射,吸入等。
10、非药治疗(Treatment),在医院环境下进行的非药物性治疗,包括放疗,中医治疗方法等,比如推拿、按摩、针灸、理疗,不包括饮食、运动、营养等。
11、手术(Operation),包括手术名称,如代谢手术等。
12、不良反应(SideEff),用药后的不良反应。
常规实体:
13、部位(Anatomy),包括解剖部位和生物组织,比如人体各个部位和器官,胰岛细胞。
14、程度(level),包括病情严重程度,治疗后缓解程度等。
15、持续时间(Duration),包括症状持续时间,用药持续时间,如“头晕一周”的“一周”。
第二赛季
大赛主办方瑞金提供与糖尿病相关的学术论文以及糖尿病临床指南。选手从中抽取实体之间的关系。实体之间关系共十类。
实体关系类别名称
1、检查方法 -> 疾病
2、临床表现 -> 疾病
3、非药治疗 -> 疾病
4、药品名称 -> 疾病
5、部位 -> 疾病
6、用药频率 -> 药品名称
7、持续时间 -> 药品名称
8、用药剂量 -> 药品名称
9、用药方法 -> 药品名称
10、不良反应 -> 药品名称
评估标准
采用F1-Measure作为评测指标。
选手提交格式
初赛提交结果为zip文件,参考submit。zip中的文件需要与测试txt文件的文件名相同,后缀名为.ann。文件中每一列以tab分割,共三列:第一列为实体编号,编号自拟且需唯一,不参与评测;第二列包含实体类别和实体的起始和终止位置,以空格分割,注意部分实体可能在第二列有分号,表示该实体跨行;第三列是实体所对应的词语, 不参与评测 。
文章数据集
NER标注
测试文本:
重视糖尿病与非酒精性脂肪性肝病共存的
不良结局
高鑫
[提要] 回顾近年来关于 2 型糖尿病和非酒精性脂肪性肝病的研究进展,分析和评价两者之间的密
切关系,探讨非酒精性脂肪性肝病是否是 2 型糖尿病的肝脏并发症,2 型糖尿病的肝病结局不容忽视。
[关键词] 非酒精性脂肪性肝病; 糖尿病, 2 型; 非酒精性脂肪性肝炎; 进展性纤维化
Think highly of the poor outcome of non-alcoholic fatty liver disease in type 2 diabetes Gao Xin. Department
of Endocrinology, Zhongshan Hospital, Fudan University, Shanghai 200032, China
[Summary] Researches in type 2 diabetes and non-alcoholic fatty liver disease have been made in recent
years. The intimate connection between these two diseases has been analysed and explored. Whether non-alcoholic
fatty liver disease is a hepatic complication of type 2 diabetes remains to be elucidated. The poor outcome of liver
disease in patients with type 2 diabetes should be emphasized.
[Key words] Non-alcoholic fatty liver disease; Diabetes mellitus, type 2; Non-alcoholic steatohepatitis;
Advanced fibrosis
(Chin J Endocrinol Metab, 2014, 30: 1-2)
非酒精性脂肪性肝病(NAFLD)和 2 型糖尿病由
于存在共同的危险因素而常常并存。 两者的患病率随
着日益流行的肥胖、胰岛素抵抗、代谢综合征同步增
长。 流行病学调查显示,总人群中 NAFLD 的患病率为
20% ~ 30% ,而在 2 型糖尿病人群中脂肪肝的伴随率
高达 60% ~80% [1]。 越来越多的证据支持,糖尿病的
代谢状态和 NAFLD 的病理之间存在复杂的相互作用。
NAFLD 和 2 型糖尿病相互预测了彼此的发生,且互为
促进因素。
国内外已有研究证实 2 型糖尿病合并 NAFLD 患
者其胰岛素抵抗、糖脂代谢、肝酶水平、炎症因子均较
单纯糖尿病患者更加恶化。 更高的糖脂毒性和氧化应
激状态加重了患者的肝脏负担和慢性血管并发症风
险,从而增加了肝脏相关死亡率和心血管事件的发生
风险[2]。 研究表明,年龄、糖尿病、肥胖、高血压和胰
岛素抵抗程度是肝纤维化的独立预测因素,其中 2 型
糖尿病与非酒精性脂肪性肝炎(NASH)、纤维化存在
显著相关性[3],且肥胖和糖尿病均独立增加肝细胞肝
癌的发生风险,使 NASH 患者的肝脏相关死亡率上升
10 倍[4]。 目前,国外已有一些小样本的病理研究显
示,肝活检证实 2 型糖尿病患者中,NASH、进展性纤维
化分别为 63% ~78%和 22% ~34% [5,6]。 虽然这些以
糖尿病患者为研究对象的肝脏病理研究样本量较小,
且得到 NASH 和纤维化的患病率差异较大,但足以引
起研究者们对 2 型糖尿病患者肝脏情况的广泛关注。
我国 是 糖 尿 病 大 国, 成 人 糖 尿 病 患 病 率 已 高 达
9. 7% [7],估算患者总数达 9 240 万,遗憾的是国内目
前还没有这方面的研究数据,我国 2 型糖尿病中确切
的 NASH 尤其是肝纤维化的患病率尚无从知晓。
上述这些研究结果说明 2 型糖尿病患者的远期肝
脏结局不容乐观。 而 NAFLD 也恶化了 2 型糖尿病患
者的血糖控制,促进糖尿病重要慢性并发症的发生和
进展[8]。 由于肝穿刺检查的有创性且技术要求较高,
不宜在糖尿病人群中广泛开展,限制了 2 型糖尿病中
NASH 及肝纤维化的进一步研究。 本杂志此期刊登了
3 篇反映 2 型糖尿病伴随脂肪肝患者肝病不良结局的
论文。 复旦大学附属中山医院张林杉等[9]对 435 例住
院 2 型糖尿病患者进行了精确的质子磁共振波谱肝脏
脂肪含量(LFC)测定,发现 LFC 与糖尿病病程呈负相
关。 新诊断 2 型糖尿病中可排除进展性纤维化(纤维
化评分<-1. 455)的 NAFLD 比例显著高于已诊断 2 型
糖尿病(26. 3%对 15. 5% , P<0. 05);而进展性纤维化
的 NAFLD 患者(纤维化评分>0. 676)中已诊断 2 型糖
尿病所占比例显著高于新诊断 2 型糖尿病(79. 2% 对
20. 8% ,P<0. 05),提示随着糖尿病病程的延长,LFC
的减少与 NAFLD 向进展性纤维化发展相关,预示不良
肝病结局。 姚培培等[10] 也发现随着年龄和糖尿病病
程增加,NAFLD 检出率有下降趋势。 为什么糖尿病导
致 NAFLD 的进展和不良结局? 同时张林杉等[11]的另
一项研究还发现 2 型糖尿病合并 NAFLD 患者的血清
铁蛋白(SF)较单纯 2 型糖尿病患者显著升高,NASH
患者的 SF 显著高于单纯性 NAFLD,且 SF 是 2 型糖尿
病中 NAFLD 及 NASH 的独立危险因素,提示铁负荷参
与了 NAFLD 的发生及发展,与肝脏的不良结局有关。
令人感兴趣的是本期发表的刘学奎等[12] 对该院体检
的 2 798 名健康者进行为期 5 年的随访观察结果,他
们发现红细胞压积(HCT)≤0. 49 L / L 组 NAFLD 发病
率15. 9% , HCT > 0. 49 L / L 组发病率 26. 5% ( P <
0. 01), 随着 HCT 的增高,发生 NAFLD 的风险增高
(RR=1. 045)。 这一结果与铁负荷增加存在一定的关
联 ,具体机制非常值得深入研究。 另外,对 NAFLD 与
糖尿病慢性并发症的关系也日益受到关注。 本期发表
的姚培培等[10] 对 1 205 例住院 2 型糖尿病患者伴随
NAFLD 与白蛋白尿排泄率的关系进行分析,结果发现
NAFLD 的检出率与白蛋白尿组负相关,虽然经校正年
龄和病程后二者并无相关性,但是对合并 NAFLD 的糖
尿病患者是否会增加传统的糖尿病并发症的风险进行
研究是非常有意义的。
早期诊断和干预 NAFLD 对防治 2 型糖尿病的发
生和进展具有重要意义;另一方面,糖尿病与 NAFLD
共患人群中肝病不良结局及肝病相关死亡率增加亟需
引起高度重视,2 型糖尿病的肝脏脂肪变性以及纤维
化进展带来的肝病结局在某种意义上可视为一种糖尿
病并发症。 然而这方面的研究目前尚处于起步阶段,
许多机制尚未阐明,值得我们深入探索。
格式这么丑跟我没关系哈,官方给的测试集合就是这样,坑的是还有\n\r在字符串中,并且还要预测被\n\r分割的NER
算法预测效果:
T1 Disease 1 5 视糖尿病
T2 Disease 6 15 非酒精性脂肪性肝病
T3 Disease 49 58 非酒精性脂肪性肝病
T4 Disease 82 91 非酒精性脂肪性肝病
T5 Disease 95 101 2 型糖尿病
T6 Disease 102 104 肝脏
T7 Disease 108 114 2 型糖尿病
T8 Disease 115 117 肝病
T9 Disease 134 142 酒精性脂肪性肝病
T10 Disease 144 147 糖尿病
T11 Disease 155 163 酒精性脂肪性肝炎
T12 Disease 924 932 酒精性脂肪性肝病
T13 Disease 933 938 NAFLD
T14 Disease 941 947 2 型糖尿病
T15 Disease 980 982 肥胖
T16 Disease 983 988 胰岛素抵抗
T17 Disease 989 994 代谢综合征
T18 Disease 1015 1020 NAFLD
T19 Disease 1050 1053 脂肪肝
T20 Disease 1085 1088 糖尿病
T21 Disease 1172 1177 NAFLD
T22 Reason 1182 1187 胰岛素抵抗
T23 Test 1188 1192 糖脂代谢
T24 Test 1193 1195 肝酶
T25 Test 1198 1202 炎症因子
T26 Disease 1207 1210 糖尿病
T27 Reason 1221 1225 糖脂毒性
T28 Reason 1226 1229 氧化应
T29 Anatomy 1239 1241 肝脏
T30 Anatomy 1260 1262 肝脏
T31 Disease 1268 1273 心血管事件
T32 Disease 1292 1295 糖尿病
T33 Disease 1296 1298 肥胖
T34 Reason 1299 1302 高血压
T35 Reason 1303 1311 胰 岛素抵抗程度
T36 Disease 1312 1316 肝纤维化
T37 Disease 1331 1334 糖尿病
T38 Disease 1335 1344 非酒精性脂肪性肝炎
T39 Disease 1345 1349 NASH
T40 Disease 1367 1369 肥胖
T41 Disease 1370 1373 糖尿病
T42 Disease 1378 1384 肝细胞肝 癌
T43 Disease 1392 1396 NASH
T44 Anatomy 1400 1402 肝脏
T45 Disease 1456 1460 NASH
T46 Disease 1504 1507 糖尿病
T47 Disease 1538 1541 纤维化
T48 Anatomy 1570 1572 肝脏
T49 Disease 1689 1693 肝纤维化
T50 Test 1760 1762 血糖
T51 Disease 1767 1770 糖尿病
T52 Test 1791 1796 肝穿刺检查
T53 Disease 1812 1815 糖尿病
T54 Disease 1835 1839 NASH
T55 Disease 1841 1845 肝纤维化
T56 Disease 1871 1874 糖尿病
T57 Disease 1876 1879 脂肪肝
T58 Disease 1881 1883 肝病
T59 Test 1935 1942 质子磁共振波谱
T60 Test 1942 1949 肝脏 脂肪含量
T61 Test 1950 1953 LFC
T62 Test 1960 1963 LFC
T63 Disease 1965 1968 糖尿病
T64 Disease 1981 1987 2 型糖尿病
T65 Disease 2015 2020 NAFLD
T66 Disease 2035 2038 糖尿病
T67 Disease 2075 2080 NAFLD
T68 Disease 2121 2127 2 型糖尿病
T69 Disease 2158 2161 糖尿病
T70 Test 2167 2170 LFC
T71 Disease 2186 2189 纤维化
T72 Disease 2199 2201 肝病
T73 Disease 2222 2225 糖尿病
T74 Disease 2231 2236 NAFLD
T75 Disease 2250 2253 糖尿病
T76 Disease 2257 2262 NAFLD
T77 Disease 2294 2300 2 型糖尿病
T78 Disease 2303 2308 NAFLD
T79 Test 2315 2318 铁蛋白
T80 Disease 2326 2332 2 型糖尿病
T81 Disease 2339 2343 NASH
T82 Disease 2381 2386 NAFLD
T83 Disease 2389 2393 NASH
T84 Test 2404 2407 铁负荷
T85 Disease 2412 2417 NAFLD
T86 Anatomy 2426 2428 肝脏
T87 Test 2497 2502 红细胞压积
T88 Test 2503 2506 HCT
T89 Test_Value 2507 2515 ≤0. 49 L
T90 Disease 2522 2527 NAFLD
T91 Test 2541 2544 HCT
T92 Test 2588 2591 HCT
T93 Disease 2599 2604 NAFLD
T94 Test 2629 2632 铁负荷
T95 Disease 2663 2668 NAFLD
T96 Disease 2671 2674 糖尿病
T97 Test 2729 2734 NAFLD
T98 Test 2736 2743 白蛋白尿排泄率
T99 Disease 2756 2761 NAFLD
T100 Disease 2802 2807 NAFLD
T101 Disease 2809 2813 糖 尿病
T102 Disease 2823 2826 糖尿病
T103 Disease 2854 2859 NAFLD
T104 Disease 2864 2870 2 型糖尿病
T105 Disease 2889 2892 糖尿病
T106 Disease 2894 2899 NAFLD
T107 Disease 2905 2909 肝病不良
T108 Disease 2912 2914 肝病
T109 Disease 2916 2918 死亡
T110 Disease 2931 2937 2 型糖尿病
T111 Reason 2938 2944 肝脏脂肪变性
T112 Disease 2955 2957 肝病
T113 Disease 2970 2974 糖尿 病
效果很棒
本算法思路归结如下,采用不同大小的anchor,基于FeatureMap做分类预测并对大小作回归,类似于YOLO的思路了。把图像中目标检测的思路,移植到了NLP中。
比赛才开始,我就透露了思路,总是忍不住想更新CSDN。