基于lstm+crf实现电子病历实体信息识别 完整的代码+数据集+说明 毕设

中文电子病历命名实体和实体关系标注体系建立


通过分析电子病历, 医生针对患者的诊疗活动可以概括为: 通过检查手段(做什么检查) 发现疾病的表现 (什么症状), 给出诊断结论(什么疾病), 并基于诊断结论, 给出治疗措施(如何治疗)。从这个过程可以看出, 医疗活动主要涉及四类重要信息: 检查、症状、疾病和治疗。这四类信息在 UMLS 中也具有明确对应的语义类型定义。中文病历中对患者症状和检查结果的描述占有相当大的比重, 因此在中文电子病历命名实体识别研究中, 有必要把疾病和症状分开, 并且定义疾病和症状的之间关系。中文电子病历命名实体识别主要研究以下几类实体的识别: 第一类实体是疾病, 泛指导致患者处于非健康状态的原因(不包括不良生活习惯), 或者医生根据患者的身体状况做出的诊断。疾病是可以治愈或改善的。第二类实体是疾病诊断分类, 一般紧跟一个具体的疾病,是疾病的一个具体分类,比如“高血压, 极高危组” 中的“极高危组”。第三类实体是疾病的表现, 在本研究中称为症状, 泛指疾病导致的不适或异常感觉和显式表达的异常检查结果。虽然这两类症状都是疾病表现, 但又明显不同, 因此症状细分为两个子类: 自诉症状和异常检查结果。第四类实体是检查手段, 在本研究中简称为检查, 泛指为了得到更多的由疾病导致的异常表现以支持诊断而采取的检查设备、检查程序、检查项目等。第五类实体是治疗手段, 在本研究中简称为治疗, 泛指为了治愈疾病、缓解或者改善症状而给予患者的药物、手术等。另外, 医生在描述患者的疾病和症状时, 通常都表达出不同的确定程度, 这是诊断过程中的重要信息, 比如肯定发生的、肯定不发生的(否认的)、可能发生的等等。这些信息在本规范中称为疾病和症状的修饰信息。患者曾经历过的治疗信息或者明确否认的既往治疗史也是临床诊断的重要信息, 因此, 针对治疗类实体, 也要识别修饰信息。修饰信息的识别是电子病历命名实体识别研究独有的任务。中文电子病历实体关系抽取研究主要关注这六类

你可能感兴趣的:(人工智能,lstm,人工智能,rnn,图像识别,信息抽取)