《医疗革命》的读书笔记

《医疗革命》的读书笔记

作 者:邵学杰

出版社:中信出版社

版 次:2016年9月第1版

作者简介:

邵学杰:我国医学大数据概念提出的实践者与先行者,2011年与国家卫计委医政医管司医疗质量监测中心HQMS合作,首席提出建设“中国医疗云”的设想;我国医学图像人工智能识别的先行者,于是2012年建立第一家民营人工智能与深度学习研究机构,在医学图像的人工智能与机器深度学习方面有丰富的实操经验;医学数据挖掘的先行者,他领街的研究团队在研究胰腺癌与心肌缺血事件的关联性,低位保肛手术的随访大数据研究中取得重要进展。

本书的重点内容及感悟:

第1章 数据分析与数据挖掘的力量

1、葡萄牙医生解决世界新生儿出生缺陷的故事

葡萄牙医生在本故事中采用了分群与分层抽样调查相结合的方法,按五大洲分群抽取,每个洲又按历史高地区分层抽取。整群的聚类是数据挖掘技术上一个很重要的概念,把某维度属性相似的实例聚类是数据技术最基础的方法;聚类后,距离太远的数据就是异常值。对数据处理的常规方法第一步就是聚类,把某些属性相近似的数据聚会聚类后就可以进一步分析它们之间的关系,数据的聚类可以做回归(预测),数据的离散可以做预警(异常值)。

本故事中,葡萄牙医生的重要发现是:第一、欧洲大量新移民聚类中产生了新生儿缺陷高发的现象,这一数据甚至超过了传统落后地区非洲的新生儿出生缺陷率;第二、伊拉克战争、叙利亚战争、也门内战导致的难民大量涌入欧洲,人口的大规模迁徙改变了欧洲的新生儿人口健康状况。用抽样的方法获取数据,最后导出了近年来欧洲新生儿缺陷增加的主要原因:大规模移民难民潮。其中一个典型调查发现西班牙边境地区一个废弃的化学工厂是外来移民长期居住后新生儿缺陷发生的重要原因。

2、医学数据挖掘的定义

数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘例子:1)肠道细菌与糖尿病、抑郁症相关;2)肠道疾病与心血管疾病相关;

3、医学数据模式识别的七大原理与案例讲解

模式识别:数据挖掘的本质就是模式识别。七种模式识别方法:解释性数据建模;描述性建模;预测性建模;知识性建模;序列模式建模;依赖关系的建模;异常与趋势建模。医学模式识别就是利用临床医学大数据来建模,找到疾病之间的相互关系,无论是依赖关系,关联关系还是序列模式等关系都可台在数据中找到真相。

1) 解释性数据建模:解释性建模的实质是模糊建模,模糊建模的特点在于它用模糊规则对知识进行表达,而且可以解决一些复杂的、非线性的、用传统的数学方法难以解决的问题。

一个好的数据模型具备以下三点:描述性、预测性、说明性。具体地说就是,一个好的数学模型能描述建模基于的系统,并且对其做出预测,同时能解释为什么这么建模以及建模得出的结论。

2)描述性建模:反映了从特殊到一般的认识过程,它是从分析客观事物的具体特征入手,经过逐步抽象而得到的。把客观事物中的关系概括于一个数据结构之中,是描述性数学模型的主要特征,也是解决问题的重要手段。

3)预测性建模:谷歌搜索引擎从侧面显示出了搜索这些信息的人本身的情况,比如他们的想法,需求,忧虑等非常有价值的信息。如果这些信息的搜索可以准确地反映出人们的生存情况,那么分析人员就有可能利用这些信息追踪疾病情况,预测新商品的销售情况,甚至预测选举的结果。

4)知识性建模:屠呦呦诺贝尔奖的故事。这是一个典型的知识性建模,利用先验的知识经验,屠呦呦从中医古籍中找到了启发与灵感,先后筛选2000多种药物(在当时的条件下都要是人工筛选),最后采用化学提纯与晶体分离的方法获得了青蒿素,为千百万疟疾患者带来福音。

5)序列模式建模:啤酒与尿片的故事。通过在多组商品中选取销量最高的几组进行关联分析,这时候往往能够发现一些意想不到的规律。商品排序的方法按时间就叫时间序列,按销量就叫销量序列,按品类就叫品类序列。

6)依赖关系建模:激素的故事。长期的医学实践与数据分析表明,许多女性疾病与激素依赖高度相关。最常见的是子宫内膜癌与乳腺癌。重要的激素依赖性肿瘤是女性多发的激素依赖性疾病。2003年,SAS袭击中国,中国医生率先在世界上用激素抑制SAS病毒,取得了很好的疗效。然而,大量不规范的激素使用也使得幸存的SAS患者大多患者有严重的骨质疏松,激素依赖疾病又一次被数据验证。

7)异常与趋势建模:兰州大学医学院附属医院的医生在数据分析中应用离散值,特别是离散度的关系来判读心肌缺血事件的风险。

4、临床医学领域的机器学习与人工智能

乳腺癌的X射线诊断在临床医学中一直有着比较高的误诊率,为了解决这个问题,芝加哥大学的华裔医生尝试用机器学习的SVM(支持向量机)来提高诊断的准确率。SVM算法明显优于人工读片产生的误诊率,表明了机器学习在乳腺癌的影像学初诊中产生的巨大作用,与人式判读相比,机器学习对乳腺癌诊断的准确率大大提高。

感悟:机器学习提高乳腺癌的诊断水平,人工智能提高手术的精确性。这两项技术对医生的冲击很大。在未来,我们还有什么用?我们还能有什么用?走进大数据,走进人工智能领域,是我们生存的唯一之道。

5、神经元网络的基本原理

神经元网络算法是基于模仿大脑神经网络的结构和功能而建立的一种信息处理系统。学习是神经网络研究的一个重要内容,它的适应性是通过学习实现的。根据环境的变化,对权值进行调整,改善系统的行为。

收敛的最本质的意义是指算法函数有效地产生了结果,就像传统的线性议程有了根式解,就是函数存在可以逼迫的极限,收敛是一切数据挖掘计算机数据处理追求的目标。

第2章 临床医学的数据挖掘

1、房颤与肾功能关联现象的故事:慢性肾功能不全与房颤性病率的相关性研究。

1)病例来源:收集重庆医科大学附属第二医院、重庆市中山医院、重庆市第三人民医院三所医院的2006年1月到2009年6月住院的慢性肾功能不全患者的住院病例。

2)诊断与分期标准:慢性肾功能不全的诊断依据:定义为经过肾活检或检测损伤标记物证实的肾脏损伤或肾小球滤过率<60ml/(min.1.73m2,持续时间大于3个月。)

第一步:采用三所医院的700多例住院病人数据,如果是大数据ETL去除数据的杂音。第二步:建立变量模型,就是找到因变量与自变量的关系科目,这是医学数据挖掘的关键之处,它需要丰富的临床经验与医学知识才能有效地完成;第三步就是面对数据的聚类回归或离散预警。其中,在大数据条件下,大多采用人工智能与机器学习;在小数据条件下,更多地采用传统统计学的老方法,如参数设计、假设检验、P值、T值的置信度衡量等。

将年龄、性别、体重指数、吸烟史、饮酒史、高血压、高脂血症、冠心病史、心力衰竭、透析、左房增大以及糖尿病纳入多远logistic回归分析。

3)研究局限:首先:纳入的慢性肾功能不全患者仅有754例,且全部为住院患者;近一半的患者接受透析治疗,因此研究对象的肾功能差、病情重,多数为终末肾脏病患者。其次:本研究对于房性心律失常的认定仅仅来源于病例资料,不排除病例资料缺失,诊断不完整等因素存在。

4)结论:慢性肾功能不全患者房颤患病率显著于普通人群,冠心病史、心力衰竭、糖尿病、透析与房颤和房性心律失常发生的相对风险增加密切相关。

5)研究小结:本案例采用了医学数据分析中最常见的logistic多因素回归预测方法。logistic回归是一种广义的线性回归分析模型,常用于数据挖掘、疾病自动诊断、经济经济预测等领域。

logistics回归几乎是最有用的医学数据挖掘工具之一。第一、寻找危险因素;第二、预测:如果已经建立了回归模型,则可以根据模型,预测在不同的自变量情况下,发生某病或某种情况的概率有多大;第三、判别。实际上跟预测有些类似,也是根据模型,预测在不同的自变量情况下,发生某病或某种情况的概率有多大。

小知识:置信水平是指总体参数值落在样本统计值某一区内的概率,一般用1-α表示,而置信敬意是指在某一置信水平下,样本统计值与总体参数数值间误差范围。置信区间越大,置信水平越高。一般的置信区间为:95%。

Logistics回归几乎是最有用的医学数据挖掘工具。关键是根据置信水平寻找危险因素,建模,然后根据模型进行预测和判别。

2、支持向量机的算法原理与应用

支持向量机的算法原理:

1)背景:乳腺癌的极高误诊率。

2)支持向量机的主要特点:支持向量机堪称最有效的数据分类工具。主要的特点就是以极小的样本量也能够扮演全体的数据算法。在解决小样本、非线笥及高维模式识别问题中表现出来许多特有的优势,并能够推广应用到函数按拟合等其他机器学习问题中。SVM的关键在于核函数。低维空间向量集通常难于划分,解决的方法是将它们映身到高维空间。但这个办法带来的困难就是计算复杂度的增加,而核函数正好巧妙地解决了这个问题。也就是说,只要选用适当的核心函数,就可以得到高维空间的分类函数。数据投射的升维(从一维到二维,从二维到三维,从n维到n+1)是数据及统计理论的巨大进步。

3)基本思想:数学中,元素之间的关系很难分清的时候,我们往往把它投射到一个更高维的空间,在一个“超平面”上看到元素之间的分界线很清晰。SVM的基本思想是把训练数据非线性的映射到一个更高维的特征空间中,在这个高维的特征空间中寻找到一个超平面使得正例和反例两者间的隔离边缘被最大化。

4)SVM学习方法:线性可分支持向量机、线性支持向量机及非线性支持向量机。当训练数据线性可分时,通过硬间隔最大化,学习一个线性的分类器,即线性可分支持向量机,又称为硬间隔支持向量机;当训练数据近似线性可分时,通过软间隔最大化,也学习一个线性的分类器,即线性支持向量机,又称为软间隔支持向量化;当训练数据线性不可分时,通过使用技巧及软间隔最大化,学习非线性支持向量化。

支持向量机的应用案例:SVM在乳腺癌影像诊断中的应用

1)研究内容:首先:研究如何对乳腺症CT图像进行更好的预处理,为自动提取特征做出有效的准备,选择准确、有效的分类算法,最终获得满意的数据挖掘结果;其次:探讨和开发适合乳腺癌影像数据库知识发现的一般方法和工具。最后:开发出性能良好的、易于医生操作的,接近医学专家水平的具有临床实践应用价值的乳腺癌的辅助诊断系统。

2)方法:对乳腺癌CT图像数据进行正常/异常、良好/恶性分类检测,PSVM分类器过程如下所述:首先:对乳腺癌图像的基本预处理包括图像去噪、图像增强、图像感兴趣区域分割等。其次:提取特征向量,将得到的n个特征值作为分类器的输入。

3)原理:本案例的数据挖掘意义是巨大的,即使是图像的人工智能处理也可以用“支持向量机”这样一个算法来解决。首先搜索乳腺癌的CT图像数据,剔除噪音,用算法来提取图像纹理与灰度特征,分别建立健良性/恶性识别模块,其中的图像增强、灰度特征提取,纹理特征提取都是数据挖掘算法完美的展现,把一帧图像划分为无数个点阵与方格,依据每一个点及其邻近点的深浅特征比对来识别正常图像与异常图像,这就是算法的力量,把困难的问题简单化。

支持向量机(SVM)在解决小样本、非线笥及高维模式识别问题中表现出来许多特有的优势,并能够推广应用到函数按拟合等其他机器学习问题中。SVM进行数据挖掘的意义是巨大的,即使是图像的人工智能处理也可以用“支持向量机”这样一个算法来解决。

3、疾病规律与统计学革命

1)肝胆外科的统计学故事:本故事中我们看到了医学实践与数据挖掘先天的联盟关系,少数的和个体的医疗行为能否成为一种可以推广的模式,大样本的数据提供了“不可辩驳的事实”,这就是临床医学的归纳、总结与推理,遵循严格的科学范式。

2)双盲实验:双盲实验是实验心理学中一个很好的控制额外变量的方法,是排除法的一种。双盲控制时让实验的操作者和实验被试都不知道实验的内容和目的,由于实验者和研究参加者都不知道哪些被试接哪种实验条件,从而避免了主,被试双方的主观期望所引发的额外变量。双盲试验引发了医学的思维与方法革命,直接导致了循证医学时代的到来。

荟萃分析:当时针对大量发表的科学论文中,对于同样的研究却得出截然不同结果的问题,他们提出应用在全世界范围内收集对某一疾病各种疗法的小样本,单个临床试验的结果,对其进行系统评价和统计分析,将尽可能真实的科学结论及时提供给社会和临床医师,以促进推广真正有效的治疗手段。荟萃分析的主要目的是将以往的研究结果更为客观地综合反映出来。研究者并不进行原始的研究,而是将研究已获得的结果进行综合分析。荟萃分析逐渐发展成为一门新兴学科---“循证医学”的主要内容和研究手段。

3)肝癌诊断指标的优劣:路人甲做了一个研究,旨在比较两个指标(A和B)对肝癌的诊断价值。

路人甲经过四次投稿,审稿人--路人乙回复:就敏感性,B高于A;就特异性而言,A高于B。审稿人--路人丙回复:从表面上看,B的曲线下面积高于A,但是导致这种差异的原因有两种,一种是抽样误差,一种是试验效应,在统计学上,要确定0.82是否高于0.80,就一定要经过统计学检验的。审稿人--路人丁回复:B是常见的诊断指标,其检测结果并不对临床医师设盲,在很大程度上可以影响临床医师对疾病的诊断。A是新近发现的诊断指标,其结果完全对临床医师设盲,不可能影响医生的诊断。所以作者结论是不可靠的。审稿人--路人G回复:A和B的检测并不矛盾,他们之间的关系不应该是竞争关系,而应该是合作关系。这个故事说明:医学科研是很痛苦的,不重视统计学和科研设计,会走很多弯路的。没有经过检验的结论多半是不科学的。对统计学结果的解读一定要结合专业!从专业中来,到专业中去。

4、老年肺癌研究

1)数据的抓取与来源:医学领域的数据构成一个复杂的数据库,包括电子病历、医学影像、病理参数、化验结果等,而目前数据挖掘技术重要应用于以结构化数据为主的关系数据库,事务数据库和数据仓库,对复杂类型数据的挖掘尚处在起步阶段。

2)癌症与老龄化的相关性分析:就全人群而言,肺癌是发病率最高的肿瘤,也是癌症死因之首,胃癌、食管癌和肝癌则紧随其后......

3)老年肺癌的手术评价要素:肿瘤评价、老龄因素评价、身体功能、并发症、认知能力、营养状况、心理状况、手术方式选择、社会支持因素。

4)老年肺癌肿瘤的数据分析:老年肺癌高峰值区为70~79岁。无论是巴西、加拿大、韩国均是如此。中国最高。有调查发现,六成的肺癌病者在初诊时已属后期,使得肺癌诊疗的整体结果仍不令人满意。老年肺癌特点:一是起病缓慢,病程平均5.2个月;二是临床表现以咳嗽、胸痛、痰中带血或少量咯血居多;三是X线胸片主要表现为块影,浸润性病灶、肺不张和胸腔特别积液;四是伴发病多,伴发的疾病主要是慢性阻塞性疾病和肺结核;五是误诊较高,常被误诊为肺炎、肺结核和结核性胸膜炎;六是以男性居多,大多数有吸烟史。

5)结论:A、80岁以上老年肺癌的手术禁忌年龄不是问题,只是心肺功能好,都可以承受心胸外科手术;B、老年肺癌的预后与围术期及康复期的家庭家人护理密不可分;C、数据挖掘表明,开放式手术与胸腔镜在老年肺癌手术的预后上并没有太大的差别,小切口的开放式手术仍然受到外科医生的青睐;D、数据分析发现,由于女性外来移民的影响,欧洲的女性吸烟者的增加导致女性肺癌患者增加;E、数据挖掘表明,非洲的肺癌死亡率最低说明环境因素与肺癌息息相关。这就是数据挖掘的力量。

5、临床医学与数据挖掘的边缘学科

1)实例:某地用A、B和C三种方案治疗血红蛋白不满10g的婴幼儿贫血患者,治疗一个月后,记录下每名受试者血红蛋白的上升克数。问:三种治疗方案对婴幼儿贫血的疗效是否相同?

方差分析计算(F检验步骤):建立假设、确立检验水准、计算检验统计量、确定P值、结论。

2)医学统计学与医学数据挖掘的区别:数据挖掘来源于统计分析,而又不同于统计分析。数据挖掘不是为了替代传统的统计分析技术。相反,数据挖掘是统计分析方法的扩展和延伸。很多情况下,数据挖掘的本质是很偶然地发现非预期但很有价值的信息。

3)数据挖掘一般步骤:分析问题->提取、清洗和效验数据、创建和调试模型->查询数据挖掘模型的数据->维护数据挖掘模型。

聚类分析是数据挖掘采用的核心技术,成为该研究领域中一个非常活跃的研究课题。聚类的输入是一组没有类别标注的数据,根据一定的聚类准则,合理划分记录集合,从而使相似的记录被划分到同一个簇中,不相似的数据划分到不同的簇中。

4)特征选择与聚类分析算法(Relief算法、K-Means算法):Relief算法是一种特征权重算法,根据各个特征和类别的相关性赋予不同的权重,权重小于某个阈值的特征将被移除。特征的权重越大,表示该特征的分类能力越强,反之表示该特征分类能力越弱。Relief算法运行效率高,对数据类型没有限制,属于一种特征权重算法,算法会赋予所有和类别相关性高的特征较高的权重,所以算法的局限性在于不能有效地去除冗余特征。

数据挖掘:聚类分析是数据挖掘的核心技术,成为该研究领域中一个非常活跃的研究课题,对临床医学的研究具有广泛的价值。

第3章 临床医学与数据技术的深度融合

1、二型糖尿病与胰腺癌的故事

现代临床医学的数据分析表明许多疾病之间存在着共生的关系,一个临床医生只有掌握必备的数据挖掘技术或医学统计知识才能更多地发现新的疾病规律。虽然学术界对二型糖尿病与胰腺癌的看法还没有定论,我们通过数据挖掘的办法采用五变量分析法可以将胰腺癌的高危人群从二型糖尿病患者中分离出来,做到早期诊断,早期发现。

2、Cox回归的基本原理与应用

Cox回归无疑是医学数据挖掘与医学统计中最有魅力的回归分析工具,也是最常见的医学数据回归分析工具,深度广大医生的欢迎。

Cox回归与Logistics区别:A、都可以用来筛选影响因素;B、都有OR值或者RR值;C、因变量不一样:Cox回归的因变量是生存时间;Logistics回归因变量是分类资料,比如二分类。D、他们有许多相似的地方。SAS程序相同,SPSS里面有条件Logistics回归分析就是借用Cox比例风险模块进行分析。Logistics回归是Cox回归的一个特例。Cox回归可以考察生存函数,而Logistics不可以。

1)晚期肺癌伴脑转移患者的预后多因素Cox项目

对患者临床特征如性别、吸烟史、病理类型、PS类型、脑转移数量、肺癌到脑转移时间、放疗方式等情况与预后关系进行单因素分析,结果显示:PS评分、脑转移数量、脑转移时间、放疗方式和肺癌是否切除与患者预后有关。总体来说,晚期肺癌患者尤其是出现脑转移患者的预后较差,生存期较短。

P值:统计学根据显著性检验方法得到的P值,一般以P<0.05为显著,P<0.01为非常显著,其含义是样本间的差异由抽样误差所致的概率小于0.05或0.01。实际上,P值不能赋予数据任何重要性,只能说明某事件发生的几率。

2)几点启示

.COX多因素回归模型在临床的应用中的确有不可替代的作用。COX回归用于生存分析数据,这一点所有人都知道。这是因为COX回归在分析时无须考虑数据分布,直接便可以应用。所以,从简便的角度出发,更多人喜欢用COX回归。

.COX回归跟Logistic回归模型十分相似,极尽简单和优美的特色。COX回归和Logistic回归是流行病学工作中两大主要数据分析工具。

.COX回归尽管应用广泛,但也不能说任何生存数据都可以用它来分析。它有一个重要的前提假设,即等比例风险,它表示某因素对生存的影响在任何时间都是相同的,不随时间的变化而变化。

.在晚期癌症的诊疗方案中,国内医学文献对数据挖掘工具的利用效率还十分落后,其中对大样本、规范性数据的获取仍然是制约中国临床医生科研水平的重要因素,临床数据标准不规范,病倒数据不能共享是制约中国临床科研水平的首要因素。

3)方卡检验:是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合,偏差越小,卡方值就越小,越趋于符合,若量值完全相等时,卡方值就是0,表明理论值完全符合。

案例1:1992年,抗抑郁药物罗西汀(paxil)获准上市;1996年,降胆固醇药物普拉固(pravachol)正式开售。两种药品生产企业的研究证明:每种药物在单独服用时是有效且安全的。可是,患者要是同时服用两种药是否安全,没有人知道,甚至很少有人想法。临床药品成千上万,我们怎么可能对任意组合的两、三种药联合应用的安全性和有效性进行逐一研究呢?数据挖掘很可能是一种有效的、快速的、主动式的探索多种药品联合应用问题的方法。

COX回归和Logistic回归是流行病学工作中两大主要数据分析工具。

3、聚类的临床医学意义

案例:基于聚类的心电信号分类方法研究

1)背景:心电信号是心脏的一种客观表现方式。心电图能准确地反映出心脏兴奋的电活动过程,它对心脏基本功能及其病理研究方面,具有重要的参考价值,常用于对各种心律失常,心室心房肥大、心肌梗死、心肌缺血、电解质紊乱等病症的检查。也可用于床边24小时昼夜监视病人的心脏。

心电信号的脉冲数据解读是一个专业性很强的工作,往往受到医生个人知识水平,经验的限制,因而十分适合数据挖掘与机器学习的方法来实现大规模数据的批量处理。

2)聚类的原理:按照相似的特征进行分类,聚类分析就是根据模式的特征空间颁布,按照点与点之间的距离大小确定它们的相似度。聚类与分类的不同在于:分类所要求划分的类是已知的,而聚类所要求划分的类是未知的,所以,聚类方法也称为无监督法。

3)根据模式识别的理论,有了采样数据后需要对数据进行预处理。(R点前后50--100点图)

4)数据的降维处理:我们可以把这由100个数据点组成的波形直接用来分类,然而100维的数据对于作为输入到分类器中的特征值来说显得过于冗余。而且100维的数据对于计算机计算和硬件支持也带来不少压力,因此需要对数据进行有效特征提取或降维。(55个数据点来表示一个心电信号波形是可行的)

5)曲线拟合:对数据进行特征撮的方法有很多,如小波分析、神经网络训练等,曲线拟合也是其中一种很常用的方法。曲线拟合就是使用一条光滑的曲线近似地去逼迫一个平面上的一系列点,这是一种用解析式逼近离散数据的方法。在求得一个解析式后,就等于把离散数据点转化为函数中的参数表示,这样能起到有效的降维作用。

6)傅里叶级数拟合:傅里叶级数说明,任何周期函数都可以用正弦函数和余弦函数构成的无穷级数来表示。傅里叶级数在数论、信号处理、统计学、声学等领域都有广泛应用。我们可以增加阶数来提高拟合精度。如一个6阶的傅里叶级数对于某些波形来说,拟合程度已经接近于1。

我们把55个有效数据点作为一条记录去进行函数拟合,结果发现利用傅里叶级数拟合的方法对于大多数类似于正常的QRS波群能够很好地进行拟合,一个6阶的傅里叶级数拟合精度就能达到0.99以上,而且函数的参数只有13个,大大降低了数据的维数。

7)聚类算法的实现---K-Means算法:首先假设有若干个数据队列集合等待聚类,随机选择K个对象为第一次聚类的中心点,依据每个元素相对于中心点K的距离远近进行聚类,然后按照调整后的新类使用平均值的方法计算新的聚类中心;如果相邻两次的聚类中心没有任何变化,说明样本调整结束且聚类平均误差准则函数已经收敛。这样多次迭代后就可以确保每一个样本的正确聚类。

聚类又称群分析,它是研究分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。聚类算法----降维(傅里叶级数拟合)---数据处理----迭代。

4、贝叶斯算法的应用案例

贝叶斯开启了不确定性问题的解决方案,成为统计学历史上的飞跃,也终结了统计学大多灵敏解决确定性问题的历史,开启了概率论的新篇章。毫不夸张地说,贝叶斯理论的出现对疾病数据的研究如虎添翼。

1)研究方法与模型

.本体论:Perez在他的论文中总结出本体包含5个基本的建模原语。这些原语是:类、关系、函数、公理、实例。类即为概念,如高血压、血常规、血生化、个人史等。关系代表了概念在领域之中的相互联系,如子类关系、逆关系。函数是一类关系,不过它比较特殊,类似数学函数,由一部分内容能推出另一部分的结果。公理是那些无须去证明的客观事实或规律。实例是类的对象,代表元素。

.贝叶斯网络模型:在医学诊断中,不确定性来自于信息的不完整或者不可靠,或者知识的不一致性导致决策者不能评估假设的真实程度。

本文选用本体和贝叶斯网络的方法来处理知识管理以及不确定性。本体能够将领域知识表达成机器可读的形式。它能够表达大型、复杂的领域的组织结构,但是它不能够处理不确定性,这是本体应用的一个短板。贝叶斯网络在解决不确定性知识的置信度时非常有效,适用于不确定知识的表示及推理。为了克服彼此的缺点,本体和贝叶斯网络能够互补。因此,可以创建一个本体驱动的贝叶斯网络模型。

2)小结:本意提出的本体驱动的贝叶斯网络模型能够自动解析本体中实例之间的层次关系,来动态地构建贝叶斯网络,充分利用了本体表达能力强并且具有语义性的优点。另外,该模型也利用了贝叶斯网络能够解决不确定性和非完全性信息的优势。

向本体文件中添加新的实例后无须做任何代码更改,只需重新读取本体文件即可更新贝叶斯网络模型。本文提出的医学本体模型具有一定的通用性,可以很容易地进行本体扩充并将其用于其他疾病的诊断。

应用本体论,贝叶斯网络算法对高血压患者心血管风险进行分类是对贝叶斯概率分布最有效的医学运用之一。

感悟:在众多数据分析方法及数据挖掘算法中,如何能在最短的时间学习针对医疗数据分析及数据挖掘核心的技术。本章给出了答案----COX、聚类算法、贝叶斯网络模型。对于刚接触数据分析及数据挖掘的初学者来说,能接触到这一些知识内容受益无穷呀。

第4章 临床医学的模式识别(数据挖掘)

1、模式识别是什么

模式识别主要是对语音波形、地震波、心电图、脑电图、图片、照片、文字、符号、生物传感器等对象的具体模式进行辨识和分类。

临床医学的模式识别形式多样,一张CT片的判读,一个病理分型的确认,一种术式的疗效,一个靶向治疗的方案,临床医学的模式识别与疾病类型、生物特征、诊疗方案息息相关。临床医学的模式识别的类型主要有解释性建模、描述性建模、预测性建模、序列模式建模,知识性建模、依赖关系建模、异常与趋势建模等。

2、决策树算法

1)背景:肝功能衰竭是肝癌肝部分切除术后危险和致命的并发症,为了减少手术风险,术前准确客观评估肝功能及预测术后剩余肝实质储备功能到至关重要。

本研究回顾笥分析2009年2月到2010年7月南京医科大学第一附属医院肝脏外科,采用东京大学肝胆胰外科制定结合AEI吲哚清除试验的决策树评估82例肝癌患者的肝功能而选择手术方式,探讨该决策树在评估肝脏储备功能中的临床应用价值。

2)对象与方法:本研究严格遵照东京大学肝胆胰外科制定的结合AEI吲哚氰绿清除试验的决策树行肝部分切除,术后无重大并发症及再次,术后均安全出院。

3、算法的规律与临床医学的本质:

算法的本质是什么:利用关联规则的Apriori算法分析高考成绩对医学生基础医学课程成绩和临床医学课程成绩的影响,总结高考成绩对医学生专业课成绩影响的规律。这些规律对专业建设、培养方案制定、课程设置、教学效果检查、教学方法改进等有积极作用,并且能够为教学管理决策提供依据。这就是算法的本质:模式识别。

无论是解释性建模、描述性建模、预测性建模、序列模式建模、依赖关系建模还是异常与趋势建模都可以具体表现为大数据的分类、回归分析、聚类、关联规则、神经网络方法,这些方法从不同的角度对数据进行挖掘,其本质是借助计算机从数据中找规律。

常见的数据挖掘算法包括决策树算法、关联规则算法、聚类算法......

第5章 医学数据挖掘的常用工具

1、SAS挖掘软件、Weka软件、Matlab软件

2、R语言案例:R语言是一个用于统计计算及统计制图的优秀的开源软件,也是一个可以从大数据中获取有用信息的绝佳工具。它能在目前主流操作系统上安装使用,并且提供了很多数据管理、统计和绘图函数。

例子:使用R语言所提供的函数的强大的函数库来构建一棵决策树并加以剪枝。

决策树为什么要剪枝?原因是避免决策树过拟合样本。前面的算法生成的决策树非常详细并且庞大,每个属性都被详细地加以考虑,决策树的树叶节点所覆盖的训练样本都是“纯”的。因此用这个决策树来对训练样本进行分类的话,你会发现对于训练样本而言,这个树表现完好,误差率极低且能够正确地对训练样本集中的样本进行分类。训练样本中的错误数据也会被决策树学习,成为决策树的部分,但是对于测试数据的表现就没有想象得那么好,或者极差,这就是所谓的过拟合问题。在数据集中,过拟合的决策树的错误率比经过简化的决策树的错误率要高。

3、临床医生如何用好挖掘工具

1)案例:基于R语言的基层门诊用药大数据分析

2)目的:利用卫生信息技术探索基层医疗卫生机构门诊用药规律,为卫生管理决策和临床合理用药提供依据

3)数据集:四川省基层医疗机构管理信息系统,提取某县5个乡镇卫生院门诊2012年9月~2014年3月用药,采用R语言对门诊大数据进行分析。数据集字段:就诊日、就诊者性别、年龄、诊断、门诊用药等。

4)结果:基层门诊使用最多的是维生素B6片,维生素C片、头孢克肟分散片等类药物,药品合并并使用情况明显。

5)方法:使用R语言3.1.0版本,配置arules关联规则分析包,eclat函数计算频率项,apriori函数挖掘关联规则,参数设置s(支持度)为0.03,c(置信度)为0.02。

6)过程:A、基层门诊开具的单药频繁项:单药频繁项通过arules包中的eclat函数,设置参数最小(支持度S为0.04)求频度项集。B、多药频繁项:通过arules包中的eclat函数,设置参数最小(支持度S为0.04)求多种药物(2种)频繁项集。

7)结论分析:基层用药以治疗上呼吸道感染、腹泻、咳嗽等常见病、多发病为主,用药品种相对集中,可为卫生管理部门基本药物遴选、评价、招标、配送等提供参考和为基本药物循证医学评价提供指导。结果显示,维生素类药物使用过于频繁,其中维生素C和维生素B6片使用最有频繁,且一般作用辅助用药出现,提示可能存在维生素类药物过度使用的情况。研究还发现,激素类药物和抗生素类药物使用比较偏高。

感悟:数据挖掘技术进行多药频繁项集的计算,进行多种药相互之间影响的探索。在计算机与大数据时代,医学论文中几十、数百个病例的小数据时代就要成为过去,在数据挖掘工具的导引下,十万条、百万条乃至千万条数据的大数据时代正在来临,这样的技术趋势必将改变临床数据处理的规则。

你可能感兴趣的:(《医疗革命》的读书笔记)