某公司国家863项目申请计划书,有幸参与其中,现将部分构思设想与大家分享,希望可以获得更多的交流。
1.主要研究技术内容的国内外发展现状与趋势
2013年是世界大数据元年,基于大数据的信息挖掘引发了医疗领域的巨大变革。大数据的“大”不仅表现在数据的规模性,而且体现在存储、处理、分析数据的高速性上,而数据也不仅仅体现在数字化数据,如今定义的数据不再仅仅局限于数字,更广义的文本、图像、声音、HTTP文本和传感器信息等一些可测量的信息都将数据化。IBM将“大数据”理念定义为4个V,即大量化-Volume、多样化-Variety、快速化-Velocity以及产生的价值-Value四个属性。例如,2009年,美国谷歌(Google)公司在《自然》(Nature)杂志上发表了关于流感预测的论文,成为大数据在医疗卫生应用的典范,在医学界引起巨大反响。Google公司把5000万条美国人最频繁检索的词条和美国疾病预防控制中心(CDC)在2003~2008年季节性流感传播时期的数据进行了比较,希望通过分析搜索记录来判断是否流感暴发。结果显示,Google公司的数据不仅可以预测流感的暴发情况,而且可以具体到特定地区和州。又如麻省理工学院、密歇根大学和一家妇女医院创建了一个计算机模型,可利用心脏病患者的心电图数据进行分析,预测在未来一年内患者心脏病发作的几率。在过去,医生只会花30秒钟来观看用户的心电图数据,而且缺乏对之前数据的比较分析,这使得医生对70%的心脏病患者再度发病缺乏预判,而现在通过机器学习和数据挖掘,该模型可以通过累积的数据进行分析,发现高风险指标。有报告显示,医疗大数据的分析会为美国产生3000亿美元的价值,减少8%的美国国家医疗保健的支出[18]。
另一项是英国临床实践研究数据库(CPRD)的数据研究,用巢式病例对照研究的方法分析了含钠药物制剂对心血管事件发生率的影响。该研究的对象为1987年1月至2010年12月期间、服用至少两种含钠盐的药物制剂或相同药物标准制剂的成人初级保健患者,对1300000例患者进行了长达7年的随访,共记录61000次心血管事件。对于每一个病例都设有一个年龄、性别及临床治疗相匹配的对照。研究发现服用含钠制剂的研究组相比于对照组主要复合终点(非致死性心肌梗死、卒中和血管性死亡)的发生率明显增高,且二者存在着剂量-效应关系,即通过药物累积摄入的钠越多,发生主要复合终点事件的风险越高。与服用相同药物不含钠制剂的对照组相比,服用含钠药物制剂的患者发生卒中的可能性和患高血压的风险显著增高。服用富含钠的制剂的患者其全因死亡率也显著高于对照组,但没有证据表明药物含钠量与心肌梗死或心力衰竭相关。
(2)我国目前大部分的医院数据库均是静态数据,无法满足动态、实时更新的需求。
目前,全国大部分的医院所存数据均是静态数据,无法实时、动态利用新数据,并且各医院之间数据缺乏统一、共享机制;目前,虽然冠脉诊疗的数据库已拥有一定基础,但该类型的数据库只能定期汇总数据,不能满足实时快速的应用要求,数据内容分析简单,远远达不到对于大数据应用处理分析方面的要求。随着每年PCI数据内容的不断增大,目前需要建立一个大容量、数据结构统一、数据能够实现动态更新的PCI大数据库,一个面向全国的集采集、存储、管理、分析及服务于一体的大型心血管数据平台与系统,实现数量与实时的双向需求。
(3)我国在心血管数据管理与分析方面比较薄弱,存在很大的差距。
我国已拥有海量的有关冠脉诊疗的临床数据,数据的管理与统计分析已具备一定的基础,但运用大数据技术进行冠脉数据挖掘与利用的水平还比较薄弱。大数据技术在银行金融和零售服务等行业已得到成功的运用,其技术已相对成熟,将该技术应用到冠脉数据的分析与挖掘,可促进PCI技术的发展与进步,造福广大医生与患者。
(4)针对国内现状制定符合我国国情、患情和医情的PCI全周期数据采集与分析系统
针对中国老百姓及心血管医生对高水平数据研究服务的迫切需求,本项目将对海量心血管疾病PCI数据进行采集、存储、分析,得出有价值的信息,达到对流行疾病的预测及心血管疾病的预防作用,帮助医生及企业制定终端解决方案,提供实时查询检索、在线咨询会诊、数据管理下载平台等服务。
1.1.1数据采集
数据源所涉及的对象包括医疗机构、区域公共卫生机构,医疗机构的HIS、LIS、PACS、CIS以及便携设备数据上传系统等数据构成总体架构最基本数据源,数据源通过医疗机构、区域公共卫生机构等的前置机进行采集,再通过前置机内置路由网关传输到数据平台,数据源层完成了各个分散系统的数据采集及传输。
数据存储层则基于并行数据库系统以及Hadoop发行版及标准数据库实现。用来存储从每个医疗数据源收集来的海量结构化和非结构化数据,数据处理层对数据进行处理,其处理内容包含:数据清洗、数据校验、数据转换。处理对象包含标准数据及非标准数据,处理的数据结构包括非结构化数据、半结构化数据及结构化数据(如非结构化数据的简单分析--过滤和统计、基于计算模型进行结构化数据和非结构化数据的统一关联和统计处理、复杂的分析和挖掘以及复杂问题的近似模糊求解等操作)。被处理的数据最终转化成符合医疗卫生信息化标准的卫生综合数据,标准数经过ETL后存入医疗中心数据仓库,为大数据应用做数据准备。
1.1.2数据处理
针对医疗行业大数据应用特点,采用多项创新的结构化与非结构化数据一体化处理、并行处理、SQL/MapReduce统一执行引擎、分布式容错及自动故障处理、复杂数据类型关联分析、多IP通路负载均衡、处理任务断点执行、动态扩展等技术,从服务器、网络、操作系统到软件层逐层优化,保证系统具有高性能、高可靠、易扩展、易使用等特点。
分别为不同类型的数据集制定统一的元数据描述框架,规范变量名称与结构,并建立主索引。利用面向大数据的Map Reduce算法等实现数据的分布式处理。针对文本型数据,采用基于机器学习的自然语言处理技术、一体化医学语言系统(UMLS)等医学术语标准、语义网、数据关联技术将异构的非结构化PCI电子病历、图形影像、临床检验等核心数据结构化,并进行语义整合。针对数值型数据,采用散点图、频率分布、列联表等识别和处理异常值、逻辑上不一致的值,消除噪声;推导计算缺失值数据,消除重复记录,并根据分析需要将数据拆分、转换类型、归一化等。经过抽取、转换、加载(ETL)后的数据将分门别类存储到数据集市。
通过逐步回归、关联规则挖掘、相关分析、决策树归纳法等方法进行特征选择,通过回归、对数线性模型、主成分分析、聚类分析等模型构建将一群变量变成一个变量,从而消减数据块,减少数据挖掘时要考虑的特征数。采用联系分析处理(OLAP)技术、面向属性的归纳方法等总结数据,实现对数据上卷下钻,满足不同粒度的分析挖掘需求,为数据深度分析挖掘和可视化展示奠定基础。
通过众包(crowdsourcing)的方式开展大规模创意协作,收集用户创意和反馈数据。利用Web2.0技术开设虚拟实验室,为用户提供在线工具帮助他们参与到心血管疾病诊疗器械的设计中。通过广大用户的参与,拓展专业研发人员的思维。通过自然语言处理、文本挖掘技术分析用户创意与观点,再结合使用效果监测数据,利用遗传算法改良心血管疾病诊疗器械设计,使其以更低的成本具有更高的精度,更契合用户的需求。
1.1.3数据分析
心血管疾病诊断分析:综合采用贝叶斯原理、关联规则、支持向量机、聚类分析、遗传算法、人工神经网络、回归分析等算法挖掘心血管疾病与症状之间的关系,优选诊断试验,预测症状发生时可能发生的最少疾病集合,并通过决策树、流程图、规则推理等方法构建心血管疾病诊断知识库,为心血管疾病预警、辅助早期诊断、诊断指南制定等提供大数据依据。
心血管疾病治疗分析:比较分析不同医院的各种心血管疾病诊疗规范及治疗结果,综合采用生存分析、回归分析、决策树、遗传算法、马尔科夫模型等多种预测模型分析不同疗法后心血管病人的生存时间及影响因素,对比分析不同疗法、不同器械的适应证及疗效,为我国心血管疾病治疗方案选择、治疗规范制定、医疗器械改进提供依据。
决策支持模型研究:充分利用区域平台采集的大量医疗和卫生数据,采用先进的BI信息分析、挖掘、视图展示等技术,进行数据多维分析和挖掘,趋势、预测分析和规划,为各级政府部门的科学决策提供及时、准确、全面的信息支撑,同时提高对深化医疗卫生体制改革中各项任务实施情况的动态监测和宏观的调控能力;
流数据实时监管:改变以往人工统计报表和人工填报评估系统来监管和考核的方式,帮助政府卫生主管部门更科学地、更有效地实施规划、执行、监管等管理职能,对医疗机构进行实时和动态的监管;
医疗信息服务:为医疗科研和其他机构提供医疗卫生方面的数据分析、挖掘和信息共享服务。
自动报表生成:报表数据统计查询及时、快速,具备丰富的可视化表现形式(表,Dashborad , 仪表盘,驾驶舱,地图GIS),多维分析,可以跨系统异构;
数据可视化:采用商务智能(BI)等技术,以统计图、表、仪表盘、驾驶舱、地图GIS、三维图等展示重要分析结果,并定制心血管疾病诊断报告、医院运营报告、医保运行报告、药品成本效益报告等。通过应用系统,提供给使用者直观展示。
高性能数据分析:处理大批量数据不延迟,数据库查询快,对业务系统无影响,不会影响其他系统的使用或者瘫痪;支持多维数据结构,具有大量数据进行分布式处理功能,同时系统能自动升级,异构跨平台。
1.1.4数据应用
数据应用层为大数据应用平台提供类型丰富的访问接口及方案服务与平台服务,包括Search API、Pig、Hive QL以及专为用户设计的SJDBC(类JDBC)和UDF(用户自定义函数)接口,方便用户的使用。可以通过各种API开发接口搭建面向于所有的用户(医院、专家、医生、患者),区别于一般的医疗行业平台,其容量更大,通过后台可以把任何想让客户及公众知道的内容放入平台之中。
在此项目基础上,本项目可持续开展的后续研究内容:未来几年内将实现跨越式的产业战略升级,移动医疗将作为乐普公司重点发展方向,通过研究开发的可穿戴医疗设备如E-IVD、E-Holter等采集到更加多样、全面的医疗数据,丰富、扩充数据库;在应用层可服务于企业终端解决方案及远程病患临床解决方案的制定以及血管机器人远程治疗平台的建设,为偏远地区缺乏优秀医疗资源的医院提供优质化服务。
1.1.5 心血管病流行病学现况分析
采集来源于各个医疗机构的患者电子病历、居民健康档案信息,收集整理心血管疾病临床数据、患者基本信息,构建疾病监测数据仓库。采用联机分析处理、数据挖掘技术,利用流行病学的方法对数据进行统计分析。实现疾病数据实时采集,进行疾病危险因素分析、疾病“三间”分布分析、疾病聚类关联分析、实验室数据分析等,对疾病流行特征和总体状况进行科学分析和评估。对不同时间、不同地区、不同疾病分期,不同人群的发病情况进行统计分析,形成图表展示;建立预测分析模型,进一步探索疾病分布演化规律,确定危险因素,并对疾病流行趋势进行预测,为决策者实现疾病监测、制定卫生政策提供科学支持。(未完待续)