大数据时代的生物医学

【题】大数据时代的生物医学
【出处】《中国计算机学会通讯》第 9  9  2013  9 月刊
【作者】刘 雷

 

关键词:大数据 生物医学

大数据时代的生物医药科学研究活动特点

如今大数据时代已经悄然而至。生命科学领域里以脱氧核糖核酸
(deoxyribonucleic acid, DNA) 双螺旋结构的提出为起点,在20 世纪后期出现了飞跃式的发展。几个具有重大意义的技术革新,如基因的一代测序、二代测序和各种组学的技术等大大加速了生命科学领域数据的产生速度。现代数字化医疗系统也正在产生海量的数据。生物医学的数据研究活动呈现出其自身的特点:

数据量特别庞大
由于现代科研技术的发展,现代生物医学研究会产生大量的数据,有些实验甚至可达TB级。互联网的广泛应用又使得原来彼此之间相互孤立的数据可以相互交换、对比并且即时更新。生物医药领域建立起大量专用数据库,这些数据库之间又通过互联网技术连接共享。这些都使得数据量在横向上迅速增大。

数据复杂异构
数据的来源以及试验人员的差异直接影响使用者的感受。数据的形式、格式也是多种多样,既有可直接计算的数值数据,也有不可直接计算的自然语言。现代生物技术中的仪器设备也都有各自不同的数据输出格式。就医学影像来说,各个计算机断层成像(computed tomography, CT)厂家的仪器都有各自的数据格式,数据交换很困难。为解决这个问题,医疗影像行业内制定了数字影像和通信(Digital Imaging and Communication in Medicine, DICOM) 标准,可将不同格式的影像数据转换成标准数据模式。标准化是解决数据异构的一种方法。

数据驱动
大数据时代的来临对实验科学产生了重大影响。其中,生物医药领域里科学研究的一个重要发展趋势就是数据驱动。以前进行实验的目的是获得结论或者是提出一种新的假设,而现在通过对海量数据的研究来探索其中的规律,可以直接提出假设或得出可靠的结论。


大数据实例

第二代DNA测序技术

 

第二代测序技术(next generation sequencing) 也叫新一代测序、高通量测序技术。二代测序可以一次对几十万到几百万条DNA 分子进行序列测定,使得对一个物种的转录组和基因组进行细致全貌的分析,以及在极短时间内对人类转录组和基因组进行细致研究成为可能,是对传统测序的一次革命性改变。二代测序的核心思想是边合成边测序( sequencing by synthesis, SBS),即通过捕捉新合成的末端的标记来确定DNA 的序列。与传统的桑格(Sanger)测序技术相比,新一代测序平台最大的变化是无需克隆这一繁琐的过程,而是使用接头进行高通量的并行聚合酶链反应(polymerase chain reaction,PCR) 直接测序,并结合微流体技术,利用高性能的计算机对大规模的测序数据进行拼接和分析。新一代测序平台所产生的数据量是巨大的。使用第一代ABI 3730XL 毛细管电泳测序仪进行基因分析,每年至多能完成6000万碱基的测序量。而在2005 年刚刚开始进行新一代测序技术开发时,Roche 公司和454 公司联合开发的焦磷酸测序仪的分析速度就已经达到了上述提及的ABI 仪器速度的50 倍以上。如今,新一代测序平台SOLiD 单次运行,便可以分析6GbGigabasepairs10 亿碱基对)的碱基序列;5500 SOLiD 能够对最长75 个碱基的DNA 片断进行测序,每周能够产生大约100G DNA 碱基序列;454 测序仪单次运行则可以将6Gb的碱基序列转换成12 ~ 15GB 的数据信息,如对平均长度为400 个碱基的DNA 片断进行测序,每周能够产生大约10G DNA 碱基序列。而Illumina Genome Analyzer(GAII)测序系统仅在两个小时的运行时间里,就得到10TB 的信息。Solexa 能够对最长150 个碱基的DNA 片断进行测序,每周能够产生大约200G DNA 碱基序列。将如此庞大的数据称为“大数据”,当之无愧。在飞速增长的数据量面前,科研人员感受到了巨大的压力,在数据存储、数据分类、数据处理等多个方面也随之产生了种种考验。

目前问题在于,测序仪生产商仅仅提供用于某些特定基因信息分析的软件,如靶标重测序、基因表达分析、染色质免疫沉淀反应或基因组从头测序等,而并未提供任何其它类型的下游生物学信息分析软件。虽然有多名科研人员致力于研究开发二代测序结果分析软件,但迄今为止,并没有出现一款集有效性和权威性于一体,得到学界公认的二代测序结果分析工具。由于二代测序的大数据将为后续工作带来如此多的考验,并且这些难题也从技术和经济层面上增加了二代测序的成本,因此尽管二代测序能提供更多的信息,更多科研公司依然会选择相对便宜的一代测序。

综上所述,虽然二代测序技术的发展正在渐趋完善,但却未能发展出与其所带来的“大数据”相配的
生物信息学手段。若期望二代测序从大型测序中心走入普通科研人员的实验室,则还需要研究人员付出更多的努力。只有开发出经济实惠的分析软件以及数据管理系统,二代测序技术才能真正普及化。

医学影像

医学影像是指为了医疗或医学研究,对人体或人体某部分,以非侵入方式取得内部组织影像的技术与处理过程,包括影像构成、撷取与储存的技术以及仪器设备的研究开发。医学影像数据主要来源于
CT 成像、磁共振成像、超声成像、核医学成像等,大多是二维和三维的数字图像数据。医学影像数据具有数据量大、数据类型复杂、规定保存时间长等特点。随着现代医学技术发展,医院的诊疗工作越来越多地依赖于现代化的检查结果。像光检查、CT超、胃镜肠镜、血管造影等医学影像检查的应用也越来越普遍,随之而来的就是医学影像数据的海量增长。同时,医学影像数据通常需要保存很长时间。随着医学影像存储与传输系统( picture archiving and communication system, PACS) 的发展与广泛应用,各大医院的各种医学影像数据已激增至数十乃至数百TB。这个数量仍在加速增长,不久就可能突破PB 级,对当前数据系统的存储和数据读写能力提出了巨大挑战。

由于在临床诊断和医学研究方面,对图像数据的分辨率和准确性都有着较高的要求,所以医学影像的图像数据通常比一般的图像数据更大和更复杂。来源于不同成像技术的图像数据之间差距极大,异构明显。医学影像信息的模式具有多态性,数据信息的多源性带来了其时序性和非时序性共存、数字型数据和非数字型数据共存的特点。医学影像信息的多模式特性是其区分于其他领域数据的最显著特性,也加大了医学影像数据的分析和处理的难度。同时,由于临床诊断或研究上的需求(如作为判断病情发展的依据或研究材料等),医学影像数据通常需要保存长达数年甚至更长的时间。


健康档案

健康档案从概念上来说,包括两个部分:面向社区健康管理的电子健康档案和面向个人用户的个人健康档案。两者的关系是,个人健康档案是基础,包含了个人一生中所有的健康信息;社区电子健康档案是汇总,是与区域疾病防治、区域医疗相关的健康信息。无论是哪种健康档案都具有以下三个特点:

第一个是具有持续、大量增长的特点。以健康档案必须收集的医疗数据为例,根据估算,中国一个中等城市(
1000 万人口)50 年所积累的医疗数据量就会达到10 PB 级。此外,健康档案需要收集个人的日常健康数据(如饮食习惯、生活习惯、日常生理指标等,可以从中预测个人的健康趋势,为个人提供有效的疾病预防建议),这方面的数据量会比医疗数据更加庞大。而如此庞大的数据量对数据的存储效率、查询效率也提出了更高的要求。

第二个特点是数据格式复杂,不容易整合。这些数据可能来自不同的医院、社区卫生机构、日常健康监测设备等。

第三个特点是,数据模式会根据时间的推移不断变化、演进。健康档案需要记录个人一生的健康信息。单以医疗数据而言,随着时间的推移,已知疾病的治疗方式会改变,新的疾病和相应治疗方式会不断出现,这些可能导致常规检测指标的内容和标准发生变化。而这一切将导致医疗数据模式的一致性无法保证。因此,一旦医疗数据模式发生变化,如何保持与原有医疗数据模式的兼容也是必须考虑的问题,否则无法正确使用原有的医疗数据。

此外,在收集日常健康数据进入健康档案时,如何保证数据的准确性、有效性也是建立健康档案时必须考虑的问题,并且也是一个很大的挑战。以测量血压为例,不同的姿势会导致血压的波动。当用户在家测量时,若能保证测量姿势的准确,也就无法保证测量数据的准确性;同时,就算测量姿势准确,若测量时产生情绪波动,也会导致血压变化。在这些情况下采集的数据都无法用于血压分析,是无效数据。因此在日常健康数据采集过程中,需要加入数据清理功能来过滤这些数据。

医学文献

现代科技与医学事业快速发展,医学模式发生历史性变化。传统的“生物医学模式”正在向“生物-心理-社会”
模式转化。医学涉及学科的急剧增加和细化造成医学知识的数量剧增,获得医学知识的重要性显得尤为突出。医学信息不仅成为重要的资源,而且成为医学界知识更新的主要来源和重要工具。医学信息资源占据约30% 以上互联网信息资源。医学文献的数量正以惊人的速度增长。据统计,全球医药类期刊近万种,每年发表论文200 多万篇并且以每年7%速度递增。例如:国际著名生物医学数据库 PubMed 的数据量达到近2000 万条记录,每年以60 ~ 70 万余条的速度递增;生物医学与药理学文献数据库Embase的数据量达1100 余万条记录,每年新增50 万条。临床医生平均每天必须阅读19 篇专业文献,才可能跟上医学发展的速度。现代医学正面临“知识爆炸”的挑战,而这也带来了医学信息检索的复杂性。


大数据时代的医学伦理与数据安全

大数据隐私问题是不容回避的现实挑战。一方面,科学技术的发展对大数据的依赖越来越大,开源与数据共享已经成为生物学研究重要的驱动力量。但是,随着人们对隐私问题特别是基因组隐私
(genomic privacy) 问题的关注,将来对一些重要信息的访问可能会受到限制,例如个人基因组数据。另一方面,患者的参与度越高,生物医学研究项目成功的可能性越大。但是,如何让患者从中受益,如何进行利益共享是人们面临的一个问题。科研人员必须尽可能地找到保证患者隐私的方法,这样才能在大数据研究中获得公众的信任。解决这一问题的关键是:告知患者生物学和临床研究的进展可能给他们及其后代带来的利益和风险,并向他们解释为什么研究人员采集的高位数据无法完全地去除身份信息。患者通常会认为研究人员会保证他们的隐私不会被泄露,但实际情况是研究人员只能保证不主动泄露隐私信息,而被动地或不自知地泄露是非常普遍的。因此,患者应在允许科学研究共享其健康与医疗数据时被赋予更多的权利。立法机关应及时根据科学技术的进展制定法律,以保护个人不会因为个人隐私而受到歧视。2008 月,美国总统布什签署了一项法律——《遗传信息非歧视法》(Genetic Information Nondiscrimination Act,GINA )。该法案的主要精神是,维护那些其遗传信息显示具有倾向于患有某种疾病(例如癌症或心脏病)的个人权利,反对歧视行为,这为我们提供了借鉴。


总结和展望

我们可以看到生物医学领域的大数据时代正在来临,其发展将促使我们尽快构建一个实时、便捷、全方位的医药领域研究与应用系统。在生物信息方面,我国还没有设立类似美国国家生物技术信息中心 
(The National Centerfor Biotechnology Information, NCBI) 和欧洲生物信息研究所(European Bioinformatics Institute, EBI) 那样的机构,专门从事生物信息数据的管理、汇聚、分析、发布等工作。因此,国内的生物信息资源整合还有很多工作,面临很大困难。在医学信息方面,我国还主要处在对医疗流程的信息化管理、质量控制等初级阶段,尚未开展面对“大数据”的系统研究与挖掘。但这种研究与挖掘必将成为生物医药科学技术发展的趋势,未来的赢家必然是以大数据为核心的技术。大数据的到来,既对临床医生、医院、研究人员、医疗监管机构等都提出了巨大的挑战,也为生物医学研究带来了前所未有的机遇。如何有效地利用这些信息并最大程度地减少伦理相关问题对个人和公众的困扰,是亟待解决的重要课题。

你可能感兴趣的:(生物,大数据,信息化)