医药行业的大数据时代即将到来,未来十年,将会逐渐对行业内产业链各个环节产生深远影响。
“大数据”这一名词 2012 年在奥巴马国情咨文中被重点提及,从此为大众所知,近几年来发展迅猛,已经在很多行业得到体现,国内比较经典的案例是阿里巴巴利用大数据分析作网络精准营销,颠覆了传统零售业。医药行业的变革历来发生较为迟缓,然而即使如此,医药数据的积累正在加速进行,我们认为从供给和需求两方面来看,医疗大数据即将迎来量变到质变的一刻。
生物大数据包罗信息多、价值大,若能有效挖掘,医药行业的每个参与方均有望从中受益。“精准医疗”的实现依赖于生物大数据的解读。美国总统奥巴马近日提出的“精准医疗”概念、和以往所说的“个性化医疗相似”,指针对同一种病、根据每个患者的不同情况采用不同的临床路径。其背后依赖于对各个患者多方面数据的积累,包括各种生物组学数据(基因组、蛋白组等)、患者病史、生活习惯、行为习惯等多方面,对比过往患病人群到相关数据,通过大数据分析,找出最优的治疗方案。这一理念的实现,依赖于生物大数据的积累、以及后续对这些数据的挖掘和解读。
我们认为生物大数据行业会有两个壁垒: 1)数据的积累; 2)数据的挖掘和解读。 前者是先进入该子行业的厂家具备的天然优势,例如华大基因在基因测序积累多年,中国人的基因样本库; 23andme 通过对个人服务积累的基因组数据库等。数据的挖掘和解读壁垒更高,从美国来看,目前涉足生物大数据处理和分析的公司主要有两类:一类是传统的 IT 公司和统计数据处理公司,例如 Google、 IBM、 SAS, 另一类是专职于生物大数据处理的公司,例如 NEXTBIO、 Knome 等。国内目前尚无专职处理生物大数据的公司,未来一定会有这种业态出现。
1. 数据积累 + 技术进步 = 生物大数据时代来临
1.1. 供给和需求双轮驱动,生物大数据时代已经到来医药行业的大数据时代即将到来
未来十年,将会逐渐对行业内产业链各个环节产生深远影响。“大数据”这一名词 2012 年在奥巴马国情咨文中被重点提及,从此为大众所知,近几年来发展迅猛,已经在很多行业得到体现,国内比较经典的案例是阿里巴巴利用大数据分析作网络精准营销,颠覆了传统零售业。医药行业的变革历来发生较为迟缓,然而即使如此,医药数据的积累正在加速进行,我们认为从供给和需求两方面来看,医疗大数据即将迎来量变到质变的一刻。供给驱动来自于医疗电子数据的积累、数据挖掘手段的提升和移动互联的普及。伴随着电子病历,二代测序,互联网医疗,药品网售、云存储这些全新技术平台出现,医疗数据电子化成为可能,医疗大数据的积累正在加速进行。同时移动互联和智能手机的普及,带来了全新的医疗、健康理念,获得患病人群和健康人群的即时监控数据成为可能。另一方面, GOOGLE、 IBM 这类 IT 龙头让数据挖掘、大数据分析的手段日益精进。需求驱动来自于以下方面。 1)医药产业链中各个环节的效率均有待提升:医保吃紧,医生资源紧缺,患者体验差、不满升级; 2)“精准医疗/个性化医疗”的需求:不同于以往基于人群统计结果的循证医学,精准医疗讲究“对人下药”而非“对症下药”,二代测序技术让精准医疗成为可能; 3)健康管理&慢病管理的需求:人口老龄化,癌症、心脑血管疾病、糖尿病等慢性病发病率逐年攀升,同时人们的保健意识逐渐苏醒,带来健康管理和疾病管理的需求。
1.2. 数据量的积累:量变到质变
医药行业是数据密集的行业,数据量正以爆炸式速度增加。按照 IDC Digital Universe Study2012 年的预测,截至 2020 年,人类产生和复制的总数据量将达到 40 万亿 GB,是 2010年的 30 倍。同时数据生成和共享的速度也在迅速增加,导致数据的加速积累。医药行业是数据密集的行业,囊括药企研发,科研进展,医生诊疗记录,患者各种病历,检测和用药记录,患者大健康数据,付费方(保险)赔偿记录等方方面面。 Intel 在 2013 年预测,到 2020 年,医疗数据也将会积累到万亿 GB 的量级。
1.3. IT 技术的进步让大数据分析成为可能
1.4. 生物大数据的应用已经存在: IBM Watson
以 IBM 的超级电脑 Watson 为例,生物大数据已经开始被广泛应用于临床诊断、医保分析、癌症研究、健康管理等多个领域。生物大数据的应用并非空中楼阁, Watson 是世界上最大的超级电脑,在大数据分析方面,设计医药行业的项目覆盖十分广泛,包括与WellPoint 合作进行药品福利管理和恶性肿瘤的临床诊断,与 BlueCross 合作进行医保数据分析,与 Sloan 癌症中心合作进行癌症研究、辅助医生进行癌症诊断等多个方面。 JP Morgan估计, 2017 年, Watson 的大数据分析可以为 IBM 带来 20 亿美元的收入。
2.生物大数据的来源
生物大数据将主要来源于四个方面:研发数据、诊疗数据、患者的行为和感官数据和医保数据。
研发数据主要指药企或科研机构进行研发获得的数据。包括药企从临床前、 I-III 期临床、 IV 期临床、上市后大量人群中进行疗效&副作用跟踪获得的数据;还包括最新的科研进展。
诊疗数据主要指患者在医院进行就医行为产生的数据。包括病历(电子病历),传统检测手段(生化、免疫、 PCR 等)、新兴的检测手段(二代测序、基因芯片等)、医生的用药选择、诊疗路径记录等。
患者的行为和感官数据指患者自身的、在院外的行为和感官所产生的数据。包括患者的家族病史、服药的依从性、以及通过各种可穿戴设备&即时监控设备&智能手机采集到的疾病管理、健康管理数据。还包括患者在互联网上的一些网络行为产生的数据,例如寻医问药、与患有交流等。
医保数据是指一切与付费方相关的审核记录、报销记录。包括参保人的病史、报销记录、药物经济学评价;同病种下人群诊疗路径比对等。
2.1. 诊疗数据:二代测序让数据积累实现了质的飞跃
传统的诊断手段目前依旧是诊疗数据的主要来源。传统的院内检测项目,例如生化诊断、免疫诊断、核酸诊断等,目前依旧体量最大,现阶段会是诊疗数据主要的组成部分。一些新的技术,例如基因芯片、二代测序等,目前由于技术新颖,尚未全面推广,未来随着成本下降,对临床指导作用会越来越强,替代部分传统的检测手段是大趋势。
二代测序(高通量)技术的出现让全基因组测序得以大范围进行。
2014 年 Illumina 在 JPMorgan 的大健康年会上宣布利用其二代测序平台,全基因组测序成本降至 1000 美金以下(多年前用一代测序进行人类基因组计划,成本是 30 亿美金/个基因组),同时二代测序的通量远高于一代测序,自此大范围的基因组测序成为可能,基因组数据开始迅速积累,逐步为临床操作和基础研发带来价值。
基因组数据价值极高、存在无限被挖掘的可能性。
基因组数据隐含生命全部密码,对临床、科研、研发价值极高,目前 CFDA 已经批准的应用是无创产前筛查,进行试点的有单基因病筛查,未来有望继续放开癌症早期筛查、癌症临床用药指导等后续应用。另一方面,积累足够多人群基因组数据库后,基因数据还可以实现帮助药企提升研发效率、进行疾病预警等功能。
电子病历的推广是趋势,保障诊疗数据电子化,是大数据分析的前提。
电子病历电子设备(计算机、健康卡等)保存、管理、传输和重现的数字化的病人的医疗记录。我国卫生部先后在 2010, 2011 发布了关于电子病历系统的规范和通知文件,近年来已在北京、上海等多个城市广泛试点,电子病历取代手写纸张病历是趋势。诊疗数据电子化是大数据分析的前提条件,届时临床全部的诊断结果、医生的处方行为、临床的诊疗路径和效果都可以在人群范围内实现集中分析。
2.2. 互联健康、移动健康登上舞台
大部分可穿戴设备尚未能提供医疗价值,但技术不断进步,数据会更值得挖掘。 目前的的可穿戴设备、移动健康设备采集的数据有以下几类:血糖(连续或间断)、心率、血压、体重、体温、睡眠、各种运动数据等。目前大部分的可穿戴设备走的依旧是酷炫娱乐路线,尚无证据证明大部分移动医疗设备所采数据具备临床价值。 Google 此前披露其智能手机 Project Ara 模型,已经具备心电、呼吸检测功能,尚有更多功能在开发当中。随着技术的进步,可穿戴提供的数据质量会更高、稳定性会更好,种类也会更多,其临床价值会更值得挖掘。
可穿戴的成功案例:WellDoc 的BlueStar,通过FDA 认证,临床价值明确。WellDoc 的BlueStar 是一款病人主导的糖尿病管理产品,进行了严格的临床实验证明其临床价值,是为数不多的通过FDA 认证的移动医疗产品之一,需要医生开具处方,II 型糖尿病患者才可使用,也侧面其已被正规医疗体系所接受。BlueStar 帮助病人进行自主糖尿病管理,可以提供即时血糖、血压、血脂监测,通过数据处理为医生临床决断给出建议;还可以给病人进行健康管理提醒。BlueStar 的成功也证明了可穿戴设备确实可以带来临床价值,其数据也值得积累和挖掘。
网络和移动互联的普及,患者行为将互联网化和数字化,提供新一维度的大数据。2014年是互联网冲击医药行业的元年,阿里巴巴力推未来医院、网络问诊平台春雨医生融资、处方药网售放开传闻。随着网络普及,部分就医、购药行为向网络端转移是必然趋势。然而更早的时候开始,部分患者已经会在网络上询问病情,患者寻医问药的行为网络化和数字化,为生物大数据增添了一个新维度。未来通过网络搜索+大数据分析做流行病学预测,精准推荐寻医购药信息在技术上都是可行的。
2.3. 研发大数据提升研发效率
研发数据包含了药企目前所有临床前、临床的研发数据、科研机构进行基础研究的研发数据、以及药品上市后,后续对药效和安全性进行跟踪的相关数据。远期来看,互联网、云存储、大数据会带来药企研发模式的变革,有望提升新药研发效率。在这一领域尚处于愿景阶段,部分巨头跨国药企已经开始有所尝试:GSK 2013 年和统计巨头SAS 合作开展药企R&D 数据公开的项目,旨在通过分享经验,加紧和科研界的合作,避免业内重复研发、资源浪费的情况。医药大数据助力研发的另一个方向是希望通过对产品上市后用药人群分析,检测其疗效、副作用,来指导临床前分子实体的筛选,从而达到提高研发成功率的目的。
3. 生物大数据潜在应用广泛
生物大数据包罗信息多、价值大,若能有效挖掘,医药行业的每个参与方均有望从中受益。
临床决策支持,“精准医疗”的实现依赖于生物大数据的解读。美国总统奥巴马近日提出的“精准医疗”概念、和以往所说的“个性化医疗相似”,指针对同一种病、根据每个患者的不同情况采用不同的临床路径。其背后依赖于对各个患者多方面数据的积累,包括各种生物组学数据(基因组、蛋白组等)、患者病史、生活习惯、行为习惯等多方面,对比过往患病人群到相关数据,通过大数据分析,找出最优的治疗方案。这一理念的实现,依赖于生物大数据的积累、以及后续对这些数据的挖掘和解读。
生物大数据可帮助患者更好的进行健康管理和疾病管理。健康管理和疾病管理在我国刚刚起步,考虑到人口老龄化、慢性病发病率升高、居民健康意识提升等多方面因素,未来是极有潜力的市场。大数据模式下的健康管理和疾病管理,通过收集对象的健康档案、疾病档案、生活状态、睡眠质量、心理表现等生理或心理方面的行为数据,进行分析、处理,监测该对象的身体状态,通过行为干预,帮助人们改善不合理的行为习惯,实现积极健康的生活方式。
帮助提升药企研发效率。大数据可以从多方面提升医药行业的研发效率:
1)各种组学数据的积累,推动最上游基础科学的研究,包括了解疾病分子机理、开发新靶点、新技术等,下游产业研发收益于上游知识的进步;
2)药企临床研究过程中,通过大数据分析寻找最适宜的病人作为临床对象,提高药品应答率,节约不必要的时间、经费成本;
3)药品上市后,通过对产品在实际应用的大批量患者中的有效率和副反应率相关数据的积累和挖掘,反馈给研发管道上游,及早发现潜力项目。
患者行为通过互联网数字化和网络化,有效的数据挖掘对公共健康管理价值无限。互联网和移动端的普及,越来越多的患者开始通过网络寻医问药,搜索行为、购买行为、地域分布这些信息本身构成了新一维度的生物大数据。大型搜索平台如 google,已可以实现通过各地人群搜索行为本身进行流行病学预警;国内也有如阿里巴巴这样的企业通过终端过往购买行为、浏览行为的数据分析后进行精准营销。随着互联网逐渐渗透到医药行业的每个角落,积累数据的挖掘潜力值得期待。
生物大数据有望为保险公司提供有效的控费手段。保险公司从产品开发、精准营销、风险评估、核保核赔、控费等多角度均可受益于大数据分析。
3.1. “精准医疗”的核心是生物大数据分析
精准医疗和循证医疗的核心区别在于精准医疗是依据个体的生物大数据设计临床方案。传统的循证医学,是针对同一病种患病群体的大概率解决方案(循证医学在患同一病种的患者中进行试验,采用的是可以治疗大部分患者的解决方案并作为此类病种全部人群的标准解决方案),忽视每个病人的个体差异。个性化医疗或精准医疗的理念,是力求综合考虑每个患者的全部信息(目前对临床上有直接指导意义的是基因靶点信息,未来希望可以包括进含基因组蛋白质组在内的其它“组学”、患者的生活习性、过往病史、家族基因谱、甚至是最新的研发进展等多方面信息),综合分析以后提出解决方案。因此精准医疗得以实现的核心,在于积累患者各方面的生物大数据,还在于建立起这些生物大数据和疾病、疾病解决方案之间的联系,即数据的解读也是关键。
精准医疗的美股标的“Foundation Medicine”业务流程核心步骤是基因组大数据采集和分析。 Foundation Medicine 通过二代高通量测序采集患者基因组数据,通过特定算法进行突变分析(点突变、 In/Del、拷贝数异常、重组等),将获得的突变进行在已有基因数据库中进行尽可能解读,最终给出临床建议,辅助医生设定治疗方案。
基因组大数据目前最主要的应用领域是癌症。 目前除了部分癌症外,别的病种尚未能将基因突变和下游疾病发生、疾病治疗方案建立起直接联系,因此目前基因组大数据最主要的应用领域是癌症。通过对癌症患者基因组/外显子组进行全测序分析,寻找可能致病的突变,设计相应的靶向治疗方案。 Foundation Medicine 已推出包含 280+种基因突变筛查的试剂盒 FoundationOne,利用高通量测序,一把检测目前已知的全部可能致癌的突变,寻找疾病根源。其它病种,由于基因突变和疾病之间并无简单直接因果关系或具体联系尚未被知晓,基因组大数据应用的全面推广需要一定时间。
越来越多靶向治疗的出现让精准医疗越发重要。 靶向治疗是癌症等疾病治疗方案的主要发展方向之一,随着人们对癌症的分子分型越来越详细、越来越多的靶向疗法推向世面(替尼类小分子新靶点、抗体耦联毒素、免疫检查点抑制剂等),通过基因测序寻找致病突变、设计合适的靶向疗法,精准医疗也会变得更加重要。
3.2. 移动医疗会成为医疗的重要组成部分
移动医疗对于慢病管理、健康管理的价值是毋庸臵疑的。 尽管目前大部分移动 APP 尚处于探索阶段、能够采集的数据种类比较局限,数据的临床价值不明确,也已经出现了如WellDoc 这样的成功案例。 PwC2015 年针对美国 1000 名医生和患者的问卷显示, 86%的医生相信未来 5 年移动手机 APP 会成为协助病人做健康管理的重要手段。
3.3. 公共健康:流行病学预测
生物大数据可对流行病学做出指引。 例如:针对特定种族多人次的基因组分析比对可以预测疾病易感性,对人群在网络端相关行为数据进行分析可以掌控流感疫情进展等。Google 已经成功依据美国民众搜索行为预测了流感疫情; Twitter 也根据各地人微博文风预测当地心脏病风险,所得结果均和疾控中心公布的实际结果高度吻合。
3.4. 保险公司全面受益
生物大数据有望为保险公司提供有效的控费手段。保险公司从产品开发、精准营销、风险评估、核保核赔、控费等多角度均可受益于大数据分析。
产品开发:根据各地流行病学数据、患者在网络端搜索数据进行潜在需求分析,有针对性的进行产品开发。
精准营销:依据需求分析,将特定的产品有针对性的营销给相应的单位和个人。
风险评估:对潜在投保人员健康数据、基因数据的掌握,让保险公司一定程度上可以进行风险评估,制定相应的保费标准。
核保核赔:拥有特定病种群体的临床路径数据、用药数据等,制定合理的核保核赔标准。
控费:美国PBM(药品福利管理)模式可以成功控费的原因之一是辅助医生和药剂师进行了临床路径优化和用药选择的优化,国内保险公司目前尚且无法做到这一点,然而大量的数据已经开始被积累,这一模式诞生只是时间问题。
3.5. 助力医药行业研发
医药行业的研发,从上游基础科学的研发,至于下游药企产品开发,均可从生物大数据的积累和分析中获得价值。
对于制药企业来说,临床药物基因组学的研究可以增进对候选药机理和安全性的了解;临床试验中,通过基因图谱筛选最有可能对药物产生应答的试验对象、提高药物的应答率、节约时间和经费成本,提高研发效率;药品上市以后,追踪大范围用药患者(而不是临床中有限的几百例案例)在真实临床环境下对药物的应答率和副反应率数据,总结经验,反馈给上游研发,指导早期化合物筛选。
生物大数据也可推进基础研究的加速进展。多个药企已经开始和研究机构合作,进行各种组学、电子病历等多累生物大数据的搜集、整合、分析,力图推进基础研究的进展。上游知识的积累无疑会带动下游企业研发步入新的高度。
4. 生物大数据的价值无穷
由于生物大数据有潜力为医药行业每个参与方都带来价值,数据本身存在无穷被挖掘的可能性,价值无法估量。作为简单的参考,麦肯锡2010 年测算显示,综合考虑医疗大数据可以为医药行业各个环节带来的改进,累计有望带来3330 亿美金的价值。千亿美金数量级价值的实现有赖于数据的积累和挖掘。
生物大数据的价值在境外已开始被资本追逐。除了著名的基因检测公司23andme 曾获google 多伦投资外,罗氏、药明康德、安进近期都有涉及生物大数据的收购。标的均是积累多年的基因检测、基因数据处理公司,标的的核心价值都在于数据库和数据挖掘算法。
5. 数据的积累和挖掘是大数据行业的壁垒
我们认为生物大数据行业会有两个壁垒:1)数据的积累;2)数据的挖掘和解读。前者是先进入该子行业的厂家具备的天然优势,例如华大基因在基因测序积累多年,中国人的基因样本库,23andme 通过对个人服务积累的基因组数据库等。数据的挖掘和解读壁垒更高,从美国来看,目前涉足生物大数据处理和分析的公司主要有两类:一类是传统的IT 公司和统计数据处理公司,例如Google、IBM、SAS, 另一类是专职于生物大数据处理的公司,例如NEXTBIO、Knome 等。国内目前尚无专职处理生物大数据的公司,未来一定会有这种业态出现。
文件下载:生物大数据的时代.PDF