个人健康数据,是一个私密性领域,此类数据的挖掘和应用,以前传统的计算机平台技术方式已经不足以支撑。文章着重探讨了应用区块链技术进行治理的一些方法,但是并没有过多的从区块链“去中心化”“共识机制”等基本特性角度去论述,而从健康大数据采集到存储、分析处理,直至应用价值挖掘这样的技术操作层面作阐述,提出了以区块链架构为底层的一种将“院内院外”健康大数据作为应用对象,以生命体不同体征数据,作全程、全面和全时的系统性处理的智联网平台区块链技术治理方案实例,让它可以面向社会大众人群,将原是私密的个人健康信息,应用于相关行业和领域,变成社会的共同财富。
1.引 言
未来的大健康主要依靠人工智能,往后三到五年医疗工作的80%会被人工智能所替代,人工智能医疗依靠的就是数据、大数据,它们就是原料。 完整的、可信的、科学有效地个人健康数据是人工智能的基石。邬贺铨院士说“所谓大数据是指在允许的时间里,无法用常规软件对数据进行抓取、管理和处理而产生的数据集合”[1],这样的对健康医疗大数据的挖掘和应用,也已经开始为“阿里健康大数据”这样的平台所重视,但是采用区块链技术和人工智能AI技术从采集、储存、分析、应用处理的全链条进行“治理”的健康大数据平台所见还不多。
本文探讨的主要问题是,健康数据除精准地进行医疗诊断、健康管理外,在不泄隐私前提下,如何将区块链技术结合人工智能处理,在物联网平台系统给医院、健康、运动、保健、康养、医药、科研等更多行业去不断调用,让健康数据给用户个人和社会带来无限传承的可、持续收益的经济价值,将用户自然的健康数据贡献行为和健康消费变成投资,这是一个还没有深挖的“黄金宝藏”,是一种新的财富。根据斯坦福大学统计系和医学院的王永雄教授介绍,美国大部分的医生愿意花钱查询他们之前接触不到的病历,每一次查询支付10-15美元。如果这件事能够做成,那些患有疑难杂症的病人,一年估计可以收获1万到2万美元的信息费,这些钱可以帮助他们支付医药费。更重要的是,当那些疑难杂症患者的病历被大量医生查看后,还有可能为他们找到医治的方法[2]。于是设想,如果能将人们的健康日常数据与健康机构、医疗单位等一起作全域、全员、全面、全程和全时化的采集和利用,是不是可以为医院医生诊疗提供更多参考。在同类病人治疗上,能不能通过AI支持下的大数据手段,减少医生重复的劳动,或者减少经验不足医生的误诊率。并且,这些医疗健康大数据,能否在数据确权后,给本人或机构创造数据价值。
2.健康大数据行业痛点及“治理”
2.1 “健康大数据”行业问题及其解决之道
健康医疗大数据行业是一个由上、中、下产业组成的产业链,上游是医疗、健康机构等数据供应商或存储计算云服务商;中游为产业链核心企业,多为具有影像识别、深度学习、自然语义分析等以大数据挖掘为核心的技术型企业,该类企业可为聚集了大量健康医疗相关数据的机构提供数据处理服务,在分析及可视化后赋予数据价值;下游为应用场景,分为包括医院、药企、政府、保险、PBM 等企业的“ B 端”和患者及健康人群“ C 端”。B 端其最终的目的是提升医疗服务的效率和质量,降低C 端患者及健康人群的就医费用。然而对数据而言,从现在行业整体来看 ,产业链上存在有质量、样本量及安全三个大问题。
先说数据质量,健康类数据多由智能硬件或在线医疗企业采集,该类数据采集工具标准不高、专业性不强、场景维度多且缺乏整合、质量参差不一,这是众所周知的。其实医疗数据的质量也多受责疑,其一,致病因素的复杂性决定了病人的诊疗过程中产生的数据的多样性和复杂性,因此医疗数据有不可避免的主观性;其二,各医院 建立自己的医疗数据信息管理系统,每家医院信息各成体系,呈现多个数据体系;其三,医疗数据缺乏统一标准,加上行业“潜规则”,医疗机构之间数据的互不认可等人为封闭,信息孤岛现象严重,数据质量的公信力受影响。
足够的数据样本量是实现健康大数据价值的基础,如果数据量不够大时,处于“支离破碎”状态下的健康数据只是“孤立数据”,只有通过数据汇聚,在数据量不断增加并突破某个“临界值”时,这些本来孤立数据才会整体上显现出“规律性”来,并且在不同程度上反映出这类数据的本质。因为数据常常在关联中体现价值。医疗健康领域大数据来自不同行业,数据资源分散在不同的数据池中,包括医院的电子病历、结算与费用数据、医疗厂商的医药、医械数据、医学研究的数据、区域卫生信息平台采集的居民健康档案、政府调查的人口与公共卫生数据等,且多异构数据,彼此之间没有太多联系;健康大数据也来源于不同的时间空间、情景场合及不同的仪表工具,由不同的对象,在不同的环境下获取,缺少数据与这些因素的关联,数据的真实性和准确率都会打问号;
数据安全上, 医院病人数据非常敏感,由于员工疏忽容易泄露,还有网络盗窃犯罪正在上升。2015年,美国第二大医疗保险公司Anthem遭黑客入侵,近8000万用户数据泄露。2017年,美国佛罗里达州HealthNow Networks公司的90多万人医疗数据被泄露,他们面临着电信诈骗、金融诈骗等风险[3],医院外联系统中健康数据就更多的面临隐私安全等问题。
那么,“健康大数据”应用行业的难点和痛点如何突破。本文提出以区块链为基础,建立全新智能合约架构设计,实现针对医疗行业构建的科学、可信、有价值的技术平台。这应该是一个以区块链为底层架构的智慧物联网(本文简称智联网或AIOT)全民健康大数据平台。它以传感网、互联网、移动通讯、无线局域网等组成的“全网”数据传输为条件,将多种应用场景、机构、人员、不同类型的健康大数据组织到同一大数据分析应用系统中,实现数据的实时性、及时性、全面性、可对比性和共享性等,在此基础上AI智慧分析系统的健康大数据分析,可用于身体健康情况监测、疾病预防分析、健康趋势分析、保健产品推荐、健康干预健康、健身方案建议、合理饮食配置等,当然也可用于政府决策、疾病防控及更多行业应用等。在这平台上,区块链技术的应用特性,可在数据准确、安全等方面给予更大的保障。所以,以区块链应用技术“治理”解决健康大数据应用中许多问题,应是一个科学的方案。
2.2 平台元数据存储技术
医疗数据的数据存储技术原来只是简单的技术问题,存储系统的底层是实际存储数据的物理介质,例如闪盘和物理存储器,物理存储介质总是通过控制器访问。控制器的基本功能就是将物理存储介质上的基本格式(例如电压)转换成上层可理解的格式(例如二进制数值),并且提供一个标准化的,定义明确的硬件接口,例如ATA和SCSI接口,它允许从/向物理存储介质读取/存入数据[4]。但是这样的技术下,数据的安全性饱受责疑。区块链数据存储技术的出现,使这领域显现了新的曙光。
“元数据”是描述数据或信息资源等対象的数据,在区块链中其使用目的在于:识别资源,评价资源,追踪资源在使用过程中的变化,实现简单高效地管理大量网络化数据,实现信息资源的有效发现、查找、一体化组织和対使用资源的有效管理。将元数据保存在区块中,通过协作验证来保证元数据的完整性。可分为两个阶段,即元数据存储阶段和元数据验证阶段。在元数据存储阶段,将用户的签名和副本位置数据发送给若干验证节点,生成元数据区块并写入元数据区块链中。在元数据验证阶段,验证节点首先检査本地元数据区块链的状态和全局状态是否相同,如果不相同则进行状态同步。然后检索本地元数据区块链来验证元数据完整性。
区块链技术在数据存储领域的应用,是通过加密、容差、抗DDoS、扩展性等技术,将数据切片分散存储在不同的服务器中,打造成星际浩瀚的存储池,这需要无数零散的服务器参与其中,服务器的主人正是所有愿意参与的公民,同时,服务器所产生的收益自然归其主人,因此数据存储(云服务)行业的巨大财富将重新得到分配,惠及民生。为此,在AIOT平台底层,除一般的计算机数据库及专业的数据分析系统外,应用区块链去中心化的账本技术有效保证开放性、自治性、不可篡改等特性。去中心化是指使用分布式核算和存储,不存在中心化的硬件或管理机构,任意节点的权利和义务都是均等的,系统中的数据块由整个系统中具有维护功能的节点来共同维护。也就是说,系统中任意节点都需要对交易数据逬行全量计算和存储。
当然,区块链带来的去中心化应用也带来了很多新的挑战,如使用区块链来管理持续増长的数据。即使是医疗健康的信息数据(未涉及个人隐私的原始数据)也是海量,会消耗更多的空间和时间。当去中心化存储运用了区块链的一些特性时,也要去重新思考影像等医疗数据在区块链上如何存储,如利用Shardlng、Swarming等技术。数据超级节点为区块链提供非中心化超级数据库,保证区块链上应用髙效的数据访问。
医学数字成像和通信DICOM(Digital Imaging and Communication of Medicine)标准是由美国放射学会(American College of Radiology,ACR)和全美电子厂商联合会(National Electrical Manufacturers Association,NEMA)联合制定的,用来规范数字化医学影像及其相关信息交换、存储、显示的标准,目前的最新版本为DICOM3.0。外汇返佣www.fx61.com医学数字成像和通信标准建立了规范的数据结构和完整的数据模型,能够使医学影像信息得到完整的表达,有效地促进了医学影像信息的存档。应用平台结合ICD-10;DICOM3.0;SNOMED-CT(Systematized Nomenclature -Climical Tems)等国际标准和规范,对数据进行科学分类,并建立标识编码标准的结构,制订具体的编码规则,代码结构与分类体系相适应。
2.3 健康大数据区块链应用的处理技术
如何从医院内外的全信息化逬程中产生的种类不同,记录方式不同,文本格式不一,海量多源异构数据中甄选出高质量数据,是医疗健康数据挖掘分析首当其冲的问题,对此采用思维投影的理念为现实世界和数字世界搭建一座桥梁,以实现资源和资产在价值互联网上定义、存储、转移、转换,从而促进价值互联网业务与传统互联网业务的融合。
在此过程中,特别要说的是“容差数据清洗”技术,数据清洗即去除重复无效数据或修正错误信息,从而保证数据的一致性,确保其完整性和精确性,提升数据质量。针对医疗数据中大量的重复无效数据,首先采用MD5消息摘要算法识别完全重复的数据,然后采用局部敏感Hash函数对其余数据进行容差去重。MD5消息摘要算法[5](本文简称MD5)是在1991年由Rivest开发出的一种密码散列函数,任何输入都可以产生出一个128位的散列值,不同输入产生出的散列值不同,即使输入仅有1比特的不同,其输出的散列值也会有很大变化。将不同的医疗数据作为MD5的输入值,通过比较其输出的散列值是否相同判断输入值是否为重复数据,从而实现对医疗数据的去重。MD5算法去重效率高,但其仅能对完全重复的数据进行去重。局部敏感哈希函数[6]是相似输入值获得的散列值有较高概率相同的哈希方法,采用局部敏感哈希函数可以实现容差去重,如针对文本数据,可以识别基于语义的重复数据;针对图像/视频等非结构化数据,可以在改变编码格式或分辨率、旋转、嵌入水印或文字等情况下,识别容差重复数据。容差数据、数据标识是用数据来标识数据,让计算机可以分辨不同环境下产生的外表相同的数据中包含的不同信息,从而实现大数据的精准应用。
基于算法分解的数据交换是健全大健康平台系统区块链的另一种技术,这是多个数据拥有者分别将多方数据安全传送给数据执行方,数据执行方将多方数据作为输入给使用者提供的算法上进行运算,并将运算结果返回给数据使用者。考虑到医疗数据多是多源异构数据,其数据容量较大,例如影像数据是医疗数据的重要组成部分,从数量上看超过90%以上的医疗数据都是影像数据,从产生数据的设备来看包括CT、X光、MRI、PET等医疗影像数据。
同时,为了提高基于算法分解数据交换末端数据处理能力,平台聚焦于边缘应用的深度学习推理人工智能芯片,为医疗影像计算的性能优化和数据重用提供最佳的编程灵活性专门研发了“AI+医疗”芯片,可提供强大的深度学习模型编译器和软件SDK开发包,轻松移植Caffe、Tensorflow等主流深度学习框架,运行常见的CNN、DNN等神经网络模型。数据计算通过算力融合来实现。算力融合是在区块链和智能合约之上,对链外存储资源和计算资源进行整合,形成了基于区块链和智能合约的分布式计算平台。为满足使用方对数据的全方面需求,数据交换提供三种灵活的计算场景:本地计算、异地计算和融合计算。算力融合构建的多方协同计算平台,数据和计算参与方签定多方智能合约,合约开始执行后在管力环境生成安全沙箱,数据和算法通过数字信封技术进入沙箱,计算完成返回结果,沙箱销毁,共同保证了数据、算法的的安全性。
3.区块链治理下健康大数据应用验证
3.1 健康数据区块链治理实验平台案例
国内以区块链应用技术加以“治理”健康数据平台的实践,已经在区块链应用先行城市深圳出现,并在2019年12月底的青岛全国区块链技术和产业创新发展大会上作了案例分享,这个用《蕳医》命名的项目,以建立全民健康大数据作为目标,并以区块链应用技术加以“治理”,可作为一个实证案例。
该实验平台包括了健康数据系统、商业交易系统、知识分享系统、会员激励系统、金融结算系统、在线医疗服务系统等,将区块链作为底层技术应用其中,基于链数据处理、数据存储、数据交互和数据安全和数据资产化整体流程去进行设计。里面的区块链应用涉及了解决核心技术的几个问题,即共识算法、生态拓扑结构、价值网络协议、协同融合计算和上层应用生态等进行突破,力图推进区块链和价值互联网的更广泛应用。平台瞄准医疗数据可信交换共享、可视化医疗知识交换共享等行业痛点,将各医疗机构作为节点的数据打通、实现全球范围内医疗数据的安全交换、有价共享、可控传播。用区块链技术解决了平台的治理后,最终要实现的是将用户的健康数据使用起来。健康数据平台在区块链技术的支撑下实现了数据闭环、生态闭环、价值闭环,用工作量证明去激励用户参与生态的共建、共创、共荣。用直播去传播知识。教育用户,让用户低成本的去消费第三方合作机构。北京中医药大学、安徽中医药大学、上源立真健康管理中心等提供为结果服务的特色整合医学项目,解决用户痛点。从而形成DAO共识自治社群,让全民参与进来建立自运行生态。平台上集成了“望闻问切”的人工智能,加上用户提交的闭环的健康数据用于训练健康管理的人工智能,为用户提供最佳的健康干预方案,并且该数据将持续训练AI,向科研、医药提供解决方案,为用户持续创造价值。
3.2健康数据平台系统区块链治理出价值
区块链数据价值的实现本质上就是数据的资产化,数据资产是企业或组织拥有或控制,能带来未来经济利益的数据资源。并不是所有数据都是资产,只有可控制、可计量、可变现的数据才可能成为资产。实现数据资产的可变现属性,体现数据价值的过程,即“数据资产化”。同时,企业或组织的存储、算力、知识等皆可资产化,在平台上实现其价值。项目对AI人工智能的应用逻辑设计的健康数据模型进行了评估,得出的价格达到500分的健康数据调用一次是300美金折合人民币2100元。连续上传十年的数据价值是7000美元,注意这数据上链后只要网络存在它就存在,会被持续的使用100年甚至更久,是真正意义上的可传承的个人资产,如表1所示。
表1 AI人工智能模型健康数据2年价值表
时间数据质量分值用户数据付费代理数量用户数据价值用户每年更新数据更新数据价值
2年500$30010$3000$10$500
2年400$20010$2000$20$400
2年300$10010$1000$30$300
在前两年之后,如果每年更新,对于得分在500分以上的个人数据,该数据价值如表2所示。
表2 AI人工智能模型10年的数据价值表
时间2年3年4年5年6年7年8年9年10年
数据价值$3000$3500$4000$4500$5000$5500$6000$6500$7000
3.3 应用方案以区块链核心算法保安全
数据加密技术处理,医疗健康数据隐私保护, 数据安全性是实现数据融合共享、开放应用的前提,象“秘钥重置”“多重签名”等技术和方法有很多,这里重点介绍一下安全多方计算,1982 年Andrew C. Yao提岀了“百万富翁问题”实例描述的安全两方计算问题,1987年Goldreich等人[8]将安全两方计算概念推广到安全多方计算,其主要思想是:在一个分布式网络里,两方或多方根据他们的秘密输入而执行一个算法,使得各方得到正确输出的同时又保护自己输入信息的秘密性。
访问控制技术是实现分级隐私保护的基本手段之一,其可以对人员的不同身份和属性设置不同权限来限制其访问的内容,如财务部门人员只能访问相关的收费信息而不能访问医生的诊断信息。本实验平台釆用基于属性加密的访问控制策略,实现隐私瞄的分级分类细粒度保护。
基于属性的加密是一种将用户的身份表示为一个属性集合,加密数据与访问控制结构相关联,一个用户能否解密密文,取决于密文所关联的属性集合与用户身份对应的访问控制培构是否匹配。在基于属性加密的访问控制中,用户只要拥有特定属性就可获得访问权限,不受物理环境因素的影响,而且能够实现属性的多值分配,解决EZ-Doctor平台中的细粒度访问控制和大规模用户扩展问题。
这个基于属性的加密方案,包括四个基本算法:
Setup(θ,U)KeyGen(MK,X)Enc(Parans,Y,M)Dec(Params,skχ,CTγ)
该算法输入安全参数θ和系统属性全集U,输出公共参数Params和主密钥匙MK。该算法输入主密钥MK和一个权限索引X,输入一个密钥sk。该算法输入公共参数Params,一个密文索引Y和一个钥加密的消息M,输入一个密文CT。该算法输入公共参数Params,密钥skχ和密文CTγ,输出解密结果M’。
此加密方案的执行,为实验平台的医疗数据确权和可信安全交换提供了有效地实践手段。
“多重签名机制”是个人健康数据安全的又一手段。附加在某一电子文档中的一组特定的符号或代码是数字签名,它是利用数学方法对该电子文档进行关键信息提取并与用户私有信息进行混合运算而形成的,用于标识签发者的身份以及签发者对电子文档的认可,并能被接收者用来验证该电子文档在传谕过程中是否被篡改或伪造。多重签名有按序多重签名方式和广播多重签名方式两种形式。按序多重签名是签名者按照一定的顺序对消息进行签名;广播多重签名是提供者将消息广播绘所有签名者,签名者独自地对消息签名,然后转给签名收集者,由他来形成多重数字签名。在实验平台中,以数字签名用来识别签名者的身份,并证实被签信息的正确性,同时保证个人不能对签名信息逬行修改,而签名者也不能对其签名逬行事后否认。根据签名过程,根据多个签名者之间的内部关联关系,利用广播多重签名和按序多重签名实现了归属多方参与者数据的可信和公平的有偿交换;釆用多重签名机制有效解决了实验平台中数据、算法等数据资产归属多方的情况。
再说安全多方计算,1982 年Andrew C. Yao 提岀了”百万富翁问题"实例描述的安全两方计算问题,1987年Goldreich等人将安全两方计算概念推广到安全多方计算,其主要思想是:在一个分布式网络里,两方或多方根据他们的秘密输入而执行一个算法,使得各方得到正确输出的同时又保护自己输入信息的秘密性。安全多方计算可以抽象描述为实现计算过程所需泛函性的一个数学模型:m方参与一个合作计算,设f :{0, 1}*→{0, 1}*为一个将m个输入映射到m输出的随机函数。xᵢ为参与方Pᵢ提供的输入,在计算完成后,Pᵢ得到输出的第i 项。fi(x1, x2,.... ,xm) 。利用安全多方计算,系统平台在数据交换共享过程中实现数据拥有方保留对全部数据的所有权,并确保在其他需求方使用数据的过程中不能获得该数据。故而安全多方计算为医疗数据的可信交换提供了技术解决手段。同时也为安全多方计算算法的实践提供了验证和落地平台。
3.4区块链数据平台人工智能是方向
以数据交换平台为基础构建协同可信交换和计算体系,链接各种医疗大数 据源,包括患者病历数据库,影像资料库,医学论文库和医疗设备。利用可视化的智能合约平台为医生和专家提供将诊断过程和医疗知识形式化的手段,并产生服务于智能诊疗、分级诊疗、疾病 管理和疾病预测等功能的智能合约体系,加快医疗数据在医院、医生、患者、 医保机构和政府间的流转,将整个医疗 产业实体链接成一个有机生态,成为智能诊疗是健康大数据在AI下医疗专业的应用典例,使医疗水平差异巨大的地区之间实现医疗知识深度共享和流动,达到医疗水平的均质化,用数据的力量助推科技进步。
利用区块链技术搭建可信医疗数据共享的底层平台,可规范健康医疗信息流通机制,加强医疗病例的电子化,保证医疗信息的完整性、真实性、隐私性,在智能诊疗过程中医生可以将来自不同机构的、控制权分散的数据完成拼接,提供患者全生命周期的可信的完整诊疗记录。同时,医生成熟的诊疗知识和经验以智能合约形式在平台上流动,自动化高效地完成医学决策支持,使得智能诊疗真正具备法律意义上的业务合规和医学意义上的质量控制,与现代基于大数据、人工智能和基因检测的精准医学完美结合。同时,所创建的医疗协同机制能更好的支持多方协同诊治和人工智能参与,从而消除了地域、机构、医疗水平差异等诸多限制,让中小医疗机构和普通医生能获取所需的全部资源和专业知识,病人也能更快的得到大型医疗机构高水平医生的医疗支持。
4.结束语
总之,在智慧物联网条件下,将完整的、准确的、有效地健康数据进入区块链应用领域,具有非常大的价值,是未来医疗的基础设施,是国家的基础设施,也是中华民族的基础设施。
在区块链技术的治理下,可以实现数据闭环、生态闭环、价值闭环;用工作量去激励用户参与生态的共建、共创、共荣。用直播去传播知识,教育用户,让用户低成本的去消费;用第三方合作机构比如用特色整合医学项目,解决用户痛点,从而形成DAO共识自治社群,让全民参与进来建立自运行生态。平台上如果集成“望闻问切”的人工智能,加上用户提交的闭环的健康数据和医生开具的处方等,用于训练健康管理的人工智能,就能为用户提供最佳的健康干预方案和医疗方案,这方案将超越80%的专业人员。并且该数据将持续训练AI,向科研、医药、保险、卫生等领域提供解决方案,为用户持续创造价值,这是许多有识之士想做及正在做的事。
参考文献
[1] 邬贺铨:大数据价值堪比石油 首要应用是智慧医疗[J].金卡工程,2012(12):2.
[2] 高维荣.王永雄与医渡云的医疗大数据新故事[EB/OL].健康界2017,(12)22.https://www.cn-healthcare.com/article/20171221/content-498486.html.
[3] 燕小六.健康医疗大数据之囧:安全性和开放性矛盾如何破[J/OL].医学界智库,2018(06)08.https://www.sohu.com/a/234674744_467288.
[4] 徐丽娟,李杺恬,唐刚.数据安全之剩余信息保护[J].网络空间安全,2019,10(01):1-7.
[5]孙亚辉;魏连峰;李璞.MD5算法的快速硬件实现 [J/OL] .《计算机与信息技术》2007,5(05)
[6] 张建平.基于遗传算法的计算机图形分析方法[J/OL] .计算机学报,2012,34(6):1092-1104
[7]李未,郎波.一种非结构化数据库的四面体数据模型[J].中国科学:信息科学,2010,40(08):1039-1053.
[8] Yao A C.Protocos for secure computation.[J/OL]procedings of the 23rd IEEE Symposiumon Foundations. CA.USA: IEEE Computer Society Press,1982:160-164