深度解读:基于openGauss安全的差分隐私医疗诊断辅助查询系统斩获金奖背后的故事

11月2日,以“数智未来 因你而来”为主题的鲲鹏应用创新大赛2023全国总决赛在四川成都圆满落幕。经过长达6个月的层层筛选与激烈角逐,最终从3大赛事、5大赛道中评选出了13个金奖、16个银奖、19个铜奖。

其中来自华中科技大学数据库隐私保护队提交的《基于openGauss安全的差分隐私医疗诊断辅助查询系统》,在全国总决赛中获得高校赛openGuass开源应用创新赛道金奖。

深度解读:基于openGauss安全的差分隐私医疗诊断辅助查询系统斩获金奖背后的故事_第1张图片

openGauss作为最具创新力的开源数据库根社区,当前已有超过430家企业加入社区,超过5800名开发者参与社区贡献,社区代码行数已经超过1500万行;多家社区伙伴基于openGauss推出的数据库商业发行版已经在政府、金融、运营商、电力、制造、医疗、能源等行业的核心场景中得到广泛应用;预计年内openGauss在非云集中式场景的市场份额有望突破20%,跨越生态拐点。

此项目正是利用openGauss实时高性能、高可用、高安全特性,依托于华中科技大学“大数据技术与系统国家地方联合工程研究中心”,聚焦于医疗诊断辅助查询服务的隐私与效率,结合新颖的差分隐私深度学习方法DPDLDA,提出了创新及实用的安全差分隐私医疗诊断辅助查询系统。

《基于openGauss安全的差分隐私医疗诊断辅助查询系统》从全国50多个顶尖院校的400多支队伍中脱颖而出,获得鲲鹏技术专家、各行业领域专家、市场价值专家组成的专家评审团的高度认可。该方案有哪些过人之处?我们分别从团队协作、社会影响、商业价值、技术领先以及创新性等方面给大家一一介绍。

团队协作:技术创新与理论创新的融合实践

华中科技大学数据库隐私保护队以其卓越的技术实力和创新能力,成为了瞩目的明星团队。是因为该团队汇聚了一批顶尖的专家和年轻才俊,他们在隐私保护技术的研究与应用方面取得了一系列令人瞩目的成果。

其中,该团队的指导老师为华中科技大学计算机学院教授、博士生导师丁晓锋教授,主要研究方向包括面向隐私保护的大数据计算方法和查询处理。 2021、2023 年获CCF-华为胡杨林基金。队长卢俊锋,华中科技大学博士研究生研究方向是数据隐私保护和差分隐私,校内合作成果被 CCF-A类期刊TKDE录用,作为负责人曾参加中国计算机设计大赛获全国二等奖,拥有专业的数据库加密算法研究基础和实践经验。

核心技术成员陈林,华中科技大学博士研究生,已在IEEE TIFS、TCE,ACM TDS,Information Sciences,期刊上以第一作者发表多篇论文,具有扎实的理论基础。还包括马杰、张琪以及董师瑜等华中科技大学硕士研究生、本科生等技术人员参与,整个团队拥有丰厚的实践开发经验,熟练掌握算法底层逻辑和加密算法数学原理,具备核心技术创新能力等特点。通过立足理论基础,与实践经验深度融合推出了此次方案。

社会影响:国家高度重视数据隐私保护

无需置疑,数字经济已成为经济增长的重要引擎,国家十四五规划提出大数据、云计算、网络安全等已经成为数字经济重点产业。

其中数字环境中数据泄露对个人和社会都可能造成严重的影响。对个人而言,包括个人身份信息、财务信息、健康记录等敏感信息,导致个人隐私暴露,不仅会使个人隐私受到侵犯,而且会给被不法分子用于身份盗窃、欺诈和其他犯罪活动,给个人带来经济和法律风险。

对于组织和社会的影响则会更大,数据泄露事件会削弱人们对组织和机构的信任,以及敏感信息可能被用于网络攻击和其他形式的安全威胁等。

基于此,我国关于数据隐私保护的立法也在不断推进,目前已经形成了包括《网络安全法》《数据安全法》和《个人信息保护法》等三部基本法律为纲的治理框架。网信办、工信部、公安部等不同部门都颁布条例要求严格保证数据安全与个人信息安全,我们必须认识到,数隐私保护对社会经济影响越来越大。

商业价值:医疗行业前景广阔且医疗数据易受攻击

当下随着我国人口老龄化趋势加剧,对医疗服务、健康保险等的需求也在不断增加。中商产业研究院数据显示,2022年我国智慧医疗应用规模约为780.5亿元,预计未来行业将继续高速发展,到2023年国内智慧医疗应用规模可达到936.6亿元。智慧医疗应用呈现高速增长趋势。

另一方面,近年来,越来越多的医疗设备开始联网,国家医保局数据显示,截至2022年11月底,全国住院费用跨省联网定点医疗机构数量为6.39万家。门诊费用跨省联网定点医疗机构8.59万家。

医院在提供大量便捷的第三方服务的同时,基于包括社会机构、社保中心、医院等众多医疗数据的源头,也更容易受到攻击。加强数据隐私保护不仅有很强的社会意义,具体到医疗领域,保护用户的数据隐私也是建立和谐的医患关系,改善民生的重要举措。

《基于openGauss安全的差分隐私医疗诊断辅助查询系统》就是针对患者医疗信息的隐私需求而设计,技术上则基于openGauss全密态数据库,借助其高性能、高可用、高安全,将差分隐私和深度学习结合起来,实现在诊疗查询时,可以保护用户的隐私不被泄露。

“我们的方案引起了华为运动健康领域专家的关注。他们指出,当前的运动健康领域非常重视数据安全流通和个人隐私数据的保护。我们提出的方案巧妙地结合了差分隐私和深度学习的优化方法,既保证了数据的可用性,又确保了敏感数据的安全。这为运动健康领域的数据隐私问题提供了一种新的解决思路。” 华中科技大学数据库隐私保护团队队长卢俊锋分享道。

创新性:全球首个将差分隐私和深度学习结合的系统

差分隐私 Differential privacy是一个用于公开分享数据集信息的系统,可以在保证高度隐私的同时,从数据库中生成非常准确的统计数据。差分隐私使得个人或组织可以安全地共享敏感数据,例如医疗记录、用户行为数据等,而无需担心隐私泄露。

而现存的深度学习与隐身保护技术结合存在以下痛点:

首先,单纯的深度学习方法速度快,但是存在隐私泄露的风险,深度学习的模型训练需要大量的数据集,攻击者可以借助模型反演攻击得到训练的原始数据。

第二,差分隐私对深度学习训练的梯度注入噪声,来实现隐私保护。差分隐私的引入,会造成模型精度的急剧下降。未经过差分隐私深度学习方法精度下降巨大。

第三,现有方法难以权衡精度与隐私。

卢俊锋表示,《基于openGauss安全的差分隐私医疗诊断辅助查询系统》最大的创新是采用了国内外首创的差分隐私深度学习方法——DPDLDA,在机器学习效果、隐私保护、算法优化等方面实现了优化。具体而言其优势包括:

机器学习效果好,能够识别更多数据趋势和模式,并且结果随着时间越来越准确。

差分隐私保安全,在复杂攻击下仍能保护隐私,能量化分析隐私泄露风险。

优化算法提效率,通过更好地收敛模型以及自适应调整实现加速训练。

“方案将分层相关性传播与梯度下降相结合,优化了传统深度学习方法中的梯度剪裁方式,并在梯度中注入适当的噪声。此外,该方案改进了传统的梯度剪裁方法,将梯度分组,以最小化由于梯度失真引起的误差。由于噪声梯度可能导致下降方向不确定,该方案采用最小噪声选择算法,为每个梯度扰动选择最佳步长。同时,该方案还将自适应优化器整合到梯度下降过程中。为了提高实用性,该方案还利用了先进的双曲正弦-高斯噪声添加机制,实现了截断集中差分隐私。”  卢博士解释道。这样通过引入梯度扰动等方法,较好地实现了隐私预算的动态分配,并相应提高了模型精度。此前的方法则不能很好地兼顾两者。

此次华科大团队提出的基于openGauss的多模态差分隐私深度学习技术,可以广泛应用于多个领域,帮助组织和个人在数据应用过程中实现高效率高准确性,并满足隐私保护法规的合规要求。

技术领先:高度契合openGauss数据库特性,实现更优效果

我们知道任何查询系统都根植于数据库,而涉及疾病类型、临床表现等隐私数据的医疗辅助查询系统还需要把隐私保护的能力作为重中之重,医疗查询系统技术对数据库的性能、安全、可靠都提出更高要求。

“第一,查询响应迅速要实现秒级反应,将加密数据外包至数据库,需要高速响应,100万条数据的响应时间应在2秒左右;第二需要高稳定的计算服务,查询系统需要提供稳定的服务,数据库应具备可靠的备份维护功能;第三,密态数据强安全能力,作为隐私保护为重点的医疗系统,安全要求高,要求保护疾病类型、临床表现等隐私数据。” 卢博士分享了医疗辅助查询系统对于数据库的基本需求。

此次《基于openGauss安全的差分隐私医疗诊断辅助查询系统》不仅通过与openGauss数据库的高度契合实现了高性能、高可靠等特性,而且针对差分隐私深度学习更大的数据量级, openGauss数据库的加密存储功能在源头上实现了训练数据的安全。卢博士谈到。

openGauss数据库不仅通过资源池化架构,实现计算、内存、存储三层解耦,提升资源调度效率、处理性能以及创新敏捷性。同时还提供全密态保护技术彻底解决数据全生命周期隐私保护。传统云数据库只能实现数据的传输与存储态加密, openGauss作为全密态数据库,提供丰富的数据库安全能力,可实现数据从传输、计算到存储的全程加密,从用户认证、角色管理、对象访问控制、动态脱敏、统一审计、全密态等多维度来守护系统和数据安全,解决数据库云上隐私泄露及第三方信任问题。

除了全密态数据库提供的安全能力,在硬件层面,鲲鹏服务器还提供训练神经网络和硬件级别的安全保障,一方面优化数据加载、计算、交换等数据处理全流程,实现分析性能的大幅提升。另一方面,针对隐私数据云化部署安全问题,基于鲲鹏硬件能力,在TEE安全OS中,新增机密容器、机密虚机等特性,面向云场景,打造金融风控、密码机等涉及隐私数据计算的可信执行环境,使能数据可信流通,为开发者提供隐私数据安全应用的开发平台。

卢俊锋表示,在未针对试验数据集进行模型的优化前,模型的整体分类准确率和置信度较低。和朴素开源方法置信度仅52%到53%相比较,团队借助鲲鹏服务器进行训练优化后,置信度能够达到99%,基本上非常可信。基于此,该方案基于密态数据可验证查询和数据安全防护技术,在保护数据隐私和数据安全的前提下,解决数据查询和数据可信的问题,实现数据的安全共享和价值变现。

展望未来,基于openGauss的多模态差分隐私深度学习技术,可以广泛应用于多个领域,比如医疗健康助力个性化医疗、疾病诊断和治疗的数据安全;安全智能交通领域的图像视频分析;社交网络领域的社交关系推断、个性化推荐以及金融和隐私计算领域的敏感交易数据的金融计算,帮助组织和个人在数据应用过程中实现高效率高准确性,并满足隐私保护法规的合规要求。

你可能感兴趣的:(openGauss,数据库)