广告营销场景下的隐私计算实践:阿里妈妈营销隐私计算平台SDH

一、概览

随着全球主要市场陆续出台个人信息保护政策,互联网生态中的数据安全和用户隐私保护问题变得越发重要且日趋严格。

如何在营销场景下安全合规的使用数据,维护在线广告商业模型的核心运作,成为当下广告生态中各企业亟需解决的问题。阿里妈妈一直注重对于隐私数据的安全合规使用,最大限度地保护用户隐私和数据安全。本篇分享阿里妈妈在保护数据安全和用户隐私方向的Data Clean Room实践产品营销隐私计算平台Secure Data Hub(以下简称“SDH”),欢迎阅读交流。

1.1 产品介绍

营销隐私计算平台SDH(Secure Data Hub)是由阿里妈妈提供的一套面向广告引擎、广告主、第三方检测公司在隐私安全环境下进行数据融合、隐私计算、联合建模的Data Clean Room解决方案。

SDH基于多方安全计算(Secure Multi-Party Computation, MPC)、隐私保护机器学习(Privacy-Preserving Machine Learning, PPML)等隐私增强计算技术,立足于广告营销场景,贯穿广告投放的跟踪、采集、激活和衡量的全流程,实现对隐私数据的安全合规使用。在营销场景下的数据处理、人群洞察、投放优化、归因衡量、增效度量、触达监测等流程中严格保障多方数据的隐私安全和数据合规,为品牌提供跨域安全一致的数据决策能力。

SDH已于2022年12月份通过了中国信通院第七批“可信隐私计算”评测,并获得多方安全计算(MPC)和联邦学习(Federated Learning, FL)的基础能力专项评测的两项评测证书。

1.2 核心能力

广告营销场景下的隐私计算实践:阿里妈妈营销隐私计算平台SDH_第1张图片
  • 数据可用不可见:业务方持有数据不出业务私域,通过对MPC元数据管理实现对数据“表级”和“列级”的隐私保护,网络通信中不泄露各方任何隐私保护字段(网络传输数据全部为可见数据,明文数据传输采用RSA加密等多种加密算法),基于SDH的MPC底层计算框架实现了数据可用不可见下的多方数据联合分析计算。

  • 简单易用API接口:SDH提供了SQL的用户接口,向业务用户屏蔽了分布式执行、密码学技术等底层细节,并且SQL学习门槛低、具有完备的问题表达能力,极大地降低了SDH对接的开发和运维成本。

  • 通用营销分析组件:集成多种面向营销场景下的通用型数据转化、联合计算和归因模型分析组件,通过组件化使用支持业务方快速完成人群洞察洞察、归因衡量、增效度量等计算分析,提高开发和分析效率。

  • 轻量化云部署方案:面向不同云环境(阿里云、第三方云、私有云)提供多种轻量化部署方案,部署流程方便简洁,网络打通后即可享有SDH提供的隐私增强计算能力。

二、背景

在广告营销业务场景下,数据隐私问题贯穿整个广告投放的投前、投中和投后的全环节,覆盖广告投放链路的跟踪、收集、激活和衡量的全流程,同时涉及广告生态下的多方角色。如下图所示:

广告营销场景下的隐私计算实践:阿里妈妈营销隐私计算平台SDH_第2张图片

在广告生态中,需要在保障多方数据隐私安全和数据合规的基础上,合理使用数据构建广告系统,维护在线广告商业模型的核心运作过程,解决广告在不同投放阶段的多方数据联合分析和算法联合建模问题,同时合规适配来自个人隐私和数据安全合规性的约束。广告营销场景下的隐私计算问题既是挑战更是机遇,也同样是广告业内一直探索的技术方向。因此在广告营销业务场景中要实现数据的可用不可见,严格保障多方隐私安全和数据合规,并提供完整的数据融合、隐私计算、联合建模的隐私增强分析能力,SDH项目应运而生。

三、技术架构

3.1 系统架构

SDH系统架构分为Console管理、Agent代理和计算引擎三层结构。

广告营销场景下的隐私计算实践:阿里妈妈营销隐私计算平台SDH_第3张图片
  • Console管理:负责基础数据管理和任务调度分发,不涉及业务方数据的存储和计算,由业务方管理、元数据管理、实例管理、权限管理等模块构成。

  • Agent代理:实现身份认证,并提供实例生命周期管理的API,负责运行实例的启动、查询、停止等。

  • 计算引擎:对应各业务方在私域环境中部署的异构执行引擎,负责私域环境中逻辑执行计划的生成和物理执行计划的调度执行。计算引擎可细分为驱动层、调度层、引擎层和存储层,分别承担不同的执行计算能力。

SDH同时提供了SQL的用户接口,利用SQL完备问题表达能力的优势,向业务用户屏蔽了分布式执行、密码学技术等底层细节,极大地降低了SDH对接伙伴的开发运维成本和技术门槛。

3.2 核心原理

3.2.1 元数据设计

为描述“数据可用不可见”能力,SDH对数据的可用性和可见性按照数据列粒度进行了详细的分层定义,包括:

  • 可用性:关联键列属性、分组键列属性

  • 可见性:可见属性、哈希可见属性、分组可见属性、聚合可见属性

广告营销场景下的隐私计算实践:阿里妈妈营销隐私计算平台SDH_第4张图片

3.2.2 执行计划生成

SDH计算引擎基于Flink计算框架实现,在执行计划生成阶段自底向上遍历执行计划,主要包含合法性校验和拆分改写两阶段。

  • 合法性校验

SDH定义了完整的数据可用性和可见性的推导规则,覆盖Flink内置的Operator算子、系统函数和自定义UDF函数。包括但不局限于继承输入列属性、继承可用性、调整列属性等。

在SQL执行计划生产阶段,会优先级完成数据合法性校验。在此阶段,系统会结合输入数据的元数据信息进行数据可用性和可见性的推导及校验,验证满足合法性要求(即满足数据“表级”和“列级”的隐私保护要求)后,再进行SQL的拆分改写,否则任务返回权限不足的报错。

  • 拆分改写

拆分改写阶段自底向上遍历执行计划,从输入数据开始根据数据持有方对执行计划染色,同时对Operator进行改写,最终根据染色结果将执行计划拆分成若干子图(每个参与方对应一个或多个子图)。以下面的SQL任务为例,其中a表和b表分别来自两个业务方,两表的id为不可见字段。

INSERT INTO result
SELECT a.id,
FROM a JOIN b
ON a.id = b.id;

执行计划的拆分改写过程如下图所示,其中Join节点被改写为RemoteJoinProbe、RemoteJoinBuild节点,两节点基于网络通信实现了id字段的密文计算。

广告营销场景下的隐私计算实践:阿里妈妈营销隐私计算平台SDH_第5张图片

3.2.3 密态算子实现

  • Join算子

分布式Join的常见实现包含Sorted-Merge Join、Hash Join,目前SDH中已支持(Shuffle)Hash Join,即两方的数据根据等值条件中的Join Key按相同的规则进行分片,且分片数一致,这样双方相同Join Key的数据Shuffle后必然会分布在相同分片ID的Worker上,双方的Worker基于Hash Join进行连接即可。

广告营销场景下的隐私计算实践:阿里妈妈营销隐私计算平台SDH_第6张图片

Hash Join划分为Building和Probing两个阶段。Building阶段由Build侧遍历数据,对Join Key使用ECDH加密,同时发送给Probe侧请求二次加密,最终生成以加密Join Key为键的哈希表。Probing阶段由Probe遍历数据,同样对Join Key使用ECDH加密,再发送给Build侧请求PSI(Private Set Intersection)求交,从而完成Join条件中等式真值判断。同时为了提升Hash Join计算性能,SDH在Join算子里引入了Bloom Filter,在Probing阶段实现Join Key的预过滤,Join性能有显著提升。

  • 不等式运算算子

不等式真值的判断由表达式执行引擎执行计算,表达式执行引擎是多方安全计算能力的核心。以下面的SQL任务为例,其中a表和b表分别来自两个业务方,两表的id、time、value字段均为不可见字段。

INSERT INTO result
SELECT a.id, a.time, a.value
FROM a JOIN b
ON a.id = b.id
AND a.value < b.value
AND 2 * a.value >= b.value;

Join条件如下:

a.id = b.id AND a.value < b.value AND 2 * a.value >= b.value

当Join实现采用Hash Join时,Join条件中等式的真值会在Hash Join的Probing阶段进行判断,因此表达式执行引擎首先简化表达式,裁剪掉Probe阶段已执行的的等式,裁剪后生成的表达式树如下图所示:

广告营销场景下的隐私计算实践:阿里妈妈营销隐私计算平台SDH_第7张图片

表达式树中的运算节点分为本地明文运算(单侧参与运算)和远程密文运算(两侧参与运算)两类。表达式树执行阶段,两侧表达式执行引擎会按完全一致的后序遍历的顺序同步执行运算。

广告营销场景下的隐私计算实践:阿里妈妈营销隐私计算平台SDH_第8张图片
  • 明密文运算单元

通过使用密码学的相关技术,包括ECDH(Elliptic Curve Diffie–Hellman key Exchange),秘密分享(Secret Sharing),同态加密(Homomorphic Encryption)等,SDH里集成了多种类型的密态算子。SDH中明密文运算单元已支持常见的逻辑运算(AND、OR)、关系运算(<、<=、==、!=、>=、>)、算术运算(+、-、*、/)。并且通过对密态算子的优化,持续提升密文运算单元的计算效率。

3.3 隐私安全保护

3.3.1 隐私保护能力

  • 元数据保护:提供“表级”别的权限控制;

  • 字段级别保护:提供“列级”别的字段可用性和可见性控制,支持针对不同的operator的字段隐私保护属性推导和合法性校验;

  • 数据保护:业务方原始数据不离开本地;同时保障网络传输的数据全部为可见数据(明文数据或加密数据),明文数据传输采用RSA加密。

3.3.2 密态算子能力

  • PSI 算子:SDH实现了基于ECDH的PSI密态算子,在Hash Join的Building、Probing通过ECDH的加密完成Join条件中等式真值的判断。支持百亿数据规模的隐私求交,并通过多种优化手段保证计算准确性和时效性;

  • 密态比较&算术运算算子:SDH基于Secret Sharing封装了密态比较和算术运算算子,在保证计算精度(2的-32次方)的前提下完成亿级别数据量级的密态比较和算术运算。

四、业务应用

UniDesk(https://unidesk.taobao.com/)是阿里妈妈推出的一款品牌数字营销的Working Desk,立足于站外媒体矩阵,服务阿里经济体内部各业务、电商行业和非电商广告主进行站外广告投放和全域营销分析。目前SDH已经和UniDesk完成系统打通,服务集团内部和部分品牌广告主,主要用于对站外广告投放进行人群洞察、联合建模、效果衡量等营销分析。

借助SDH平台的隐私增强计算能力,在双方数据不出私域的前提下通过MPC和FL计算,实现多方的数据联合分析和建模,产出市场洞察和结案分析报告,帮助广告主衡量广告的投放效果,优化广告投放策略。

五、总结及规划

SDH营销隐私计算平台通过MPC元数据管理实现对数据“表级”和“列级”的隐私保护,集成多类密态算子,兼顾明密文计算,基于Flink和密态执行引擎支持明密文计算任务的分布式执行,同时提供以SQL的用户接口和通用型营销分析组件,在保证数据可用不可见前提下可快速实现营销场景下的数据处理、联合建模、效果衡量等的计算分析。此外联邦学习解决方案EFLS(Elastic Federated Learning Solution)已完成项目开源,对营销场景中的大规模稀疏的联邦学习应用有很大的参考价值。

SDH未来将持续推进营销隐私计算平台的建设,基于隐私增强的大数据处理与机器学习建模能力,完善异构环境下的多模式、弹性化部署方案,优化百亿级数据规模的计算性能,支持更高计算复杂度的联合统计能力。以提供营销客户标准Saas产品化隐私解决方案,帮助广告主高效地进行广告营销场景下数据处理、投放优化、效果衡量的隐私计算分析或联合建模计算。

关于我们

阿里妈妈SDS(Strategic Data Solutions)团队致力于用数据让商家和平台的增长战略更加科学有效。我们为阿里妈妈全线广告客户提供营销洞察、营销策略、价值量化、效果归因、隐私计算的技术服务。我们将持续在营销场景下的数据隐私安全和解决方案方向进行探索和落地,欢迎各业务方关注与合作。

阿里巴巴智能引擎算法平台团队负责为阿里巴巴的广告搜索推荐等核心商业提供AI工程平台和隐私增强计算服务。我们长期追踪各类广告营销以及搜索推荐场景所需的超大规模计算存储、稀疏及多模态深度学习、联邦学习及隐私增强计算等领域前沿,欢迎进行技术交流。

END

广告营销场景下的隐私计算实践:阿里妈妈营销隐私计算平台SDH_第9张图片

也许你还想看

开放下载 | 阿里妈妈营销科学系列

阿里妈妈营销科学 — 营销组合模型MMM

增强分析在营销分析场景下的实现和应用

Dolphin:面向营销场景的超融合多模智能引擎

关注「阿里妈妈技术」了解更多~

广告营销场景下的隐私计算实践:阿里妈妈营销隐私计算平台SDH_第10张图片

喜欢要“分享”,好看要“点赞”ღ~

↓欢迎留言参与讨论↓

你可能感兴趣的:(人工智能,大数据,网络)