如何划清隐私保护与开放共享的界限?大数据讲座整理

互联网技术的革新带来了海量数据,大数据在蛮荒发展,大众的隐私保护意识也在不断提高。
参加的AI Time第四期交流会依旧生动与专业,活动就中国目前数据保护与共享的需求,从技术、政策上讨论提出了中国关于数据保护与共享的愿景与蓝图。诚然,在数据开放与数据共享寻求Trade off,在数据计算准确度与计算效率上寻找最优解,在法律制度与数据行业的经济利益分配之间不断螺旋上升,是大数据时代下要思考的问题。

以下是部分会议整理分享
以及干货集锦:AI Time 4 | 论道数据共享开放与隐私保护(资源整合)作者: 魔杰作

数据隐私与数据保护的定义

数据获取技术的革命性进步、存储器价格的显著下降以及人们希望从数据中获得知识的客观需要等,催生了大数据。

1、数据闭环:
根据数据的形式与定义,目前的数据流通一般分为四大环节:数据发布、数据存储、数据挖掘与数据使用,数据种类包括企业、个人、国家安全等各个领域。
2、数据共享与保护
数据共享与保护离不开对隐私的定义,界定用户隐私的使用范围以及获取用户隐私授权。大数据的流转会形成闭环,不同的数据有不同的保护模式,比如个人的医疗数据与企业信用数据就比平时淘宝的购买记录信息要重要,因此,问题逻辑的复杂度决定了隐私维护的难度。
3、数据的保护维度与保护力度
数据的保护维度与保护力度随着商业的、社会的发展,在不同时间段在不断变化。早起Google50余页的用户协议,与用户约定数据在内部产品矩阵不相流通,例如Gmail的数据是不能提供给chrome的部门去优化用户体验的,这种约定在很长时间里制约了谷歌公司的市场竞争力大小。

数据隐私性保护如此重要,如何去保护我们的数据?

谈及隐私保护政策最重要的一点是可操作性,中国人工智能的特色是AI落地产业转型,关注点在于商业应用提高生产力,相比于目前欧洲GDPR《通用数据保护条例》(General Data Protection Regulation),数据商用层面相对宽松。GDPR罚款条例中对企业Revenue的4%税收罚款对于传统行业的影响比像Google这样边际成本不高的公司影响是不同的导致的问题,是中国政府可以借鉴参考的地方。

在这里,简单的谈几个技术手段:(我们以“张朝阳”先生的信息安全为例)
在朝阳区居住的张朝阳先生,向警方举报了不法分子,为了保护张先生的个人隐私,我们需要对其居住地址等个人信息进行保护。

  • 信息加密:以密码学的角度,在Input和Ouput赋加K变量等手段调整数值,在警方输出数据与输入数据的时候必须要获得某个特定参数;
  • 匿名:K-anonymity(加密为张某),这可能会导致信息失真,警方倒逼时都不知道这位先生的全名
  • 加噪音:(李超越先生、或者吴某)这是一种破坏性的隐私保护
  • 联邦学习:在不在数据共享的前提下进行数据共享,将模型下发到终端。问题在于模型共享后,技术公司的核心技术容易被窃取,联邦学习倒挂机器学习模型的危险管控。
    关于federated learning, 吴信东老师在2003年就发表了下述论文:
    Xindong Wu, Shichao Zhang:Synthesizing High-Frequency Rules from Different Data Sources. IEEE Trans. Knowl. Data Eng. 15(2): 353-367 (2003)
    这篇文章里明确提到了隐私保护和local analysis(本地分析/学习)。

由此几项技术,可以看出,对数据隐私保护技术来说,数据藏起来是容易的,但是解开就复杂了。明略科技集团首席科学家吴信东在软件学报《数据治理技术》提出数据治理存在四个维度:数据标准化、数据映射、数据交换(成本与效率的取舍)与噪音区。其中差分隐私可提供一种当从统计数据库查询时,最大化数据查询的准确性,同时最大限度减少识别其记录的机会。但其中加噪声的度量和关键个人的隐私保护如何平衡,都是技术需要解决的问题。

数据开放共享的必要之路

目前国际上影响力大的数据共享开放计划或平台DBLP(DataBase systems and Logic Programming)是计算机领域内对研究的成果以作者为核心的一个计算机类英文文献的集成数据库系统。科研学者可以通过接入会议期刊的数据共享接口,从而调取目标数据,DBLP所收录的期刊和会议论文质量较高,文献更新速度很快,很好地反应了国外学术研究的前沿方向。但DBLP没有提供对中文文献的收录和检索功能,国内的权威期刊及重要会议的论文缺乏一个类似的集成检索系统。
清华大学朱小燕教授发言呼吁政府提高并关注数据共享领域的推进。数据共享关键作用在应用,有了数据才能训练好的模型。数据隐私保护是数据开放共享的必要条件,那在未来,在数据隐私保护欲数据开放之间寻求平衡?
微众银行人工智能部副总经理吴海山表示:离开数据服务谈数据隐私是不完整的,平衡的关键点在于服务的定价讨论!医疗与金融的场景是不同用户的隐私性的典型,你怎么看待滴滴打车调取你位置信息的权利和你获得的便车服务,就是一个典型问题。
对于数据保护的方法,清华大学交叉信息研究院院长聘副教授徐葳从工程的角度来看,如果要实现数据保护,应该从设计初始时候就应该设计好。调整隐私保护的接口,在用户效率和用户速度上取得平衡。从企业的角度来说,要去衡量经过加密的数据的商业变现价值是多少,值不值得去做。举个生动的例子就是寄快递的快递费值不值得出,将垃圾从上海寄到北京再分类,是没有任何价值的。

以上属个人自由整理内容,欢迎探讨指正。

你可能感兴趣的:(如何划清隐私保护与开放共享的界限?大数据讲座整理)