万向区块链技术研究报告 | 隐私机器学习的威胁、对策和挑战的初步分析

本文作者:万向区块链通用架构技术部 孙宗臣

如今,搜索查询记录、浏览历史记录、购买记录、视频播放记录、出行计划等日常生活中的大量数据被收集并存储下来。也许发生在自己的移动终端、笔记本等智能设备,也许发生其他人(或机构)的监控设备中。这些数据往往携带大量的个人隐私信息,被广泛地应用在机器学习场景中,如生物特征识别、内容推荐、目标检测等。

然而,为了便于提取特征和模型训练,这些数据往往以明文的方式被上传到一些中心化平台。这样,不仅会向这些平台运营商泄漏个人隐私,同时中心化平台容易遭受网络攻击,导致数据泄漏等事件发生。尽管现在有数据匿名化等技术,但也存在着一些提取技术手段甚至是训练好的模型,让隐私数据仍然有被泄漏的风险。

本文分析了在机器学习应用中,收集数据或者构建模型时可能存在的潜在威胁;进一步分析了一些企业和研究机构提出的隐私保护技术。期望通过本文的相关分析,帮助机器学习和隐私保护(或密码学)两个专业领域方向的科研人员,进一步了解当前机器学习面临的隐私问题、解决方案以及目前存在的一些挑战。

一、传统机器学习威胁

机器学习算法的目的是让程序通过归纳数据完成准确性预测等特定任务或者找出数据中的特定结构。这些算法的输入往往是一些样本集合,每个样本可能带有成千上万的特征。例如,一个600x600像素的图片,每个像素可以用一个数字(0-255灰度值)代替。将这些像素值转换成一个长度为36w的特征向量,每一个图片都可以被表示成一个特征向量。如果再将这个图片进行标注(也称为打标签,如动物还是人),然后程序可以通过打好标签的数据集完成模型训练。训练完成的模型,可以用一个未打标签的图片进行模型预测。

通常

你可能感兴趣的:(区块链,机器学习,人工智能)