❝时光荏苒,一晃从自己开始写公众号到今天,已经有十个月了,刚刚看了下,这十个月的时间里,原创文章写了84篇,结合自己的从事过的方向,写了五大专栏:隐私计算、机器学习框架、机器学习算法、高性能计算、数学等方向。熟悉我的朋友大抵都知道我最初是做纯工程的,做搜广推的架构工程,后续转到了算法领域(机器学习框架与算法都涉及),后来由于项目需要,临危受命负责了京东的联邦学习,又开始搞隐私计算,这一路走来可以说是颇为折腾,感觉自己没有几天是放松的时间,不是在学习就是在学习的路上,没办法,谁让自己爱折腾呢!高T的要求是能横向拓展与技术迁移能力,但是我拓展的领域基本都是一个全新的领域,而且我对自己的要求是每个领域都要做到专家级别,所以可以说是难度很大,不过我个人就是喜欢折腾,对于新的事物很好奇,所以也就一路推过来了,好在过往的成绩证明我做的都还不错,也算是没丢人。写公众号的时候,我也想过是专门写一个领域还是多个领域,但是感觉自己写一个领域太浪费,所以将自己涉及的领域就都写了写。横向扩展领域后有个很大的好处就是在涉及到大型项目需要多个领域方向的时候,你会比较得心应手,就比如联邦学习这种典型的多学科交叉新兴领域,对于整体的技术选型、技术规划、协议设计、算法设计、分布式架构、性能优化等有很大的帮助,但是难度也是确实非常大的。
❞
对于很多事情,我都是后知后觉者。其实从事互联网十多年的时间里,很早就有写点文章和大家分享的念头,但是一直也没有实施,终于在去年十月份,由于某些原因,自己算是开悟了,开始写了起来。到目前为止,隐私计算方面已经写了27篇文章,基本覆盖了隐私计算的方方面面,后续还会陆续的更新。回想起自己刚刚做联邦学习的时候,也是懵懵懂懂,很多密码学方面的知识理解的不够深刻,但是不服输的性格驱动了自己不断的前进,从理论和落地都得到了突破,在这个过程中,网络中很多的博主写的文章给了我很大的帮助,助力我走到现在。所以也萌生了自己写公众号的想法,分享下自己在隐私计算领域的一些心得,也为整个行业进一些微博之力,如果哪位同学能够从中受益,吾亦深感荣幸,同时鉴于个人能力限制,如果有写的不妥的地方,欢迎大家帮忙指正,共同进步。
回忆刚开始写公众号的时候,由于对文章有一定的要求,所以最初文章写起来不是那么顺畅,一度也到过进行不下去的境地,也想过放弃,本身工作性质就比较忙,业余时间就比较少,所以挑战还是非常大的。但是好在自己都坚持下来了。正所谓“万事开头难,后续皆坦然”。在陆续写了十几篇文章后,慢慢找到了感觉,就爱上了写文章去分享,也就不觉得是个苦差事了,现在的状态是一周不写一篇,就会感觉浑身不舒服,哈哈。
由于我自己比较轴,所以写文章也比较轴,每次写之前都是做了充足的调研,力争把事情讲清楚、说明白,至少从我自己这里来说,我是努力的朝着这个方向去做的。
感谢很多读者的鼓励和支持,也感谢很多从业的朋友的信任,技术是无边界的,希望大家一起共同推动技术的进步。
文章一旦多了,可能对于如何阅读就是个比较麻烦的事情,所以今天写了这篇文章,对“隐私计算”的文章进行导读,目前隐私计算较为全面,除了TEE(可信执行环境)之外都是较多的涉猎。作为一个在隐私计算-联邦学习摸爬几年,并且从0到1实现过京东零售联邦学习平台以及实现业务开门红的从业者,整个专栏的文章强调理论和实际的结合。
「各国政府机构和一些组织机构已经清醒的意识到隐私数据的严重性,从政策法规层面进行了规范,一下列举下最近几年各国关于数据隐私的一些重大的举措与案例:」
「基于数据隐私的重要性,各大互联网具体纷纷加大对于隐私计算的投入,鉴于数据隐私的法律法规越来越严格情况,未来对于目前互联网的“采 传 存 算”模式提出很大的挑战,数据的跨域传输会存在比较大的风险。所以为了确保在未来的赛道中脱颖而出,不落于人,并且保持先发的领先优势,各个行业巨头都在抓紧布局隐私计算。」
❝所以从整个政策层面与行业巨头的布局方面,可以清晰的看出隐私计算行业未来的重要性,未来一片光明。所以对于隐私计算的前景,大家真的不必过多担心。
❞
❝隐私计算本质上是在保护数据隐私的前提下,解决数据流通、数据应用等数据服务问题,在保证数据提供方不泄露原始数据的前提下,对数据进行计算、分析与建模的一系列信息技术,涵盖数据的产生、采集、存储、计算、应用、销毁等数据流转的全生命周期。说得更通俗一些,就是在保证数据安全的前提下,让数据可以自由流通或共享,消除数据孤岛问题,从而释放更大的数据价值,提升生产效率,推进产业创新。
❞
2016 年发布的《隐私计算研究范畴及发展趋势》正式提出“隐私计算”一词,并将隐私计算定义为:“面向隐私信息全生命周期保护的计算理论和方法,是隐私信息的所有权、管理权和使用权分离时隐私度量、隐私泄漏代价、隐私保护与隐私分析复杂性的可计算模型与公理化系统。”
如上图所示,隐私计算的概念大约在1995欧盟提出《数据保护指令》的时候首次提出,并且在之后的日子里面不断的有新的法律法规与行业技术的出现,基于隐私组件技术(同态加密、秘密分享、混淆电路等)基础技术,衍生出多方安全计算、TEE可信执行环境与联邦学习等隐私计算赛道,尤其是联邦学习,基于其隐私与性能的平衡,通过多方联合建模的方式,在多个场景落地应用,并且产生了巨大的价值。
隐私计算的理念包括:”数据可用不可见,数据不动模型动“、“数据可用不可见,数据可控可计量”、“不共享数据,而是共享数据价值”等。这门技术是门综合性非常强的领域,涉及到众多方向,比如密码学、数学、大数据、实时计算、高性能计算、分布式、传统机器学习框架与算法、网络安全体系、计算机体系结构、数学领域、深度学习框架与算法、隐私计算基础技术(差分隐私、秘密分享、混淆点、不经意传输等。)等等,整体技术非常复杂,是多个技术领域的集大成者。
可以说是对从业者的综合素质要求极高,如果都掌握或者掌握多项当然是好事,但是从笔者的面试情况基本不太可能(但是尽量在保证深度的同时,多点开花,最难的事情才是最优意义的事情),所以务必确保在其中的若干领域进行精进,其余的领域做到了解、熟悉甚至掌握。
根据目前市场上隐私计算的主要相关技术特性,整体总结可分为三大方向与五大基座
隐私计算是新兴的领域,有很多难题需要解决,只有掌握了充足的知识储备,才能在这个隐私计算的盛宴中绽放出绚丽的色彩。在隐私计算的领域中,主要是存在两个流派,一个是密码学流派,一个是机器学习流派。密码学流派依托于密码学相关知识,以密码学理论为基础,结合工程实践进行探索,主要应用方向在多方安全计算领域;机器学习流派主要是依托于传统和深度机器学习,并且结合密码学相关理论与分布式并行计算方案进行探索,主要应用方向在联邦学习领域。
下面分别针对两个流派提些发展建议。
这五大基座技术都在隐私计算的三大方向中有所使用,是整个隐私计算体系的基石。但是普通人很难对所有的领域都有所涉猎,建议掌握一至两门自己擅长的领域,对于其他的领域逐步的熟悉与理解,技术都是相通的,一些思路与理念可以复用。
从上面的描述中,可以看出隐私计算是一门非常多学科交叉的领域,真正要做到顶尖是非常困难的,因为目前的职场模式基本都是专才,很少有通才,专才有专才的好处,通才有通才的益处,通才的意义在于能这个多学科的交叉领域,在探索的过程中,基于其更加全面、更加符合实际情况的考量,设计出最可行、最优雅的方案,将隐私计算的多个部件进行有机的组合,绽放出最大的价值。
但是我强烈反对通才不专的说法,通才也可以每个领域都很深入,这个取决于个人,也取决于时间+勤奋。由于我在互联网行业已经十多年了,跨过多个领域,所以我对自己的要求是做各个领域专才的集合,也就是通才。
正所谓下最笨的功夫,可以才能走的更加稳健,所以建议大家都不要给自己设限,在精通一门的同时,其他的逐渐进行兼顾,尤其是公司里面的隐私计算的领导者,更需要从知识的深度和广度都进行加强。进而设计出更加可行、更加优雅、更加高效的方案,推动隐私计算技术的发展。
❝其实无论走什么方向,都要做精,本着吃苦的精神,脚踏实地,一步一步坚实的走过每个山头,到最后回首一望,所过之路,皆是坦途!与诸君共勉!
❞
❝公众号里面已经积累了不少的文章,并且根据隐私计算的「五大基座、三大方向」进行分类阐述,下面对公众号文章进行导航总结,方便大家阅读,共同推进隐私计算行业的发展,为隐私计算发展略尽绵薄之力。
❞
基座一:隐私计算基础组件
隐私计算基础组件系列-同态加密
隐私计算加密技术基础系列-Diffie–Hellman key exchange
安全多方计算-秘密分享
隐私计算基础组件系列-混淆电路
隐私计算基础组件系列-不经意传输
隐私计算之差分隐私-Laplace机制
基座二:传统的安全机制
基座三:机器学习能力
机器学习算法
机器学习框架
深度学习框架TensorFlow系列之(五)优化器2
深度学习框架TensorFlow系列之(五)优化器3
深度学习利器-GPU
基座四:工程架构
基座五:数学与密码学
安全多方计算
联邦学习
❝个人介绍:杜宝坤,隐私计算行业从业者,从0到1带领团队构建了京东的联邦学习解决方案9N-FL,同时主导了联邦学习框架与联邦开门红业务。 框架层面:实现了电商营销领域支持超大规模的工业化联邦学习解决方案,支持超大规模样本PSI隐私对齐、安全的树模型与神经网络模型等众多模型支持。 业务层面:实现了业务侧的开门红业务落地,开创了新的业务增长点,产生了显著的业务经济效益。 个人比较喜欢学习新东西,乐于钻研技术。基于从全链路思考与决策技术规划的考量,研究的领域比较多,从工程架构、大数据到机器学习算法与算法框架均有涉及。欢迎喜欢技术的同学和我交流,邮箱:「[email protected]」
❞
自己撰写博客已经很长一段时间了,由于个人涉猎的技术领域比较多,所以对高并发与高性能、分布式、传统机器学习算法与框架、深度学习算法与框架、密码安全、隐私计算、联邦学习、大数据等都有涉及。主导过多个大项目包括零售的联邦学习,社区做过多次分享,另外自己坚持写原创博客,多篇文章有过万的阅读。公众号「秃顶的码农」大家可以按照话题进行连续阅读,里面的章节我都做过按照学习路线的排序,话题就是公众号里面下面的标红的这个,大家点击去就可以看本话题下的多篇文章了,比如下图(话题分为:一、隐私计算 二、联邦学习 三、机器学习框架 四、机器学习算法 五、高性能计算 六、广告算法 七、程序人生),知乎号同理关注专利即可。
一切有为法,如梦幻泡影,如露亦如电,应作如是观。
本文由 mdnice 多平台发布