2020-01-16 13:35:04
作者:Ilja Moisejevs
编译:ronghuaiyang
新功能不是免费的。
我们生活在一个疯狂的时代。我记得当我还是个孩子的时候,我在看《星球大战》的时候,我在想,要过多久我们的厨房里才会有会说话的机器人。事实证明,这段时间并不长。实际上不到 10 年。
人工智能,更具体地说,是机器学习将科幻小说变成了现实 —— 没有其他的方式来表达它。每次我浏览技术评论或 TechCrunch 时,我都被我们现在可以“随意”做的事情所震撼。
透视墙壁?很容易。通过视频猜测材料的物理性质?实现了。从键盘声音预测按了哪个键?如何生成逼真的面孔、身体或诗歌?或者教机器画画?或者教机器打《星际争霸》游戏?
还有,你见没见过这种东西在街上晃来晃去?
疯狂。
现在,如果你真的去和 AI/ML 领域工作的人聊一聊,你可能会得到两种回答中的一种。要么对于 AI 可以做什么和下一个大的愿景/ NLP /强化学习问题超级兴奋,要么他们对我们这些愚蠢的人类构件的人工智能非常恐惧,相信不久人工总体智会将人类转化为一个无用的东西。在我看来,这就像今天社区的普遍分裂 —— 50%的人认为人工智能是我们的未来,50%的人认为它是我们的末日。
关于人工智能和机器学习是什么,我想提供第三种观点 —— 或许是一种更世俗的观点:为对手提供一个新的攻击面。
让我们探索一下。
每当一项新发明出现时,大多数人都倾向于认为这项发明带来了新的惊人的能力。但是,哪里有光明,哪里就会有阴影,因此新功能不经意间就会带来新的“漏洞”,供黑客利用。然后利用它们。
让我们上一节历史课,重访 PC 市场。第一台个人电脑(Altair 8800)于 1975 年发布,随后在接下来的 10 年里进行了一系列的创新,最终在 1984 年推出了 Apple Macintosh。随之而来的是一波爆炸性的采用浪潮,在整个 90 年代一直持续到 2000 年:
然而,大多数用户并不知道,在恶意软件或“恶意软件”市场也发生了类似的爆炸。
1989 年,Robert Morris 尝试使用 Unix sendmail,并构建了一个可以自我复制的蠕虫,然后将其发送到 internet 上。一开始只是一个简单的实验,结果变成了第一次 DoS 攻击,造成的损失估计在 10 万到 1000 万美元之间,并使整个互联网慢了好几天(当然现在是不可想象的)。随后,1989 年发生了第一次勒索软件攻击,1996 年出现了第一个 Linux 病毒(“Staog”),1998 年出现了第一个 AOL 木马。
后来,同样的事情也发生在移动领域:2007 年的 iPhone 时刻,随之而来的是智能手机的爆炸式增长:
紧随其后的是手机恶意软件的爆炸式增长:
那么,机器学习呢?
尽管如此,机器学习的产品化仍处于萌芽阶段。许多真正前沿的工作仍然局限于研究实验室和大学 —— 但即使是研究,我们也可以开始看到一些相同的趋势出现。
机器学习研究论文按年份和地区分类:
…vs对抗机器学习(ML 的恶意软件版本)研究论文计数:
事情正在发生。开始恐慌了吗?
还没有那么快。好消息是,随着个人电脑占据了我们的日常生活,黑客开始入侵,另一个与之并行的市场开始发展 ——安全解决方案市场。
1987 年,Andreas Luning 和 Kai Figge 为 Atari ST 平台开发了第一个抗病毒产品。同年,McAffee、NOD、Flu Shot 和 Anti4us 都出生了 —— 在接下来的 20 年里,更多的安全类产品诞生了:
很快,VCs 就意识到了大型网络安全将会发生什么,资本将开始流动:
数百万美元的收购:
随着手机恶意软件的快速增长,安全玩家也出现了类似的爆炸式增长:
安全邻域的融资:
安全领域的收购:
那么机器学习呢?
在过去的某个时候,我曾为英国最大的金融科技公司之一进行过反欺诈和反洗钱工作。我的团队每年监管的交易额超过 100 亿美元,我们一直在努力阻止骗子进入 GC 的循环系统。很自然地——在某种程度上,我们屈服于这种炒作,决定尝试机器学习。
令我当时感到惊讶的是,它居然奏效了。事实上,它很有效。从传统的启发式,我们设法减少了 80%的金钱损失到欺诈和提高了 20 倍的检测可疑的帐户洗钱。
只有一个问题。
我们在我认为“关键”的能力上部署了机器学习。我们给了这个算法一项任务,但这项任务不允许它失败——如果失败了—— 我们要么损失大量金钱,要么被吊销金融执照。对我这个直接负责 GC 安全的产品经理来说,这两者听起来都不是什么好事。
所以我需要知道 ML 如何以及何时会失败。如何利用我们的模式?它内在的弱点在哪里?我如何知道 GoCardless 是否受到攻击?
在花了太多的夜晚阅读 ML 的文件和在暗网上寻找之后,我终于找到了我所寻找的。我在 ML 上了解到中毒攻击,攻击者可以通过在训练中注入损坏的数据来影响模型的思维。我发现了对抗性的例子,以及在测试时模型是如何容易被精心设计的扰动的输入误导的。最后,我了解到隐私攻击,底层数据和模型本身都不是真正的私有。
然后,我发现了这个……
我吓坏了。
到 2019 年底,1/3 的企业都将部署机器学习。这是你、我、我们的朋友和亲人每天使用的所有产品的三分之一 —— 在任何知道 ML 工作原理的攻击者面前全裸。
是的,机器学习需要安全。
ML 安全是一个非常新兴的领域 —— 到今天基本上还不存在。如果说我从上面的研究中学到了什么,那就是任何没有数学博士学位的人都很难弄清楚如何保证他们的 ML 的安全(现在几乎没有解决方案,只有大量的数学研究论文)。
考虑到我们的生活中有多少是要托付给算法的 —— 我认为这是我们的责任 —— 你、我和整个 ML 社区的责任是确保安全不被抛在脑后。今天有很多我们可以做的来构建更健壮的 ML 模型 —— 正如我解释我的帖子逃税,中毒和隐私攻击。但更重要的是,我们需要转变思维模式——从“不惜一切代价的准确性”转向更平衡的准确性与稳健性:
C1和C2是两个模型。很明显,C1一开始并不是很准确,但是随着攻击强度的增加,它在抵抗攻击方面也做得更好。你选择C1还是C2作为ML模型?
这篇文章和上面的文章是我尝试迈出的第一步,迈向一个更健壮的 ML 未来。确保每个人的安全。
英文原文: https://medium.com/@iljamoisejevs/what-everyone-forgets-about-machine-learning-974752543849