用数据集训练算法识别恶意软件,就像识别猫一样简单

用数据集训练算法识别恶意软件,就像识别猫一样简单_第1张图片

本文由人工智能观察编译

译者:Sandy

从勒索软件到僵尸网络,恶意软件正在以各种各样的形式出现,而且还一直处于增长状态。虽然网络安全员一直在尽自己最大的努力来保证用户电脑的安全,但似乎还是躲不过恶意软件的袭击。因此,为了改变这个情况,他们将目光转向了人工智能。


然而,问题还是有的——机器学习工具需要大量的数据。对于像计算机视觉或者语言处理这样的任务来说,这还是可以接受的。因为在这个过程中,大型且开源的数据集可以用来教授算法,比如猫是什么样子的或者单词之间的关系。但是,在恶意软件方面,这些东西一直是空缺的,到现在也是如此。


不过,本周,网络安全公司Endgame发布了一款名为EMBER的大型开源数据集。EMBER是一个包含了100多万种良性和恶意Windows可移动执行的文件集合,这是一种常见的恶意软件隐藏格式。


该公司的一个团队还发布了可以在数据集上进行培训的人工智能软件。其想法很简单,如果想要人工智能成为打击恶意软件的强大武器,那么它就需要知道该寻找什么。

用数据集训练算法识别恶意软件,就像识别猫一样简单_第2张图片

其实,安全公司有大量的潜在数据用于算法的训练,但这是一个喜忧参半的结果。开发恶意软件的黑客会不断调整其代码,努力保持领先地位,因此,对过时的恶意软件样本进行培训,最后可能做的是无用功。


“这是一场打鼹鼠的游戏,”来自马里兰大学计算机科学的教授Charles Nicholas表示。


从本质上说,EMBER的目的是为了帮助自动化网络安全程序的展开。


与可以感染研究员计算机的实际文件集合相比,EMBER包含的是文件的“替身”,这是一种数字代表,为算法提供了与良性或恶意文件相关的特征概念,却不会暴露文件本身。


这应该可以帮助网络安全社区的人们快速训练和测试更多的算法,使他们能够构建更好的、适应性更强的狩猎恶意软件的AI。


当然,将数据集公开使用也意味着责任,如果这个数据集被黑客采用了呢? 研究恶意软件的黑客便可以通过这些数据设计一个AI技术无法识别的病毒系统,一旦发生,情况会很糟糕。


对此,Endgame的数据科学技术总监Hyrum Anderson表示,该公司已对此问题进行了考虑。进行EMBER研究的Anderson称,他希望公开的好处会大于风险。此外,鉴于网络犯罪非常有利可图,开发恶意软件的黑客是很有动力来继续完善其攻击工具的。


最后,加州大学伯克利分校的计算机科学教授Gerald Friedland表示,“不管怎么样,黑客总能找到案例。”

你可能感兴趣的:(用数据集训练算法识别恶意软件,就像识别猫一样简单)