解读RSAC 2022 | 深度学习是不是应该深度应用到网络安全?

山石网科为你解读RSAC 2022

第一期:云平台的新思想/方法

第二期:深度学习的应用

【深度学习的刻板印象】

近年来,硬件计算能力的强大和数据量的与日俱增,推动了深度学习(Deep Learning)的发展,使深度学习的实用性和普及性都有了巨大提升。深度学习是一种机器学习技术,其目的是通过巨大的算力、非线性表征模型和海量的数据改进计算机系统,实现机器学习的原始目标和终极目标:人工智能。深度学习在计算机视觉、自动驾驶、语音识别、自然语音处理、生物医药等领域大放异彩。网络安全从业者自然也不会放过对深度学习的关注和研究,这个过程就逐步形成了几大流派的刻板印象,如下:

(1)啥都能干的万能流派:认为深度学习能解决网络安全里所有的问题,包括:漏洞挖掘、入侵检测、web防护、APT检测、高级关联分析,可应用到云、网、边、端任何部署位置的任何产品。

(2)啥都不能干的无用流派:认为深度学习缺乏可解释性、透明度、可信度,检测结果不可预测,系统失稳难以核查改进,难以让用户及安全运维人员满意;另外,由于高度依赖算力和海量数据,在算力有限的边缘侧和网络侧很难部署应用,对于黑样本数据较少的场景很难训练出合格的深度模型。

(3)可能有用也可能没用的玄学流派:一方面承认传统机器学习在网络安全中取得的成果,也认可深度学习在其他领域的突出表现,但另一方面难以判断深度学习在网络安全领域能解决多少问题。这类流派人数众多,具备一定典型性。

【Check Point 观点:只有AI能确保安全】

来自Check Point的首席战略官Itai Greenberg在RSA 2022会议上做了题为《Leveraging AI & Deep Learning in the Battle against Zero Day Cyber Attacks》的报告。

Itai开门见山就提出当今世界面临的网络安全威胁严峻复杂,从APT、供应链、勒索软件、软件漏洞几个方面列举了近2年具备代表性的攻击事件。其中,供应链是现代攻击的切入点,加上勒索软件捆绑使用是最新的网络攻击策略。企业网络安全面临最大的挑战:海量的安全告警、碎片化的安全产品、不能及时采用部署更先进的防护技术

解读RSAC 2022 | 深度学习是不是应该深度应用到网络安全?_第1张图片

Itai随后强调:“面对当今网络安全危险,检测攻击的老办法已经捉襟见肘,应该采用AI和自动化手段去预防和阻止攻击”,这位来自Check Point的首席战略官甚至提出了非常激进的观点:“只有基于AI的安全技术才能确保安全。”得益于AI技术,2021年12月以来,Check Point阻止了超过82万件利用Log4j漏洞开展的攻击事件。

解读RSAC 2022 | 深度学习是不是应该深度应用到网络安全?_第2张图片

从Check Point的介绍来看,提出以AI大脑为核心、大数据威胁情报为基础、全面支持各类安全产品的实施战略,以实现对已知威胁、未知威胁的精准识别和预防。AI大脑采用了超过30种的AI引擎,包括:失陷主机检测、沙箱静态分析、沙箱动态分析、电子邮件静态分析、移动端零日钓鱼检测、网络侧AI引擎聚合器、移动端AI引擎聚合器、云计算网络异常检测、威胁狩猎、恶意活动检测、向量化文档元分类器、ML相似性模型、MRAT分类器等等。

解读RSAC 2022 | 深度学习是不是应该深度应用到网络安全?_第3张图片

透过AI大脑看技术本质,对于恶意软件分析、DNS隧道检测、DGA检测等具体问题领域,Itai浓墨重彩地介绍了Check Point采用深度神经网络作为AI引擎去检测,并取得了优异的效果。

【深度学习的深度分析】

深度学习是机器学习的一个分支,深度学习模型不同于传统机器学习模型:深度学习模型基于神经网络,通过训练调整神经网络的参数,得到每一层的权重值,每层代表一种对输入数据的表征,以此来将原始数据转换为最简单的表征。深度神经网络(DNN)是典型的深度学习模型,其他深度学习模型都是在DNN的基础上扩展而来的。DNN本质上是一个函数链,每个函数是一层,每层由神经元(neuron)组成。神经元之间由权重和偏差连接。在DNN的训练过程中,通过最小化训练数据集上的损失函数(loss function,error function或cost function)的值来确定权重和偏差即优化(optimization)技术。正则化(regularization)技术用来避免DNN过拟合,其目标是使训练的模型与真实的数据生成过程相匹配。相对于传统的机器学习算法,深度学习提高了检测效率、降低了误报率,能够自动化智能化识别攻击特征,有助于发现潜在安全威胁。

恶意软件动态分析方面,Dahl等人[1]首次将神经网络应用于恶意软件检测,提出了具有随机映射(random projection,RP)功能的简单前馈神经网络,从可执行文件中提取出的特征集中学习,他们提取的特征包括API tri-gram,即3个连续的API调用序列、API调用参数以及从系统内存中得到的Nullterminated Objects,共179000个初始特征,通过RP降维得到4000个特征,使用DNN进行分类。二分类错误率是0.49%,多分类错误率(即识别恶意软件所属分类的错误率)是9.53%,表明DNN的准确率相比逻辑回归有大幅提升。采用DL进行自动化特征提取是安全研究人员的福音,近年来已经有很多研究表明采用RNN和CNN对恶意软件特征进行提取是行之有效的。Athiwaratkun等人[2]提出了用LSTM 和GRU 进行恶意软件检测,并提出了使用CNN 的字符级别的检测方案。Wang等人[3]提取的特征是API调用序列,使用基于RNNAE来实现数据降维,使用了2个解码器,其中一个用于生成恶意软件的文件访问模式(file access pattern, FAP),另外一个用于恶意软件的分类。恶意软件的分类针对已知的恶意软件,通过生成所有已知恶意软件的FAP来检测未知恶意软件,恶意软件检测的错误率是1.6%。

在入侵检测方面,有大量的安全研究人员利用DBN、AE、CNN等深度学习方法进行自动化特征提取,并采用LSTM、GRU、DBN、AE等进行分类,取得的效果也是令人满意的。

深度学习应用到网络安全领域,需要面对的一些挑战。可以归纳为:

  • 算法脆弱性问题,网络空间安全应用对算法的安全性要求极为严苛,深度学习算法存在的脆弱性会使算法存在受到对抗攻击和隐私窃取攻击的潜在风险,影响模型的完整性、机密性和健壮性。

  • 序列化模型相关问题,在算法安全性得到保障的基础上,序列建模问题是一个挑战。基本上所有的网络空间安全数据都是序列化数据,所有的安全应用,如程序分析、漏洞挖掘和恶意代码检测等,均依赖于序列建模。

  • 算法自适应性、可解释性、特征选取、降低误报以及数据集均衡等问题

【山石网科观点】

作为中国网络安全行业的技术创新领导厂商,山石网科始终保持着对技术的信仰、对创新的渴望、对AI的拥抱。早在10年前就开始布局以AI驱动的安全能力建设体系和产品研发体系,这与Check Point的AI战略不谋而合。为了提升新技术的探索能力、加快新技术转化并赋能产品,山石网科于2021年成立了新技术研究院,组建了一支高水平的研究团队。

国内顶尖网络安全专家、山石网科新技术研究院北京负责人万朝华,就Check Point对AI大脑、深度学习的观点也表达了自己的想法:“好的方法只有在正确的人手里才能达到完美的目标,深度学习算法也是,只有通过有资深网络安全经验和人工智能经验相结合的研究人员的研究和应用,才能确保网络的更加安全。山石网科新技术研究院正在这条虽然坎坷,但前途光明的路途上奋勇前进。”

参考文献:

 1,Dahl G E, Stokes J W, Deng Li, et al. Large-scale malware classification using random projections and neural networks[C]. Proc of the 38th Int Conf on Acoustics, Speech and Signal Processing. Piscataway, NJ:IEEE,2013:3422-3426.

2,Athiwaratkun B, Stokes J W. Malware classification with LSTM and GRU language models and a character-level CNN[C]. Proc of the 42nd Int Conf on Acoustics, Speech and Signal Processing. Piscataway,NJ:IEEE,2017:2482-2486

 3,Wang Xin, Yiu S M. A multi-task learning model for malware classification with useful file access pattern from API call sequence[OL]. 2016[2017-08-17].https://arxiv.org/pdf/1610.05945

你可能感兴趣的:(山石发声,RSAC,2022,深度学习,web安全,人工智能)