2022年 安全智能分析技术白皮书 模型开发

近年来,随着硬件计算能力的日益强大与数据量的井喷式增长,深度学习的应用也是
与日俱增。尽管经过了数十年的发展,深度学习的实用性和普适性已经有了很大的提升,
例如,使用计算机
视觉领域的卷积神经网络也可以对文本进行处理,并且得到比较好的效果。然而在很多场景下,不同领域的模型针对某一特定场景的任务在准确率、查准率、查
全率和时间复杂度等很多指标上都有明显的鸿沟,无法将其他领域的模型直接应用到一个
新的领域。
数字时代的背景下,数据和智能驱动的安全对抗,技术平台的自动化、智能化
水平,攻击面的拓宽,导致网络安全
分析所需采集的数据种类多、数据规模异常庞大。因此,从防御角度来看,安全分析模型需要快速检测分析多源异构安全数据,辅助安全团队进行分
析。目前,安全模型构建面临着以下挑战:
● 特征提取困难:
人工提取面向网络安全领域的特征较为复杂,现阶段机器无法自动化高效地识别有效
的特征,存在一些与安全问题无关但是能够在分类任务指标上表现良好的特征也会导
致安全模型去拟合这些特征而不是去解决安全问题。例如,在网络入侵检测场景中,
数据集中绝大多数攻击流量来自于一个特定网段,导致模型不学习攻击模式,而是学
习特定 IP 段来检测攻击,导致了 IP 段与网络入侵的虚假相关 [4]。
● 泛化能力差:
在网络安全领域,不同的安全场景之间的差距较大,相关模型在学术界并没有像
CV 或 NLP 领域那样形成一个稳定的思路或流派。例如,针对加密流量的分类,从
009
安全智能分析的挑战
CNN、RNN 再到一些集成算法,研究者们进行了很多尝试,仍然没有算法能够脱
颖而出。
● 可解释性低:
基于深度学习等复杂不可解释的黑盒模型,以及低交互甚至无交互的人机交互流程设
计,是各种模型在安全领域应用的重要阻碍。例如,在 web 攻击识别方面,需要分
析的数据是一段形如程序命令的文本,并不同于自然语言有明显的语义上的连贯性,
导致 NLP 方法在面对预测结果时也无法自圆其说,模型的分析结果没有较强的可解
释性,并且一旦如果模型不可解释,就意味着该模型本身是不可知、不安全的,当受
到投毒攻击、对抗样本攻击时很难进行快速处理。
因此,只有确保信息可靠性、明晰模型输入输出的因果关系,模型的预测结果才能令人
信服,才能投入使用 [5]。面对日新月异的攻击手段时,安全分析模型无法对诸如零日漏洞、
未知流量入侵等未知攻击进行准确检测,动态变化的网络数据进一步加大了安全分析模型增
量更新的难度

参考资料

SecXOps 安全智能分析技术白皮书
http://github5.com/view/54257?csdn

友情链接

中华人民共和国密码法 2020

你可能感兴趣的:(安全,人工智能,深度学习)