图 23 APT 行为的技战术理解 [28]
4.3.2.1 定义内涵
攻击意图理解的含义是基于大规模、依赖复杂、跨长时间周期的原始日志、检测日志等基本数据线索, 从能力水平、攻击阶段、攻击目标等角度,取、标注、归纳攻击者的战术意图,以明确线索之间的高 层次逻辑关联,跟踪、预测攻击者的行为。
4.3.2.2 技术背景
各类检测设备以不同的检测视角与方法,所生成的线索数据,能够捕获真实攻击者的行为踪迹,同时也无法回避的引入误报与低质量信息。整体来看,攻击者的行为步骤是蕴含潜在方法论
支撑与目标导 向的。因此,理解和整合多源的、多层次的威胁线索,推测攻击者的攻击意图,减少无关线索对事件分 析的干扰,已成为情报关联、行为关联驱动下运营平台智能化的关键能力。
4.3.2.3 思路方案
攻击意图理解的关键在于数据的安全语义化。即通过对数据及其特征的模板化、标签化、体系化归并, 形成预设威胁模型框架下的实例化表达。核心技术实现一方面是数据的归一化化与规范化
清洗;另一方 面,是语义抽象算法,主要可分为两类:基于行为模板的和基于统计切分的。基于行为模板的方法示例 如图 23 所示,HOLMES 系统通过预设的数据模式取策略,将终端侧溯源数据图中的关联日志实体和 关系进行抽取,形成符合 ATT&CK矩阵模型的技战术高层关联图谱 [28]。基于统计切分的方法,通过日 志实体的逻辑关联或时序关联,在图数据或序列数据上应用社团发现、标签传播、主题模型、情感分析 等经典技术手段,对图上或序列数据进行统计切分和聚类,再结合专家经验的标签化过程,形成符合威 胁语义模型的数据基础。
4.3.2.4 关键挑战
攻击意图理解的难点在于如何对齐数据特征与安全语义。尽管越来越多的方案开始注意到意图归纳 的重要性,但有效的意图提取技术需要克服以下挑战:
对精准数据标注的依赖
无论是基于统计切分的还是行为模板的语义抽象技术,都离不开专家先验知识的标定。特别是行为 模板方案,为了有效限制了数据归纳过程的发散性,依赖细粒度的文件敏感性、行为可信度等标签。这 些数据标记过程,一方面需要自动化
手段的支持,例如敏感文件自动化识别等,另一方面需要专家的参 与,这些都增加了技术实现的难度。
技战术的一词多义
以 ATT&CK为例,一个技术可能横跨多个战术实现,并以不同的粒度出现在一定的威胁上下文中。 因此,需要通过合理的建模方法,识别在不同上下文环境下的不同事件意图,以合理归并、梳理事件的 关联关系,厘清事件依赖,发现攻击者的技战术思路与攻击目标。
4.3.3.1 定义内涵
攻击路径溯源的含义是基于关键威胁线索,结合动态行为与资产环境,融合终端、网络、脆弱性
、 威胁情报等多源历史日志,回溯、精炼、重构攻击者的行为数据流,完整呈现、还原日志级别细粒度的 攻击过程及攻击结果,支持事件调查与取证。
4.3.3.2 技术背景
XDR、SOAR 等解决方案
的技术关键,在于融合所有可能的关联数据,形成浓缩的、可运营的事件 及上下文,准确定位攻击行为在采集数据上的映射。以终端侧数据为例,溯源数据(Provenance)能 够忠实记录终端上实体的行为逻辑依赖关系,自然形成溯源数据图(Provenance Graph,简称溯源图)。 所记录的实体,包括文件、网络、进程等维度;根据实体对的类型,实体间关系又包括文件读写、进程 创建、网络连接等等。在溯源数据完整有效采集的情况下,通过溯源图的后向追溯(Backward-trace) 和前向追溯(Forward-trace),能够有效弥补网络侧的数据盲点,实现攻击事件的溯源与取证。然而, 由于缺乏高效、内生的信息流跟踪机制,准确的取、构建完整攻击路径,仍需要数据的动态分析机制 辅助。
4.3.3.3 思路方案
溯源重构的技术基础,是刻画、跟踪行为信息流,以指定的攻击树、攻击图等形式组织相关日志, 形成事件前因后果。如图 24 所示,是基于终端日志数据进行攻击溯源与 APT事件重构的示例 [29]。从数 据的角度来看,可将溯源过程建模为统计相关模型、信息传播模型、图关联模型、因果模型等。统计相
关性建模主要通过频繁项 / 模式挖掘、注意力机制驱动的序列模型等方式,识别统计层面的实体与行为关联性,以定位与关键线索相关的最可疑证据链。信息传播模型,基于图数据和标签传播,或先验传播 策略,主动跟踪关键操作、敏感数据的传播路径。图关联模型,同样基于图数据,通过图神经网络、可 解释图模型等模型算法,识别、抽象可疑的实体与子图结构,以及实体、子图之间的关键行为边,从而 实现全局的攻击事件高效抽取。因果模型,相对经典统计模型主要考虑数据的相关性,因果建模通过因 果推断框架,如基于约束的贝叶斯网络、反事实推理等,构建具有相对稳定性结构的数据因果依赖链路 与图,以探索所采集各类传感器数据间的派生模式。整体来看,溯源与重建的关键在于数据的确定性关 系推理。
4.3.3.4 关键挑战
溯源结果能够作为威胁狩猎的关键资源,为威胁的分诊、评估、取证供丰富的上下文。不过,仍 然没有免费的午餐。攻击路径溯源技术有着多方面的挑战,以下简要分析。
溯源图依赖爆炸
这是溯源数据分析中的个性化问题。还是以细粒度的终端数据为例,根据采集方式,溯源数据可分 为两类:细粒度的(Fine-Grained)和粗粒度的(Coarse-Grained)。因现阶段性能和系统架构易用性限制, 粗粒度的溯源数据广泛应用和部署。粗粒度的采集采取“贪心”的方式,记录实体间所有可能的依赖关 系,难以准确跟踪实体间的信息流向。即,某个实体的下游实体的信息流,可能由时间较早任意一个实 体信息流产生。特别是长期存活实体的存在,这种不确定性会造成上下游实体的信息依赖的爆炸式增长。
关键线索的缺失
攻击者的高对抗性、采集系统的欠稳定性,都可能导致数据层次关键日志线索的丢失。在证据链、 行为序列断裂的情况下,需要鲁棒的分析算法支撑事件重建,包括知识推理算法等关系推测及补全技术 需要针对网络空间数据进行优化和适配。
性能拓展性瓶颈
威胁狩猎可包含如已知威胁实时匹配的 OLTP(On-Line Transaction Processing)任务及长周期、 大规模关联分析及溯源的 OLAP (On-line Analytical Processing) 任务。为保证不同任务特别是 OLAP任 务下数据的可用性,溯源数据规模将迅速膨胀。此外,终端的多样性,将在数据生命周期、数据对齐、 数据关联等多方面带来存储、分析架构的拓展性冲击,实现完整的攻击事件取证还原,同时保持系统的高性能将充满挑战。
绿盟 AISecOps智能安全运营技术白皮书 2020
绿盟 2020 网络安全观察