多源、多维、多层次数据的融合建模是后续分析技术的核心基础。本节将重点介绍融合建模中的关 键技术趋势⸺ 超融合知识图谱。
4.1.1.1 定义内涵
超融合知识图谱的含义是以安全领域知识图谱为核心,面向网络环境数据、威胁行为数据、威胁情 报数据、安全知识库
等,构建本体化、标准化、全局化的知识结构,支持安全数据的动态查询与聚合分 析,升安全数据运营分析的整体性。超融合知识图谱是后续风险感知、因果认知、鲁邦决策、可靠行 动多层次技术能力实现的核心技术基础。没有统一的数据视图支撑,高复杂度算法的构建将是空中楼阁。
4.1.1.2 技术背景
网络环境本身具有典型的图结构,网络安全问题也因此很自然地与图数据结构、图算法结合起来。 在 Google 出知识图谱的概念之后,以知识图谱技术为基础的智能应用方案,已经在推荐系统、问答 系统、搜索引擎、社交网络、风控等领域广为使用。在安全领域,最常见的就是各大安全产品中的可视 化界面中资产关系图、攻击向量图等。通过图进行数据关联和推理,国内外
厂商也在不断地进行深入的 尝试。依赖于语义图的内在可解释性,图结构及图算法广泛的应用在诸多场景下,如推荐系统、欺诈检测、 网络安全等,为自然存在的大规模数据关系的挖掘提供了系统性的可解释的方法,成为 XAI(eXplainable AI)技术的重要组成部分。此外,针对图算法的研究,如基于深度学习的图嵌入、图遍历、图上异常检 测等,增强其可解释性也是重要的研究方向。
4.1.1.3 思路方案
微 软 的 智 能 安 全 图(Microsoft Intelligent Security Graph) 已 几 乎 全 面 占 领 了 Google 引 擎 “Graph”+“Security”关键词的搜索结果。其通过云生态和平台全面融合,链接多方多维数据,供 全面的威胁关联信息,并以云端的分析能力保证实时的威胁检测,此外还供了可快速集成的 API。 在 2019 年 RSAC大会上,微软安全团队介绍了数据重力(Data Gravity)的概念,以及云环境下基于检测和行为图及机器学习的威胁分析算法,该算法能够有效评估事件的风险。Sqrrl(2018 年 1 月被 Amazon 收购)提供网络威胁狩猎平台,结合 UEBA(User and Entity Behavior Analytics) 出过“ Behavior Graph”的概念,使用行为评估和关联数据支撑威胁事件的深入调查。发起和构建多个威胁建模知识库 (CAPEC、CWE、ATT&CK等)及相关语言和规范(STIX、TAXII 等 [16])的 MITRE公司在安全数据的 图模型构建方面已有深入的研究。CyGraph 是 MITRE在图模型研究方面的原型系统。CyGraph 使用了 层级的图结构,包括网络基础设施(Network Infrastructure)、安全状态(Security Posture)、网络威胁(Cyber Threats)、任务依赖(Mission Dependencies)四个层次的图数据,用于支持针对关键资 产保护的攻击面识别和攻击态势理解等任务。国外使用多源安全数据构建统一分析图结构的项目还有 Cauldron[17]。Cauldron 能够归一化漏洞扫描评估结果,并支持解析多种格式的防火墙规则,通过与网络 拓扑的联合分析,能够有效分析网络攻击
面的动态变化。
美国的 MITRE公司研究者出将任务依赖、网络架构、网络暴露状况以及网络威胁统一组织成多 层的知识图谱,通过自定义的图查询语言 CyQL[17],能够实现诸如威胁狩猎、任务可视化、时序图分析 等任务。
ICCS 2018 会议上 IBM研究员出威胁情报计算( TIC,Threat Intelligence Computing)的概念, 通过构建时序图结构,实现敏捷的网络推理和威胁狩猎。在 TIC框架下,所有的安全日志、告警日志以 及流量日志都存储为统一的时序图,进而通过攻击子图描述威胁或者攻击,威胁发现的问题被转化成子 图计算问题。
图 14 TIC 模型设计及示例 [18]
国内方面,已有许多产品和研究关注安全数据的图分析方法
。例如,绿盟科技结合知识图谱,设计 了多个本体对整个网络威胁进行建模分析 [19],并兼容 MITRE的 CAPEC、MAEC和 ATT&CK等模型的接 入与使用,能够从多种威胁情报中取关键信息并作为知识对知识图谱进行扩展。阿里巴巴利用聚合的原始告警数据生成有向的攻击图,并通过攻击阶段映射、资产的网络分布及相关边的权重进行告警的优 先级评估和攻击场景发现。
4.1.1.4 关键挑战
超融合知识图谱是运营数据关联分析、智能决策、行动响应的重要数据基础设施
。尽管近年来有诸 多研究工作和厂商产品在持续探索多源数据的融合方案与安全领域知识图谱的构建方法,在超融合知识 图谱的设计、技术实现等多个方面,仍存在多方面的挑战。以下介绍相关挑战及技术应对。
本体库设计
图结构设计的一个关键任务,就是设计合理的本体库。本体包括了图中实体(节点)类型、实体的 属性类型以及实体间的关系类型(即实体之间边的类型),即表示图结构的抽象概念结构“类”。本体 库的构建既要讲科学也要讲艺术。讲科学是指需要遵循一定的规范标准,同时契合当的威胁模型和描 述模型;讲艺术则指的是概念的抽取很多时候是一个仁者见仁,智者见智的过程,并且要符合特定应用 场景下的指定需求。例如 ATT&CK知识库供了四个核心的实体(战术 , 技术 , 软件 , 组织)及其之间 的关系;CAPEC则主要覆盖 TTP、防护手段、脆弱性等概念;如果直接参照 STIX 2.0,则需要覆盖十 余种对象。攻防模拟、威胁狩猎、合规检查、风险评估、检测响应、APT演练分析等等不同的业务场景, ATT&CK本身所供的概念类型是不可能完全覆盖的。因此, ATT&CK在知识图构建中可作为威胁检测 行为模型的知识源和建模方法,而不是一个完备的网络安全知识图。构建可用、可拓展的知识图,在顶 层本体结构系统设计的基础上,一方面需要整合吸收所需的公开知识库,另一方面,需要通过知识图谱 的手段主动进行知识拓展和延伸。
知识库的关联
以 MITRE生态下多个知识库为例,包括 CAPEC、CWE、ATT&CK等,有密切的联系,同时有不同 的应用场景。CAPEC和 ATT&CK是两种不同的攻击建模方式,CAPEC针对基于应用脆弱性的攻击,通 过攻击模式的抽象和分类,构造了攻击行为的可查询词典;而 ATT&CK则更贴近威胁检测的实战。
在图 15 中,我们通过 STIX 2.0架构对比一下两者所处的位置。可以看出两大知识库在概念的表达 上有交叉,又各具特点。
图 16 展示了 ATT&CK与 CAPEC攻击模式分类的关联关系。其中 ATT&CK以战术目标为列组织成 矩阵结构,CAPEC通过攻击模式的抽象组织成树形结构。以 Discovery 战术下的 System Owner/User Discovery 技术为例,与该技术关联的 CAPEC攻击模式为 Owner Footprinting,同时该攻击模式关联的 CWE为 Information Exposure。
威胁检测的实践不断证明基于行为的检测更能够应动态环境下的高级威胁分析,不过,特征 + 行为的组合检测能力,是当前威胁检测效率升的关键。从知识库构建的角度讲, CAPEC+CWE和 ATT&CK都是不可或缺的。MITRE生态的持续完善能够充分降低各个知识库之间建立关联的难度,例如, CAPEC和 ATT&CK目前都能够纳入 STIX 2.0的表达体系;同时,两大知识库之间也已建立了知识的关 联引用,当前 ATT&CK Enterprise对应的 244 个 Attack Pattern 中与 CAPEC关联的有 44 个。
在威胁建模和知识库积累方面,无论是基于已有的知识库还是通过知识图谱算法抽取知识,构建知 识图,一方面需要兼容已有的标准和架构,另一方面,也需要根据实际的应用场景选定合的知识范 围。MITRE 于 2018 年出过一个针对金融服务机构的增强威胁模型 [20]。该模型虽然采用了较老版本的 ATT&CK和 CAPEC知识库,但也为我们展示了两个模型知识库联合使用枚举攻击能力的案例。
威胁模型升级
不同威胁检测方案、设备提供商对威胁事件的理解层次和粒度不一样,输出的事件日志也难以打通。 ATT&CK的出现,为促进统一的知识抽象带来曙光,为供商自身能力的验证、不同供商之间检测能 力的横向对比、技术能力的共享提供了全新的视角。
无论是基于静态特征特征还是基于机器学习的异常行为检测,各个威胁检测能力供商往往有自成 体系的威胁分析模型和事件命名体系。除非企业方案设计之初即采用了最新的威胁模型,本地化的检测 能力要想和 ATT&CK等知识库进行关联,需要合理的映射机制。很多企业已将 Kill Chain攻击链模型作 为威胁建模的基础,因此转向全新威胁模型体系的过程必然会给整个企业的威胁检测架构带来一定的冲 击。威胁模型的升级对相对成熟的安全能力提供商更不友好,因为这些企业往往已具备大规模的 IOC库、 异常行为库,并且对应着各种自定义的命名规范。专家校验和归类自然是必不可少的过程,同时也需要 自动化的关联和归类手段。在统一的威胁模型和命名体系下,多源行为图、环境图、情报图才能够有效 关联威胁知识图,获取理解行为模式、分析推理的基础知识,打通各类数据间的检索壁垒。
知识抽取与概念对齐
公开的安全领域知识、情报数据一般具有结构化或半结构化的存储、传输形态,以及相对成熟的知 识定义标准或规范。然而,在构建场景驱动的领域知识图谱过程中,收集社交网络、文本数据源中的非结 构化、未解析的半结构化数据,需要有效的命名实体分析技术、关系推理技术,来辅助取需要关注的网 络空间实体,并对齐到预设的本体库映射关系中。鉴于大规模非结构化文本中包含大量实体和关系噪声, 对安全领域知识与情报的抽取,会造成统计层次、语义层次的干扰。一般仍需要特定的语法规则、特征规则,在知识抽取过程中进行模式和指纹的过滤,以升抽取知识的质量,升概念对齐的效率与准确性。
攻击模拟与知识拓展
ATT&CK矩阵等知识库的构建,不是简单的抽取 APT情报和相关报告。各种行为的取依赖的是 在特定的场景下复杂、真实网络环境下的攻击模拟与对抗的不断验证、补充、完善。此外,现阶段攻防 知识库也远未成熟,针对不同场景、不同领域的威胁行为的知识需要整个社区不断的积累和贡献。因 此,将领域共享知识库转化成企业自身的知识图并用于威胁分析,能够升企业自身的检测能力,但更 重要的是需要企业建立自己的攻击模拟环境,验证、精炼、修正知识结构,发现新的知识关联,以应 指定场景下的威胁分析任务。目前,支持 ATT&CK等知识库模型的攻击模拟或渗透工具已有不少,如 MITRE Caldera[21],Endgame RTA[22]等开源项目。搭建攻击模拟环境的要点,基于 ATT&CK验证流程、 设计分析算法以及创建新的 ATT&CK知识概念,相关经验和手段我们可以通过官方文档深入研究。
绿盟 AISecOps智能安全运营技术白皮书 2020
CSA 谷歌 BeyondCorp系列论文合集