目前计划在网络安全领域的开源威胁情报挖掘
展开进一步实验和论文写作,欢迎交流。
本文基于2022年1月《信息安全学报》崔琳等老师的论文 基于开源信息平台的威胁情报挖掘综述 进行梳理了解。
该论文为我们提供了一个全面的开源威胁情报挖掘框架,涵盖了该领域的关键方向、技术应用及未来趋势。
注意:这篇论文发布时间稍早,最前沿的视角需要之后再去补充阅读其他相关论文。
关键词:开源威胁情报;识别提取;融合评价;关联分析
这篇综述的内容相当扎实,所以预期分几次完成阅读。
本文为综述的第一、二、三章节,将梳理开源威胁情报挖掘技术的
技术博客、社区论坛、社交媒体、公开报告、通用方法
等五个开源威胁情报识别提取平台并依此筛选分析代表性的相关研究工作,接下来,针对这五个平台中开源威胁情报的识别提取研究工作进行分别阐述。有助于新入领域的研究者全面理解开源威胁情报挖掘,并为细分方向的研究者提供参考,以突破现有研究的局限性。
网络安全威胁情报的价值
网络安全威胁情报是指来自外部的与安全威胁相关的信息资源。这些信息包括了各种恶意威胁的特征、攻击者的行为模式以及攻击方式
等。这些情报可以帮助安全人员快速识别恶意威胁攻击,并采取及时的响应和防御措施。
开源威胁情报挖掘技术的崭露头角
传统的威胁情报挖掘存在信息量不足
的问题,而开源威胁情报挖掘技术通过从多方开源情报来源中收集和分析信息
,为这一领域注入了新的活力。美国和欧洲是最早在政府层面积极开展开源情报挖掘技术研究的国家和地区,他们将其作为政府的常规情报搜集手段,并在网络安全领域取得了显著成果。近年来,中国也在积极采集和整理网络开源威胁信息,并拓展了开源威胁情报的应用范围。
深度分析开源威胁情报挖掘技术
本文深入分析了近6年来100多篇相关文献,系统梳理了威胁情报挖掘技术的技术理论
和在网络安全检测中的应用场景
。
文章归纳总结出了开源威胁情报挖掘的一般流程框架模型
,并针对关键场景
进行了深入分析和论述,包括开源威胁情报的采集与识别提取、融合评价以及关联应用
。
研究还系统评述了这三部分研究工作中的细分热点方向
,并从技术应用场景、所使用的技术、性能评估以及优缺点评价等多个角度对各解决方案进行了系统优劣势分析。
未来的研究趋势与发展方向
最后,本文分析总结了当前我国开源威胁情报挖掘中尚待解决的共性问题,并指出了未来的研究趋势与下一步研究方向。
包括提高技术应用的精度和效率、加强开源情报的融合和关联分析,以及发展更智能化的威胁情报挖掘工具。通过不断地改进和发展,我们可以提升国家网络安全的整体防御能力,确保我们的数字世界免受威胁和攻击。
开源威胁情报挖掘技术是网络安全领域的一项关键工具,有望在未来的研究和应用中发挥更大的作用,提高我们的网络安全水平,保护我们的数字世界免受潜在威胁的侵害。期望通过这一领域的不断努力,推动我国网络安全的发展,确保国家的信息基础设施安全可靠。
根据CNCERT的研究,近年来我国逐渐成为各类网络攻击的重灾区,而其中以APT和DDoS为代表的新型攻击所占的比重越来越大。
可以看出,随着目标场景变化,恶意攻击者将网络空间攻击的复杂性和影响力提升到前所未有的程度,其攻击模式、数量与种类层出不穷。这些新型攻击充分利用了web、电子邮件、应用程序等多种传播方式,且可在网络系统中相互渗透,以捕获有价值的数据,具有常态化、专业化、多矢量、多阶段等特性。由于新型攻击的这些特性,加之攻击者的先手优势,这也对现今网络空间的威胁防护提出了新的挑战。
传统安全防御方法大多依靠部署于边界或特殊节点的防火墙、入侵检测系统等安全设备,通过基于启发式和签名等静态检测方法,将每个攻击向量视为一个单独路径进行分阶段独立检查,而缺少全局视角,难以应对攻击策划精妙、更新迭代频繁的新型网络威胁攻击
。
针对网络空间所面临的新型安全威胁,一个重要的防护手段是深度挖掘网络威胁的情报信息,并将其引入至安全检测全周期中,从而主动发现并防御恶意且极难检测的攻击行为
。
网络威胁情报(CyberThreatIntelligence,CTI)挖掘技术通过收集、挖掘、识别实时网络威胁信息并将其转化为威胁情报。一般来说,威胁情报是指可用于解决威胁或应对危害的知识,包括威胁来源、攻击意图、攻击手法、攻击目标信息,具有知识密度大、准确性高、关联性强等特点,能够为安全分析的各个阶段提供有力的数据支撑,并可针对多态、复杂的高智能威胁与攻击做出及时响应防御。
根据来源不同,威胁情报一般可分为内部威胁情报和外部威胁情报,如图1所示,其中
内部威胁情报一般来源于目标系统中的内部安全事件信息,可通过入侵检测系统(IDS)等安全设备中的相关信息提纯获得。
外部来源的威胁情报包括:
(1)商业威胁情报,即安全厂商以产品形式出售或分享的商业威胁信息;
(2)开源威胁情报(OpenSourceThreatIntelli-gence,OSTI),在公开平台中分享的开源威胁情报。
近些年由于网络威胁攻击形式迭代更新频繁,开源威胁情报突破了其他威胁情报形式来源少,情报特征受限等不足,以其快速灵活、性效比高、易于移植等特点,吸引了政府、业界以及学界的广泛关注,并作为网络防御的重要资源,在众多实际情景中得到应用。
美国非常重视威胁情报,从战略、法律、标准、防御体系、与私营部门的信息共享方面都制定了相对完善的机制[2]。美国也是最早在政府层面开展开源情报挖掘技术研究的国家,并将其作为政府的常规情报搜集手段。当前美国已建立起了覆盖地方、企业、政府等多个层面的开源威胁情报挖掘体系,重点着眼于开源威胁情报的挖掘技术研究及深度利用。
欧洲网络与信息安全局于2019年建立了一个整合各方资源的统一开源威胁情报挖掘共享中心,强调扩大网络威胁情报的收集范围,包括来自相关学科的事件信息,并将这些数据的收集、存储和分析标准化。
国家应急响应中心CNCERT以及国内各大知名安全公司如绿盟,360等近年都陆续构建了国内顶尖的开源威胁情报平台,能够实时采集整理网络开源威胁信息,并拓展开源威胁情报的应用,使其成为我国网络安全防御体系的关键组成部分,贯穿于态势感知平台、下一代防火墙、入侵检测系统等众多的安全产品之中。
近年来,我国威胁情报市场发展势头良好,其中威胁情报安全服务提供商的收入也在连年增长。但相较而言,我国的威胁情报体系发展仍处于起步阶段,虽然涌现了一批较为出色的威胁情报公司,并在部分厂商的实际情景中开始落地应用。但总体来看,其开发及应用主要集中于商业威胁情报
,对于开源威胁情报的关注相对较少,同时缺乏有效、可靠的威胁情报的挖掘采集、质量评价手段
,其对应基于开源威胁情报的网络安全分析技术也较为落后,没有形成情报挖掘分析、评价与利用为一体的威胁情报综合服务平台。
尽管开源威胁情报已成为安全行业的研究及应用热点,但仍然存在许多制约开源威胁情报产业链发展的关键问题尚待解决,包括开源威胁情报挖掘关联、质量评价、落地应用
等关键技术的研究。
近年来,学术界结合云计算、大数据等前沿技术对这些关键技术问题进行了深入研究探索。如图2所示,学术研究热度连年上升反映出该领域已持续受到关注,研究和分析已有的开源威胁情报研究概况,对于进一步推进我国开源威胁情报挖掘分析工作的发展,提高国家网络安全的整体防御能力,具有重要的意义。
为开源威胁情报挖掘及其应用领域的研究提供了一个全面的概览,为更深入地理解这一领域的技术理论、应用场景和未来的发展潜力。
这篇论文对过去6年(2015-2020年)的主流安全类期刊和会议文献进行了全面调研。通过统计和分析了超过一百篇关于开源威胁情报挖掘的文献,论文揭示了该领域的技术理论和应用场景。
文献分析与框架模型:论文深入分析了100多篇相关文献,系统梳理了开源威胁情报挖掘的技术理论和网络安全检测中的应用场景。同时,提出了一种开源威胁情报挖掘的流程框架模型。
问题与研究现状:首次从三个角度对开源威胁情报所面临的问题及其研究现状进行梳理和总结,这三个方面包括:①开源威胁情报的采集与识别提取、②融合评价、以及③关联分析
。论文还对相关文献的技术应用场景、所使用的技术和性能评估进行了详细解析。
国内研究现状与未来趋势:分析了我国在开源威胁情报挖掘及应用研究中的不足,总结了面临的四大机遇与挑战,并指出了未来的研究趋势和下一步的研究方向。
《网络威胁情报权威指南》给出的定义,威胁情报是指对企业可能产生潜在或直接危害的信息集合
。
这些威胁信息经过搜集、分析、整理, 能帮助企业研判面临的威胁并做出正确应对, 以保护企业的关键资产。
从开源情报的直观定义出发,开源情报在挖掘并应用到关键资产保护时,其安全应用场景可总结为图 3 所示,已有绝大部分开源威胁情报挖掘的研究工作都可以纳入到该框架中。
在网络安全领域,开源威胁情报挖掘是一个关键环节。它涉及从广泛的开源信息中提取、评估并分析威胁数据。以下是这一过程的三个主要研究子方向:
传统方法:通常依赖于安全厂商的网络威胁攻击数据、企业内部网络、终端设备生成的日志数据以及安全厂商和行业组织的威胁数据。但随着网络攻击的增加和复杂化,这些方法面临着来源单一和覆盖不足的问题。
现代方法:现代方法通过开源信息平台的安全应用发展,利用自动化获取和识别技术,提供了解决传统方法限制的新途径。这包括从安全论坛和博客等平台获取非结构化语义文本数据。
本节依据开源情报信息载体的不同, 将其划分为技术博客、社区论坛、社交媒体、公开报告、通用方法
等五个开源威胁情报识别提取平台并依此筛选分析代表性的相关研究工作,接下来,针对这五个平台中开源威胁情报的识别提取研究工作进行分别阐述。
动态爬虫技术:这是一种主流的采集技术,它可以动态地、完整地抓取目标开源平台的信息,并存储起来。
卷积神经网络 (CNN):CNN 被用于自动化地识别和提取开源威胁情报,通过爬虫技术从论坛和博客中获取数据,并利用 CNN 框架进行处理。
社交媒体数据挖掘:例如,使用爬虫技术从博客和黑客论坛帖子中收集数据,结合 NLP 和 CNN 进行处理。
话题检测技术:结合命名实体识别 (NER)
、支持向量机 (SVM)、逻辑回归 (LR) 和随机森林 (RF) 等机器学习分类方法,这些技术帮助过滤掉与威胁情报无关的非结构化信息内容,并实时跟踪目标内容源。
开源威胁情报采集与识别提取是威胁情报挖掘的基础,需要进一步发展,以提高采集准确率
并扩展其在威胁分析和预防应用中的作用。
开源威胁情报识别提取是网络安全领域的核心工作之一。这一过程涉及将非结构化的开源威胁情报数据转换为标准化或非标准化的格式,包括指标识别(IOC)提取和威胁情报生成。
技术博客是重要的开源威胁情报来源,它们通常针对专业人士发布有关安全领域的知识和信息。
OpenIOC格式
的威胁情报。社区论坛,包括暗网和深网论坛,虽然专业性不如技术博客,但其内容、主题和形式更加丰富,传播速度也更快。这些论坛成为黑客和安全专家交流的自由平台,经常包含大量有价值的威胁情报信息。然而,由于其匿名性,发布的情报信息质量具有不确定性,需要后期的质量评估和验证。
预处理概率模型
,可以识别并过滤错误配置的流量
,提高暗网数据的纯度和开源威胁情报的获取及存储效率。分类
的方法,快速筛选出不同类型的高质量开源威胁情报。聚类
效果,实现了快速准确的可操作情报提取。社区论坛,尤其是暗网和深网论坛,为开源威胁情报提供了丰富的资源。通过先进的预处理模型、原型系统以及机器学习和自动挖掘工具,研究人员能够从这些论坛中有效地提取高质量的威胁情报。这些研究成果对于安全专家来说极为宝贵,可以帮助他们更好地理解和应对网络威胁。然而,由于这些平台的匿名性,必须进行严格的质量控制和后期验证,以确保情报的准确性和可靠性。
社交媒体平台,如Twitter,已成为获取开源威胁情报的重要渠道。这些平台汇聚了庞大而多样的用户群体,提供丰富的实时信息,具有高度的互动性和广泛的覆盖范围。
词嵌入和句法依赖技术
,实现了个性化的OSCTI自动提取和评估。尽管社交媒体成为开源威胁情报的重要来源,但这些平台上的数据庞大且质量参差不齐。因此,数据提纯、威胁事件发现技术的发展对于提高识别提取效率至关重要。此外,随着技术的发展,未来可能会出现更多高效的方法来克服现有挑战,如更先进的机器学习算法和自动化处理技术,以更准确地识别和分析社交媒体中的威胁情报。
公共报告作为开源威胁情报的重要来源,通常包含安全、漏洞或威胁等相关主题,并由专业人员发布。尽管这些报告时效性可能不高
,它们在形式和内容上的专业性
使其成为覆盖大量威胁情报信息的重要资源。
熵和互信息度量
。公共报告成为开源威胁情报的主要来源之一,但仍面临信息不足的挑战。现有研究需要不断拓展新技术方法,以提高从公共报告中挖掘高质量开源威胁情报的效率。此外,随着技术的发展,未来可能会出现更高效的工具和方法,帮助安全专家更快地识别和防御潜在威胁。
在开源威胁情报挖掘领域,使用通用方法,如自然语言处理(NLP)、机器学习和数据挖掘技术,来从非结构化信息中提取威胁情报是一个重要的研究方向。这些方法不特定于任何一个特定的开源威胁情报平台,因此具有较高的通用性和适用性。
虽然上述研究方法在平台覆盖性方面表现良好,但在处理开源情报信息时,它们未能充分考虑各个信息平台的特点,导致处理效率有待提高。随着技术的进步,未来可能会有更高效的方法和技术来解决这些挑战。
IOC提取
是从开源情报数据中提取威胁情报实体的核心研究点。这包括命名实体识别技术或其他人工智能处理技术(如正则表达式匹配、SVM等),用于定位和提取IOC,并应用机器挖掘技术获取目标实体关系
。最终,这些数据会根据实际需求进行标准化威胁情报格式输出。
开源威胁情报的采集和识别不仅提高了情报信息的广度和深度,还加快了从漏洞发现到检测的防护周期,有助于应用于威胁狩猎、恶意检测等深度挖掘分析防护手段。这些通用方法的发展对于加快威胁识别和响应至关重要。
本节将开源威胁情报识别提取研究工作划分为技术博客, 社区论坛, 社交媒体, 公开报告, 通用方法
五个平台, 并对这些平台的开源威胁情报识别提取工作进行详细对比分析, 如表 2 所示,
其中每一行代表一项研究工作,
第 1 列代表该项研究的主要提取平台;
第 3 列为该研究主要的技术应用场景;
第 4列是为实现该研究所应用的技术方法;
第 5 列为性能评估;
第 6 列为通过总结优缺点对该项研究工作的评价。
开源威胁情报挖掘是网络安全领域的关键领域之一。最新的研究表明,数据挖掘技术,特别是自然语言处理(NLP)、关系模型构建和机器学习,在从多种开源信息平台中提取威胁情报方面发挥着重要作用。
由于神经网络具有自学习、联想存储和高速优化解决方案的能力,预计其在开源威胁情报挖掘中的应用将进一步增加。
本节内容有助于研究学者和相关从业人员快速了解开源威胁情报的识别和提取技术,并根据性能和优缺点更准确高效地选择适当的方法。这对解决传统威胁情报开发的局限和扩充商业威胁情报的数据维度具有重要意义。
开源威胁情报采集来源广泛且混杂,情报质量参差不齐,因此加强开源威胁情报融合评价的研究至关重要,以提高情报的质量和可信性。未来,开源威胁情报的研究不仅需要聚焦于提取技术的发展,还需关注如何从大量数据中精确识别和分析高质量情报。
结合chatgpt阅读梳理文献。
我现在在调研网安领域的威胁情报,以期待找到能做命名实体识别or关系抽取的任务。
我现在是阅读一篇论文《基于开源信息平台的威胁情报挖掘综述》,请梳理这段话,表达专业明了,保留参考文献,我需要更详细的内容,形成博客,方便阅读理解和后续思路整理。