来源:https://www.researchgate.net/profile/Roberto_Andrade7/publication/338582915_Application_of_Big_Data_Analytic_in_Cybersecurity/links/5e1dedc745851536bfe621bb/Application-of-Big-Data-Analytic-in-Cybersecurity.pdf?origin=publication_detail
摘要:当前信息时代的技术和社会变革给安全分析人员带来了新的挑战。为了克服这些挑战,我们寻求新的策略和安全解决方案,以改善有关侦测和分析安全威胁和攻击的安全行动。安全分析人员以不同类型的结构化和非结构化格式分析来自服务器日志、通信设备、安全解决方案和与信息安全相关的博客的大量数据,从而解决安全挑战。在本文中,我们分析了大数据的应用,以支持一些安全活动和概念模型,生成知识,可用于安全响应行动的决策或自动化。
关键词:认知安全(cognitive security)、认知科学、大数据、网络操作
一、引言
安全分析人员需要处理大量数据,以确定触发可能的攻击警报的模式或异常。服务器、网络硬件、个人用户设备和安全工具上的日志都是产生这些大量数据的源的例子。在这种情况下,安全操作中心(SOCs)或计算机事件响应团队(CSIRTs)应该分析不同的可视化和事件关联解决方案,以便能够更快、更有效地执行检测过程。SOCs和CSIRTs的成员正在寻求基于新技术解决方案的新策略,如大数据、人工智能和数据科学[18]。在网络安全领域,认知科学在信息安全过程中的应用推动了认知安全的概念,即认知科学[33]与数据科学、安全运维的结合。
在信息时代,对大量数据的可用性和访问允许引入主动的安全策略。如果针对现有威胁的当前安全状态得以维持,那么预测性和规范性分析可以对攻击的可能影响有前瞻性的看法。为了加快数据分析方法[34]的研究进程,美国国家标准与技术研究院(NIST)等国际组织启动了数据科学研究计划(DSRP)。在企业领域,网络安全数据科学家已经成为雇主和员工最想要的职位之一。
数据分析不是一个新领域;然而,数据挖掘、大数据、机器学习、高性能计算、云以及大量可用信息资源等增强的解决方案,使得数据科学能够在农业、旅游、卫生、公共管理、网络安全等社会不同领域做出显著贡献。数据分析可以对安全分析师所需的培训和执行网络安全操作的方式产生重大变化。今天可以使用不同的数据分析方法。从安全分析师的角度来看,面对攻击,他们需要在短时间内查看相关信息,他们必须分析日志等结构化类型的数据;此外,它们还需要审查非结构化数据,比如来自网站、新闻、安全feed和制造商公告的数据。上述事实产生了我们分析网络安全领域大数据分析建议的工作动机。
本研究的其余部分组织如下。第二节介绍了网络安全挑战的背景。第三部分着重于我们提出的研究方法,用于分析关于在网络安全中使用大数据的不同贡献。第四节通过一个网络安全大数据模型讨论了不同贡献的结果。最后,第五节提出了今后工作的结论和建议。
二、背景
根据[24]的报告,45%的组织对专门的网络攻击准备不足,30%的组织还没有完全实施反恶意软件。新兴技术的采用,如自带设备(BYOD)、云、物联网(IoT)等,增加了数据量和网络复杂性,超出了安全分析师理解数据、系统和用户之间的相互关系的能力。根据[31]的预测,到2020年,预计将有超过40万亿gb的数字数据,也就是每个地球人5200 gb。在[24]中,作者提到,网络罪犯利用物联网设备进行非法活动。在2016年,一家欧洲电信供应商的家用路由器被一种Mirai蠕虫病毒成功攻击,该蠕虫将所有被攻击的设备转换成一个僵尸大军,进行大规模的DDoS攻击[23]。FBI网络部门提到,优先考虑知识和新出现的威胁是重要的,因为网络行为者适应和改变他们的战术和技术迅速[10]。
大数据分析侧重于利用数据科学、高级统计功能、机器学习算法和可视化工具在结构化和非结构化数据中发现知识。大数据提供了利用内部和外部安全数据[1]的相关性来检测和预防网络攻击的新替代品。通过大数据,我们可以通过twitter feed获取数据,并将检测到的事件与发布在网站或专业博客[25]上的安全新闻关联起来。NIST信息访问部门(NIST- iad)促进数据分析方法的发展,以更大、更准确的访问和理解包含在多模态异构数据[34]中的信息。另一方面,[7]提到了一些大数据可以帮助解决的网络安全挑战:
•数据量:安全分析师需要处理大量数据,需要高效的存储过程、高计算机处理和快速访问。
•数据不一致:从异质来源收集的数据呈现出不同的结构和格式,需要预处理来准备数据。
•数据可视化:利用不同类型的数据实时可视化大型数据集,需要高效的可视化技术来在定制的仪表板上呈现所有信息。
一些致力于在网络安全中使用大数据的工作组如下:
•nist大数据公开工作组[35];
•ieee网络安全和隐私大数据特别兴趣小组(SIG) [20];
•itu研究小组17 (SG17) [21];
•认知网络安全情报(CCSI)[19]小组;
•微软安全和隐私组[32]。
三、研究方法
基于[8]的提议,本文提出的研究方法如下:(1)明确研究问题;(2)建立科学数据库的选择;(3)制定纳入和排除标准;(4)分析和综合;(5)报告和使用结果。
A.研究问题和搜索标准
本研究定义了以下研究问题:
•在网络安全的哪些领域会考虑使用大数据?
•针对如何利用大数据提高网络安全运营提出了哪些建议?
在进行文献综述时,我们选择了以下学术数据库:IEEXplore、ACM、Scopus、Science Direct和Web of Science,以获取关于提案和在网络安全中使用大数据的具体信息。该研究的发表时间仅限于2014年至2018年,研究范围是网络安全领域的大数据使用。根据建立的纳入和排除标准,我们定义了以下搜索字符串:
•“大数据”和“网络安全”。
•“大数据”和“安全”。
•“大数据”和“异常检测”。
•“大数据”和“入侵检测”。
b .网络安全中的大数据综合
在学术和科学领域,也提出了一些将大数据应用于网络安全的替代方案。在表一中,我们列出了一份建议的综合清单,其中我们强调了所使用的技术、额外的技术(例如,统计技术或机器学习)以及提出建议的年份。
基于系统的文献综述(SLR),我们发现了2014年至2018年间的40项初步研究。然后,我们考虑了另外20个相关研究来进行分析。在图1中,我们展示了使用Hadoop和Apache spark的建议的数量,以及那些考虑将大数据的使用与其他解决方案互补的建议,如:统计过程或机器学习。通过我们的研究,Hadoop和Apache Spark是大数据解决方案,它们主要用于不同的科学提案;使用Hadoop和Apache Spark的提案数量没有实质性的区别。
在图2中,我们展示了使用大数据解决方案执行的网络安全操作,如异常检测(AD)、网络分析(NA)、警报关联(AC)、入侵检测(ID)、网络威胁情报(CTI)和攻击检测(ATD)。安全事件和CTI在审查的建议中有相同的范围,类似的情况与网络监控和网络分析。关于分布式拒绝服务和网络钓鱼检测的建议分为ATD。从我们的研究中,我们可以看到,大多数网络安全操作的应用主要集中在异常和攻击检测,而AC和CTI则不那么发达。
c .网络安全大数据解决方案
为了补充科学数据库的搜索结果,我们开展了一项针对网络安全运营的大数据商业解决方案研究。
•Watson认知安全,[17]集成了其两个产品,Watson是一个使用自然语言处理分析非结构化数据如网站信息的自学系统,Qradar Advisor是一个安全信息和事件管理。Qradar将来自不同信息源(如防火墙、服务器日志和计算机)的事件进行关联。使用Watson可以将QRadar中的本地安全数据与来自博客、网站或研究文章等网站的非结构化数据关联起来。
•[15],展示了一个由三个宏组成的实时网络安全平台:
-遥测数据源;
-遥测数据收集器;
-实时处理引擎。
实时处理引擎是Apache Metron;它由数据采集、消息队列、流处理与充实、数据访问四个模块组成。
在表II中,我们给出了在Apache Metron的每个模块中使用的解决方案。
•[6],提供基于Apache Hadoop的实时平台CDH。Apache Hadoop是一个软件框架,它支持跨计算机集群的分布式应用程序,使用简单的编程模型[13]处理大型数据集。CDH配置包括三个宏步骤:
-在HDFS中配置Apache Spot ODM;
-安装流集;
-配置流集数据收集器管道。CDH数据管理基于Apache Spot开放数据模型(ODM),考虑以下数据源:
- qualys知识库;
- qualys漏洞扫描;
- windows安全日志;
-向中心化身份平台日志。
CDH架构定义了6个核心数据库表:
——事件;
——vulnerability_context;
——user_context;
——endpoint_context;
——threat_intelligence_context;
——network_context。
[38]是一个基于suricata生态系统的linux开放发行版,用于检测入侵,使用ELK堆栈关联和显示安全事件。SELKS的组成部分有:
-suricata是一款高性能网络IDS,处理能力超过10 Gbps。
- logstash处理不同来源的信息。
-Elasticsearch从数据事件执行索引。
- kibana是一个可视化平台,允许定制仪表盘,读取信息从elasticsearch组件。
-Scirius是Suricata的一个web界面,它可以将来自Scirus的签名与Kibana映射到一起。
-evebox是一个基于web的事件查看器,可以生成报告和警报。
在表III中,我们为每个解决方案列出了我们认为最相关的属性:实时处理(RTP)、自然语言处理(NLP)、入侵检测系统(IDS)、机器学习(ML)、漏洞分析(VA)、自定义仪表板(CD)、来自外部来源的信息(ES)(如博客、web页面)和安全新闻。
四、基于大数据的网络安全模式
基于本研究方法论所获得的结果,我们提出了网络安全领域大数据的四个宏观过程:
•异构大数据的摄取;
•数据关联可视化;
•异常和攻击的识别;
•自动威胁检测。
a .网络安全领域的大数据
根据我们的研究,大数据主要侧重于异常和攻击的检测;然而,这些活动是被动的网络防御策略,其目标是为安全分析师生成警报。利用大数据可以建立积极主动的安全策略,如网络欺骗和威胁搜索,使人们能够基于对大量信息的处理,预测未来可能发生的攻击。通过这样做,可以确定攻击者的攻击模式和配置文件,从而建立反击策略。大数据允许分析文件、图像和视频等结构化和非结构化数据,这些数据在计算机取证过程中被用作数字证据。在图3中,我们概述了大数据分析可以对网络安全领域做出贡献的主题。
1 取证分析
取证分析的重点是计算机数据的保存、分析和解释。根据联邦调查局的区域计算机取证实验室(RCFL)报告,2016年共收到17 088件证据。这为数字取证检查生成了5667兆兆字节。在[49]中,作者将大数据取证定义为数字取证的一个特殊分支,其中识别、收集、组织和表示过程处理一个大型数据集。他们还提出了基于Hadoop的大数据取证概念模型;模型考虑使用重复层来删除冗余数据。这是大数据方案中保证数据完整性和质量,避免数据重复导致错误结果的关键问题。在[40]中,作者提到可以通过应用可视化技术来减少查找可疑文件的时间并提高其效率。在当前的信息时代,分析师需要查看来自不同异构源的大量数据。大数据解决方案提供了两种基本的方法:第一个方法是集成来自不同来源的结构化和非结构化格式以及不同文件类型(如图像、文本或视频)的信息。第二种方法定制了可视化工具,其中包括地理属性,这些地理属性为分析师提供了更重要的可见性方面。
2 恶意软件检测
在[3]中,作者提出了一种可扩展的聚类方法来识别和分组具有类似行为的恶意软件,它们使用了超过75,000个样本,需要3个小时的处理。根据[24]的数据,2018年上半年,物联网设备遭到了超过12万次恶意软件的攻击,因此考虑到数据的增长和减少处理时间的需要,分析新的技术替代方案是必要的。这一背景激发了一些研究人员对分析使用大数据检测恶意软件的兴趣。在[52]中,作者提出了一种将大数据分析与机器学习、二进制检测和动态指令流分析相结合的恶意软件分类方法。在[48]中,作者提出了恶意软件检测的问题和挑战:
-渐进式学习;
-主动学习;
-预测恶意软件的流行;
-对抗性学习。
3安全进攻
-网络欺骗。网络欺骗的主要目的是检测攻击,建立自适应的网络防御技术,以迷惑攻击者。传统的网络欺骗技术使用蜜罐和蜜网,但该研究领域的一些令人兴奋的动机是将人工智能、博弈论和大数据结合起来,以增强针对攻击者[44]的网络安全策略。
-威胁狩猎。它是一种通过网络和安全数据进行主动防御搜索以检测高级威胁的迭代活动,而不是等待攻击警报[30]。[36]等人提出的工作通过两个实验讨论了使用GRR快速响应部署威胁搜索进程,其中包括对远程代码执行和客户端攻击的测试。在[30]中,作者介绍了威胁搜索和其他网络安全活动的区别,如网络防御、渗透测试、取证、IDS和网络情报。从这两项工作中,我们可以将最相关的贡献联系起来,并得出结论,威胁狩猎专注于检测入侵者和未知的威胁,识别漏洞和机制,在攻击进行之前,攻击者可以使用基本搜索、统计分析、可视化技术、聚合、机器学习和贝叶斯概率。威胁搜索的过程需要处理大量由日志生成的超出人类能力的信息,通过使用大数据解决方案可能弥补这一限制。
4 攻击检测
安全分析师需要在尽可能短的时间内检测攻击,以减少检测和攻击响应之间的时间。有效的攻击检测需要一个微弱的假阳性率。在[4]中,作者提出了两种检测机制:多元降维分析(MDRA)和主成分分析(PCA)。在[41]中,作者提出使用主成分分析(PCA)在Apache Spark上进行无监督异常检测以降维。同时,他们提到大数据的实施面临以下挑战:
-选择相关特征;
-可扩展性;
-对所学知识的验证。
b .基于大数据的网络安全架构
下面,我们详细介绍了图4中所示的所提议的架构的所有组件。
•网络收集层。它涵盖了将用于创建网络安全态势感知的信息来源。在资料来源中,可以考虑下列情况:
-网络模拟平台;
-传感器;
-入侵检测系统;
-脆弱性分析;
-安全门户、博客或订阅源;
-Netflow;
-服务器和网络设备日志。
•基础设施层。基础架构层包括以下组件:
-数据采集服务器:在这些服务器中,对不同来源的信息进行数据摄取的过程。至少考虑三个服务器来实现负载平衡和高可用性。
-索引服务器:在这些服务器中,索引数据的过程被执行。为此,定义了一些属性,在可视化层中生成信息的过程、调试和数据处理都是基于这些属性进行的。至少考虑两台服务器用于负载平衡和高可用性进程。
-队列管理服务器:当多个信息请求同时执行时,这些服务器建立流程来管理大数据解决方案的处理资源。
-报告服务器和数据可视化:这些服务器处理数据可视化工具,并允许与分析师交互,以执行信息查询。
-入侵检测服务器:该服务器定义安全攻击相关模式的检测规则;服务器可以使用安全传感器访问。
-警报管理服务器:在该服务器中,警报管理被定义为在检测到异常模式时通知分析人员;此服务器中包含一个事件管理系统,允许在检测安全事件之前对升级进行流控制。
•索引层。它有助于数据搜索和过程的定义。在此基础上,对入侵检测系统的规则进行了优化。
•处理层。在这一层中可以使用批处理和流处理方法。批处理是一种处理出现在一个大组而不是单独的数据的技术。这样做通常是为了帮助保存系统资源,并允许在处理之前进行任何修改。另一方面,流处理允许一些应用程序更容易地利用有限形式的并行处理。
•警报分类层。它定义了针对安全分析师、CSIRT或事件管理过程中的其他参与者生成的警报。根据良好实践,建议定义警报级别的分类。
•自动响应层。它定义了可以自动执行的响应动作;为此,有必要建立一个安全事件管理计划。
•数据保证质量层。它定义了数据管理的过程,以确保不同层次的数据的完整性和质量;它包括:
收集;
准备;
分析;
—可视化;
—访问。
•处理自然语言层。它建立了分析web门户或安全信息博客的文本内容的机制。
五、结论和未来工作
技术和社会变化产生了产生大量数据的动态复杂环境,给安全分析人员带来了新的挑战,他们必须处理这些数据以确定模式或异常情况,从而能够识别威胁或安全攻击。大数据分析的使用被提出作为一种新的选择,通过提供在短时间内处理大量不同格式的数据的能力来提高安全操作的有效性。在网络安全领域,大数据主要用于监控行动和异常检测,这些行动集中在反应性安全策略上,但其他安全活动可以通过大数据分析增强,用于主动战略,如威胁搜索或网络欺骗。从我们的文献综述来看,目前很少有关于威胁搜索和网络欺骗的贡献,而通过使用大数据,这些行动可以得到加强。在威胁搜索的情况下,它允许以一种预测的方式识别可能的攻击,通过处理大量的数据来实现攻击前的安全控制。在网络欺骗的情况下,当识别威胁或攻击的模式,我们可以改变安全控制的功能,以防止攻击载体。
提出的基于大数据的模型涵盖了网络安全状态(网络安全态势感知)知识生成必须考虑的不同组成部分。仅仅实施大数据架构还不足以解决海量数据处理的问题,我们应该致力于确定可靠的信息源、建立数据质量控制流程、生成安全承诺指标、确定数据更新时间。
大数据可以与其他解决方案一起工作,以补充其处理来自不同来源的大量数据以检测攻击模式的能力。另一方面,机器学习允许通过分析师的训练自动化异常识别过程,而语言的自然处理允许在博客或安全新闻网站博客上发表带有检测模式的相关出版物。大数据的合并作为一种网络安全工具生成一个挑战soc或csirt因为它需要大数据分析的安全团队的形成,大量投资在技术基础设施对于大数据实现,建立一个多学科团队,整合心理学的知识,统计,安全和信息系统,政策的定义所使用的数据的大数据的隐私。
关于大数据在安全领域的应用,在商业和学术领域有不同的建议,这些建议是稳健的,并提供不同的功能;然而,它们并没有得到广泛实施。我们认为,一个可能的未来工作是分析原因,从总体上看,可能是不同的预算,团队经验,缺乏技术支持。通过焦点小组进行综述可能是补充本研究的重要贡献。