[2014]通过挖掘大规模日志数据检测企业感染

摘要

近几年来,包括高级持续威胁(APT)在内的更复杂的攻击正在兴起[14],[33],[1],[2],这些攻击通过锁定机密专有信息而给组织和政府带来严重风险。此外,新的恶意软件菌株以前所未有的速度出现[29]。由于这些恶意软件中的许多恶意软件旨在逃避现有的安全产品,因此当今大多数企业部署的传统防御(例如防病毒,防火墙,入侵检测系统)通常无法在早期阶段检测到感染。

通过提出一种基于图论启发的信念传播的新框架,我们解决了在企业环境中检测早期感染的问题。信任传播可以与受感染主机或恶意域(由企业安全运营中心SOC提供)的“种子”一起使用,也可以不带任何种子使用。在后一种情况下,我们开发了专门针对企业的C&C通信检测器,该检测器只能检测到与C&C服务器通信的单个主机的隐式威胁。

1 介绍 

由于攻击者使用的典型感染媒介,某些感染模式仍会在恶意软件变体和家族中持续存在。例如,在恶意软件分发阶段,由于攻击者采用了重定向技术来保护其恶意基础结构,受害主机经常在短时间内访问位于攻击者控制下的多个域[36]。交付后,后门将安装在受感染计算机上,以立足于目标组织[26],在该组织中,计算机定期启动与命令和控制服务器的出站连接,以接收来自攻击者的指令。恶意软件通信通常通过HTTP / HTTPS进行,因为防火墙通常允许Web通信。更重要的是,在同一攻击活动中使用的域通常是相关的,这意味着它们可以在IP地址空间,访问时间或联系它们的主机组中共享位置。

在这项工作中,我们利用这些观察结果来检测企业网络中的早期恶意软件感染。我们对企业的关注源于他们独特的观点以及这些网络中存在的新挑战。作为许多网络攻击的受害者,企业被迫尽早发现感染,以防止进一步的损害。但是,大型企业每天产生的网络流量可能为TB级,因此需要极其有效的分析方法来维持合理的检测时间。但是,即使有很多数据,它的范围也很有限-仅包含从该企业观察到的流量,这使得使用ISP级数据的现有方法(例如[9],[6])不适用。

我们提出了一种基于信念传播的图论框架[31],以识别指示早期恶意软件感染的相关域的小型社区。我们首先将注意力集中在发往稀有目的地的流量上。这些是“新”域,组织中的任何主机以前都不会在观察窗口内访问过该域(因此更可能与可疑活动相关联),并与少数内部主机联系(因为我们希望最初的感染会小)。在我们的信念传播算法的每次迭代中,根据几个特征以及与先前迭代中检测到的域的相似性对稀有域进行评分。

我们的算法既可以应用“提示”(从已知受感染主机或域的“种子”开始),也可以不应用(当未提供有关受感染主机或域的信息时)。在第一种情况下,可以从商业黑名单和包含企业安全运营中心(SOC)可以访问的危害指标(IOC)的外部情报资源中获取种子。当前,SOC安全分析人员从IOC开始手动调查事件,我们的目标是促进这一过程。在后一种情况下,我们的方法首先确定自动的常规C&C通信,然后将其用作种子。我们的C&C检测器利用企业网络的独特属性(例如,HTTP流量中用户代理字符串和Web引用信息的流行度)以及先前工作中使用的功能(例如,时序模式,域年龄和注册有效性)以及它可以检测单个受感染的主机。

我们在两个不同的数据集上展示了我们技术的有效性,一个数据集包含DNS记录,另一个包含Web代理日志。首先是2013年初来自洛斯阿拉莫斯国家实验室(LANL)的两个月匿名DNS记录,总计1.15TB。该数据集还包括由LANL领域专家模拟的20种独立的类似APT的感染攻击,并随社区面临的挑战性问题(使用DNS数据的APT感染发现[15])一起发布,请求使用方法来检测受感染的内部主机和外部域在模拟攻击中。挑战包括各种细节的“提示”(例如,一个或多个已知的受感染主机),以及验证的答案。我们的技术被证明可以有效地检测LANL模拟攻击,从而达到98.33%的真实检测率,而错误检测率和误报率分别为1.67%和6.25%。

我们的第二个数据集包含2014年初从一家大型企业收集的两个月的Web代理日志。由于此数据集规模较大(数据38TB),信息不一致(主机IP地址为在大多数情况下使用DHCP进行动态分配),也缺乏基本事实。通过与企业SOC进行仔细的手动分析,我们可以识别出数百种以前未被部署在企业网络上的最新安全产品所检测到的恶意域。有趣的是,其中很多(98个不同的域)都是全新的发现,在我们检测到它们后几个月,VirusTotal尚未报告。这证明了我们的技术能够检测全新的,以前未知的攻击。

总结一下我们在论文中的主要贡献是:

1. 用于检测企业感染的信念传播框架。我们开发基于信念传播的图论框架来检测早期企业感染。给定“种子”主机或域,我们会自动推断可能是同一活动一部分的其他受感染主机和相关恶意域。我们的方法独特地利用了在感染过程的多个阶段中联系的域之间的关系。

2. 企业中的C&C通信检测器。通过利用新颖的企业特定功能,并将其与以前的工作中使用的功能相结合,我们构建了针对企业环境的C&C通信检测器。可将被标记为潜在C&C的域植入信念传播算法中,以检测其他相关域。

3. 解决LANL挑战。我们将置信传播算法应用于LANL挑战,并以高精度,低错误检测和错误否定率来识别20个模拟战役中的恶意域。

评估来自大型企业的真实数据。我们将解决方案应用于在企业网络边界收集的大型Web代理日志数据集(38.41 TB)。我们确定了内部企业主机联系的数百个可疑域,而这些域以前都没有被最新的安全产品检测到。通过仔细的手动调查,在一个月内总共检测到375个域中,有289个(占77.07%)被确认为恶意或可疑。尽管VirusTotal也报告了191个(50.93%)(但我们的研究企业未知),但我们发现98个(26.13%)是全新发现(VirusTotal或企业未报告)。

2 现有问题

我们的目标是在活动的早期阶段检测组织内部的恶意软件感染。我们在下面描述常见企业感染的特征(由于有针对性的攻击或机会攻击),为什么现有的解决方案无法抵御此类威胁以及我们在检测它们时必须克服的挑战。

A. 企业感染

定向攻击的常见感染媒介是社会工程[26]和合法站点的破坏[39]。就社会工程而言,攻击者会向目标组织内的几名员工发送看上去合法的鱼叉式网络钓鱼电子邮件,其中包括恶意附件或指向恶意文件的超链接。主流恶意软件采用的攻击媒介包括垃圾邮件,USB驱动器和各种基于Web的攻击(例如,通过下载进行驱动,点击劫持,恶意广告等)。这些攻击中的许多攻击(有针对性的攻击和主流攻击)在早期感染期间都有共同的模式[26],[20],[12],[13]:

1. 交付阶段:在交付过程中,受害机器会通过电子邮件附件或下载驱动攻击等手段获取恶意负载。很多时候,第一阶段恶意软件是通用的,需要下载其他恶意软件(第二阶段)是专门为受害者环境设计的[38]。

2. 建立立足点:交付后,通常在受害者的机器上安装后门,攻击者在组织内建立立足点[26]。在几乎所有情况下,后门都会启动出站​​连接,以逃避阻止来自网络外部连接的防火墙。大多数通信通过HTTP或HTTP进行,因为大多数企业防火墙都允许使用这些端口[34],[28]。

3. 命令与控制(C&C):通常,后门会定期连接到由攻击者运营的命令和控制中心,以接收进一步的指令,并允许攻击者通过后门进入受害者环境[26],[13]。

基于这些感染模式,我们提取了企业感染的几个共同特征:

1. 规模小:攻击者有动机保持秘密行动,以避免被部署在企业范围内的安全产品检测到,因此我们专注于以小规模检测感染。在某些情况下,单个主机可能被感染并与C&C中心通信。

2. 罕见的域(uncommon domains ):攻击者倾向于在比赛的不同阶段(例如交付,C&C)使用罕见的目的地。为了检查攻击中使用的域的普及程度,我们从一家大型企业的SOC中获得了2011年至2014年间报告的14,915个IOC【外部智能源】的列表。这些指标均未在Alexa最受欢迎的前一百万域中排名[4]。另外,[26]指出,攻击者使用更频繁的域名而不是直接的IP连接进行C&C通信,以便他们可以动态地更改域。在企业列表中的14,915个IOC中,绝大多数(13,232或88.71%)是域名。

3. HTTP / HTTPs通信。恶意软件和C&C服务器之间的通信通常通过HTTP或HTTPs完成,因为其他端口被企业防火墙阻止。

4. 域社区:受感染的主机通常会在相对较短的时间间隔内联系多个恶意域。例如,用户单击电子邮件中的嵌入式链接可能会访问前端攻击者站点,被重定向到承载恶意负载的站点,并且在后门建立后不久,该站点将启动与C&C服务器的首次连接。这些域构成了小型社区,在连接时序,连接的主机组(如果在同一活动中感染了多个主机),有时在IP地址空间中具有相似性方面表现出相似性[19],[26]。

5. 自动的C&C通信:后门通常会定期与C&C服务器通信,以使攻击者能够访问受害环境。在许多公开的APT活动中以及僵尸网络感染,发生了C&C通讯以固定的时间间隔(分钟或小时)。我们还检查了Mandiant在APT1组上提供的恶意软件样本,以测试其通信模式。在43个后门样本中,只有4个表现出随机的通信模式,而其余的则周期性地与C&C服务器通信(连接之间的变化很小)。

B.当前的防御

大型企业部署了不同的安全产品(防病毒,入侵检测,防火墙等)。检测和响应在很大程度上由安全运营中心(SOC)负责。 SOC由一组安全分析人员组成,他们监视企业网络内部的网络活动,通常依靠商业黑名单或外部智能源(即IOC)来识别恶意域和受感染的主机,然后进行手动调查以发现确定威胁的范围。由于IOC不完整,因此调查阶段特别耗费人力。本文旨在促进这一过程。

在文献中已经广泛提出了检测僵尸网络通信或恶意域的系统。其中一些(例如[37],[22])需要恶意软件样本进行培训。非监督系统(例如[16],[18],[41])通常需要由同一恶意软件破坏的多个同步主机,并且无法扩展到大型网络。 ExecScent [28]从企业网络流量中识别C&C域,但是它需要恶意软件样本作为输入来生成流量模板。我们的方法还针对ExecScent之类的大型企业网络量身定制,但不需要恶意软件二进制文件,并且可以识别活动中使用的多个相关恶意域(不仅限于C&C阶段)。

C.挑战

在开发检测方法的过程中,我们必须克服一些挑战。首先,部署在企业范围内的安全产品每天记录大量数据。例如,我们用来评估系统的两个数据集分别为1.15 TB和38.14 TB。为了执行有效的分析,我们描述了一套技术,这些技术可将数据量减少一个数量级,同时保留有关内部主机与外部域之间通信的宝贵信息。

在实际情况下,我们必须处理由各种已部署的安全产品生成的不同日志格式。我们重点研究各种类型的网络数据(例如,NetFlow,DNS日志,Web代理日志,完整数据包捕获)中常见的一般感染模式,并展示该算法在两个不同数据集(§V和网络代理登录§VI)。在Web代理日志数据集中,我们使用HTTP连接中可用的上下文信息来丰富功能集。

最后,尽管大多数现有的检测系统都将重点放在一般恶意软件上,但我们的目标还在于解决可能是定向攻击一部分的复杂感染。 APT攻击非常隐蔽,保持低调并适应受害者环境,仅在日志数据中保留少量证据。我们开发了一种算法,用于识别§IV-C中的可疑C&C域(即使单个主机联系也是如此),而无需事先了解恶意软件样本。我们将这些域用作种子,以通过信念传播来识别同一活动的其他相关恶意域和受感染主机。在提供IOC的情况下(这在企业设置中很常见),它们可以用作同一信念传播算法中的种子。我们的算法在识别用于不同感染阶段(例如传递,C&C)的域之间的关系方面具有独特性。对LANL数据集的评估表明,我们的方法能够检测模拟的APT感染,因此具有在野外检测目标攻击的潜力。

3 方法

在本节中,我们将概述检测早期企业感染的方法。我们的系统会定期(例如每天)分析在企业边界收集的日志数据,维护企业内部正常活动的概况,并通过利用在不同感染阶段使用的可疑外部目标之间的关系来检测恶意软件感染。我们首先描述本研究中使用的数据集,然后介绍基于信念传播的主要框架,用于检测可疑外部目标的功能,并以系统操作的概述作为结束。下一节将详细介绍我们的技术和功能。

A.数据集

本研究中使用的第一个数据集包括从洛斯阿拉莫斯国家实验室(LANL)内部网络收集的匿名DNS日志。它包括由内部主机发起的DNS查询,来自LANL DNS服务器的DNS响应,这些事件的时间戳以及源主机和目标主机的IP地址。所有IP地址和域名都是匿名的(一致地-即,相同的IP始终映射到相同的匿名IP)。除了现实世界的DNS日志外,数据集还包括模拟的DNS流量,该流量代表了在隐式,有针对性的攻击(即APT)的初始阶段观察到的流量。总共包括20个不同的攻击活动。

第二个数据集AC由Web代理收集的日志组成,这些日志在具有100,000多个主机的大型企业网络的边界处拦截HTTP / HTTPs通信。日志包括连接时间戳,源和目标的IP地址,已访问的完整URL,以及特定于HTTP通信的其他字段(HTTP方法,状态代码,用户代理字符串,Web引用等)。这样,与LANL数据集相比,AC数据集要丰富得多。

除了Web代理日志之外,我们还获得了对SOC用于检测恶意活动的域IOC列表的访问权限,并破坏了与这些域通信的内部主机。 IOC是从外部情报来源和商业黑名单中收集的,通常用作SOC分析人员的调查起点。该数据是在Web代理日志同时收集的。

我们所有的数据集间隔两个月(LANL在2013年初,AC在2014年初),并且都非常大(分别为1.15TB和38.14TB),这带来了许多可扩展性挑战。尽管AC数据集的信息要丰富得多,但LANL的主要优点是它包括LANL领域专家进行的模拟感染活动,因此提供了标记的数据集,可用来验证我们的方法。但是,我们的主要结果来自与企业SOC合作对AC数据集进行的评估。

在以下各节介绍的分析和结果中,我们重点关注数据集中的“稀有”目的地。我们的见解是,受欢迎的网站(由大量用户访问)可以得到更好的管理,而且不太可能受到破坏,但是与罕见目的地的连接可能表明存在可疑行为。更具体地说,我们对以下外部目标感兴趣:

• 新建的域:以前没有任何内部主机访问过。这样做的理由是,攻击者倾向于在至少某些攻击阶段使用受其控制的新域,并且良性主机不会与这些恶意域联系。

•不受欢迎的域:少数内部主机访问过。直觉是,在最初感染期间,攻击者可能只危害少数主机。

为了确定“新”目的地,我们会跟踪内部主机随时间推移联系的外部目的地。在引导期间(例如,一个月)初始化目的地的这种“历史”,然后每天递增。

这些新的和不受欢迎的域称为稀有目的地,是我们检测的起点。在我们研究的企业中,我们发现稀有目的地的数量每天大约为50,000,而我们面临的挑战是在此潜在的恶意域中识别。

B.运作方式

我们的检测方法有两种模式。在第一个所谓的SOC提示中,我们以企业SOC调查的事件为起点。给定被分析人员确认为恶意的主机或域作为种子,我们的算法会识别其他相关的恶意域(可能是同一活动的一部分)和内部未知的主机(以前未知)。

第二种是“无提示”模式,在该模式下,没有已知的受感染主机或恶意域可用。在这种模式下,我们开发了一种新的C&C通信检测器,该检测器利用了从主机到域的连接时序模式,域注册信息以及从Web代理日志中提取的企业特定功能。与以前的工作相比,我们的C&C检测器不需要恶意软件样本即可进行培训,并且当企业中只有一个受感染的主机与外部C&C域通信时,便可以检测C&C通信。有趣的是,检测到的C&C域和与之联系的主机可用于播种相同的信念传播算法,并识别其他相关的可疑域和受损主机,即充当SOC提示模式的输入。

C.信念传播框架

我们使用二部图G =(V,E)对内部主机和外部域之间的通信进行建模,其中有两种类型的顶点:主机和域。如果主机在观察窗口期间(例如一天)至少与该域接触一次,则会在该主机和该域之间创建边缘。我们希望以高可信度将每个域标记为恶意或良性,并将每个主机标记为受感染或干净。

我们的主要见识是应用称为信念传播[31]的图论技术,该方法通常用于给定有关节点本身的先验知识以及有关其图邻居的信息的情况下确定节点的标签。该算法基于节点与其邻居之间的迭代消息传递,直到收敛或满足指定的停止条件为止。就我们的目的而言,节点之间传递的消息(或“信念”)表示在早期恶意软件感染期间观察到的可疑活动。在典型的实现中,整个图是预先构建的,“信念”在每次迭代中从每个节点传输到其所有邻居。由于本例中的图非常大(每天可能有成千上万个域和主机),因此我们提出了一种构建二分图的增量方法,其中仅当主机和域的妥协度(the confidence of compromise)很高时才将其添加到图中。

我们从作为种子给出的已知受感染主机(以及可选的可疑域)开始构建图形。在每次迭代中,我们为已知的受感染主机联系的那些稀有域计算得分,并将得分最高的域标记为可疑。受损主机的集合也已扩展为包括与新标记为可疑域的主机联系的其他主机。当排名最高的域的分数低于阈值时,或者达到最大迭代次数时,该算法终止,并返回按可疑程度排序的标记恶意域列表。

域的分数是基于以下因素计算的:1)域表现出类似C&C行为的程度(在§III-D中进行了描述),或2)与先前信念传播迭代中与已标记可疑域的相似性。在后一种情况下,两个域的相似性基于联系它们的主机的重叠,同一主机之间的连接之间的时间差以及它们的IP地址的接近性。这些功能与域本身的属性(域年龄,注册有效性,用户代理字符串的流行度以及网络引荐来源信息)结合在一起,可用于回归模型中,以计算该域相对于已经存在的一组域的相似性得分在信念传播期间标记为可疑。 §IV-D提供了有关域相似性的更多详细信息。

D. 检测C&C通讯

如§II中所述,在许多活动中都会定期与C&C中心进行通信,以使攻击者通过后门访问受感染的系统。此类通信是由受害者计算机上的恶意进程自动生成的,并且在连接定时模式方面表现出一定的规律性。相比之下,正常的用户活动在很大程度上是可变的。

我们利用这些见解为自动通信构建新颖的检测器,该检测器将主机和域之间的通信的互连直方图与周期性(正则)分布的直方图进行比较。如果两个直方图之间的统计距离低于某个阈值,则主机与域之间的通信将标记为“自动”。与其他用于识别自动连接的方法(例如,BotFinder [37]中的Fast-Fourier变换和BotSniffer [18]中的自相关)相比,我们的方法可以通过多个参数进行调整,以适应异常值和连接之间的随机性。我们的检测器(就像先前提出的基于时序的C&C检测方法一样)会丢失时序模式中具有很大可变性的通信,但是攻击者并不常用这些方法[26]。使用完全随机的时序模式(无需访问已知的恶意软件样本)检测C&C通信仍然是社区的一个未解决问题。

但是,成千上万的合法请求也具有定期的计时模式(由于网站刷新或自动更新)。将我们的注意力集中在稀有域上会大大减少考虑的域的数量,但是我们需要利用其他功能来识别真正可疑的自动化连接。这些功能中的某些已在以前的工作中用于识别通用恶意活动(例如,从WHOIS数据中提取的域名年龄和注册有效性),而某些则针对企业环境(例如,该网络中用户代理字符串的普及程度和HTTP流量中的网络引荐来源信息)。

结合这些功能,我们训练了线性回归模型,以输出每个域的得分,该得分被检测为接收自动,周期性的通信。更具体地说,域的分数是特征的加权总和,其中权重由训练期间的回归模型确定。得分高于阈值的域(根据准确性和覆盖范围之间的权衡确定)被认为是潜在的C&C域。

E.放在一起

我们用于检测企业早期感染的系统包括两个主要阶段:培训(在一个月的引导期内)和操作(在培训期之后每天)。图1中显示了概述图。

培训。培训期是针对每个组织的,其作用是创建企业主机正常活动的基准。它包括几个步骤。

(1)数据标准化和归约:第一阶段处理用于训练的原始日志数据(HTTP或DNS日志),并应用归一化和归约技术。 (2)分析:系统从规范化数据开始,对内部主机的活动进行配置。它建立内部主机访问的外部目标的历史记录,以及HTTP请求中使用的用户代理(UA)字符串(如果可用)。当有新数据可用时,将在操作阶段维护这些历史记录并对其进行增量更新。

(3)定制C&C检测器:C&C通信检测器是根据企业特点定制的。特定于企业的功能(例如,稀有目的地,在连接中使用的用户代理字符串的受欢迎程度,Web引用信息)与先前工作中使用的其他常规功能(自动连接,域使用期限和有效性)结合使用。经过训练的回归模型可以确定特定企业的特征权重以及将域标记为C&C的阈值。

(4)定制领域相似性评分:在培训阶段,也将信念传播过程中使用的领域相似性评分也定制给企业。还通过回归模型选择用于确定置信度传播期间的域相似性得分的特征的权重以及得分阈值。

操作。在初始训练期之后,系统进入日常操作模式。每天执行几个阶段:

(1)数据归一化和缩减:系统处理当天的新数据,对其进行归一化并执行数据归约。

(2)配置文件比较和更新:将新数据与历史配置文件进行比较,并标识出罕见的目的地以及罕见的UA(由少量主机使用)。外部目标和UA的历史记录将使用新数据进行更新,以便在配置文件中捕获正常行为的变化。 (3)C&C检测器:C&C检测器每天运行,并使用在训练过程中确定的权重来计算自动域的分数。得分高于阈值的自动化域被标记为潜在的C&C域。

(4)信念传播:信念传播算法以两种模式运行(有或没有提示)。输出是提供给SOC进行进一步调查的可疑域的有序列表。

4 细节

A.数据标准化和归约:按照特定步骤减少数据量。

稀有目的地。对于这两个数据集,我们使用第一个月的数据来分析和构建内部主机访问的外部目的地的历史记录。我们为第二个月的每一天确定一个内部主机以前未访问过的新目的地的列表。这样做的理由是,攻击者倾向于在内部主机以前未访问的控制下使用新域,而良性主机(绝大多数)不太可能访问受感染主机联系的恶意站点。

为了分析外部目标,我们首先将域名“折叠”到第二级(例如,将news.nbc.com折叠到nbc.com),假设这捕获了负责该域的实体或组织。由于域名在LANL数据集中是匿名的,因此我们保守地折叠到三级域名(因为我们没有顶级域名的信息)。然后,我们维护内部主机查询的(折叠的)外部目标的历史记录,并在每天结束时进行更新,以包括该天起的所有新域。如果某个域以前没有被联系过,则认为该域在特定的一天是新的,并且在一天之内的唯一主机的查询量小于某个阈值,这是不受欢迎的。根据与大型组织的安全专家的讨论,我们将阈值设置为10个主机。这些罕见的目的地是我们进行调查的起点。

按照上述详细步骤,我们极大地减少了两个数据集的大小。图2中显示了3月在LANL的每个缩减步骤中一个星期后的域数。平均而言,虽然整个数据集包含从将近80,000主机到每天超过40万个域的查询,但是在缩减的数据集中,只有3,369主机查询每天平均包含31,582个域。在从原始数据集中的12万个主机和60万个域开始的AC数据集中,数据精简后,我们每天平均遇到2万个主机和59K个稀有域。

B.信念传播算法

置信传播算法可以以两种模式应用:带有SOC提供的受损主机的提示或没有提示。

在第一种情况下,我们使用由安全分析人员在SOC中调查和确认的受感染主机的列表作为种子,还可以使用恶意域的列表作为种子。

在后一种情况下,首先运行C&C通信检测器,以识别一组潜在的C&C域和与之联系的主机。这些是作为信念传播算法的种子给出的。

该算法每天都在两种模式下运行,并且它会检测到恶意域和受感染主机,这些域和受感染主机很可能与提供的种子一起在同一活动中。

在SOC提示情况下,H是提示主机集,而M是恶意域集(如果提供)。

在无提示的情况下,M是潜在C&C域的集合,而H是与其联系的主机的集合。

R是H中主机联系的稀有域的集合,N是新标记的恶意域的集合(在特定迭代中)。

在每次迭代中,该算法首先使用函数DETECT-C&C检测集合R中可疑的C&C类域。请注意,在无提示模式功能中,DETECT-C&C标识其他C&C域(因为它们用于播种算法,并且已经包含在M中)。如果未找到可疑的C&C域,则该算法将使用功能Compute-SimScore函数为R中的所有稀有域计算相似性得分。最大得分的域(如果高于某个阈值Ts)包含在集合M中。最后,受感染主机的集合被扩展为包括与新标记的恶意域联系的其他主机。该算法将进行迭代,直到满足停止条件为止:要么没有将新域标记为恶意域(由于其得分低于阈值),要么达到了最大迭代次数。输出是受损主机H和恶意域M的扩展列表。

C.  检测CC通信

我们提出了一种动态直方图合并方法。在这里,我们首先将在特定日期从主机到域的连续连接的互连间隔(表示为t1,...,tm)聚类,然后根据生成的聚类动态定义直方图bin。令第一间隔t1为第一群集“集线器”。如果间隔ti在群集集线器的W内,则将其视为群集的一部分。否则,将创建一个具有集线器ti的新集群。 W是一个固定值,并充当我们的“ bin宽度”。这种动态合并方法使我们能够适应攻击者在连接之间引入的时序随机化。

将每个结果群集视为一个bin,计算其频率,并将所得到的直方图与周期等于最高频率群集中心的周期分布的直方图进行比较。如果主机和域之间的互连直方图“接近”周期(即在阈值JT内)(如由Jeffrey散度确定),则我们将主机和域之间的通信标记为自动。对于两个直方图H = [(bi,hi)]和K = [(bi,ki)],如果mi =(hi + ki)/ 2,则杰弗里散度定义为[35]:


。。。。。没写完。。。。。

你可能感兴趣的:([2014]通过挖掘大规模日志数据检测企业感染)