来源:Flow-based intrusion detection: Techniques and challenges
基于流的入侵检测是一种新颖的高速网络入侵检测方法。基于流的入侵检测只检查包头,不分析包负载。介绍了一种基于流的入侵检测系统,并对基于流的入侵检测技术进行了研究。文中还介绍了用于评估基于流的入侵检测系统的现有基于流的数据集。在分析IP流量记录恶意检测技术的基础上,提出了一种基于流量的入侵检测系统分类方法。我们回顾了现有基于流的入侵检测系统的体系结构和评估结果,并确定了未来基于流的入侵检测领域研究的重要挑战。
1. 介绍
为企业和政府提供高速网络服务的需求怎么强调都不过分。信息技术公司和服务提供商不断努力提高网络连接和硬件的能力。这种数据传输速率、计算能力和计算机网络的扩展带来了复杂的信息安全挑战,需要其他解决方案。
入侵检测系统(IDS)是保护IP网络的重要工具。入侵检测系统(IDS)分析与受保护系统关联的日志轨迹,并判断这些日志轨迹是否包含攻击的痕迹。如果入侵检测系统检测到攻击,它会发出警报(Garcia-Teodoro et al., 2009)。传统的入侵检测系统使用深度包检查(AbuHmed et al., 2008)或有状态协议分析来检测网络流量中的攻击。当网络流量被加密时,深度数据包检查是不可能的(Koch, 2011)。此外,检查整个有效载荷在计算上是昂贵的,并可能成为高速IP网络的性能瓶颈(Sperotto和普拉斯,2011)。有状态协议分析根据规范检查协议的完整语义,任何超出范围的值都被认为是入侵。有状态分析技术是特定于协议的,并且在计算上也很昂贵(Liao et al., 2013)。
由于分组和基于协议的入侵检测系统的局限性,研究人员正致力于保护IP网络的替代方法。一个保护IP网络免受未经授权访问的创新解决方案是使用基于流的入侵检测系统(Copeland III, 2007)。基于流量的入侵检测系统使用IP流量记录作为输入,并试图找出流量是正常的还是恶意的(Sperotto和普拉斯,2011)。由于只检查流量记录,入侵检测系统从包内容检查的复杂和耗时的处理中解脱出来。网络上分析的流包平均占流量的0.1%。网络负载以字节为单位度量,而Netflow带来的开销平均为0.2% (Sperotto和Pras, 2011)。因此,基于流的入侵检测是快速的,独立于封装的有效载荷。
基于流的入侵检测是一个相对较新的领域,目前该领域的研究正处于起步阶段。近年来,人们提出了许多利用IP流数据进行入侵检测的技术。在本文中,我们回顾了基于流的入侵检测系统的研究现状,并讨论了开放的问题和未来的研究挑战。
我们将论文组织如下。我们将在第二节讨论相关的调查和评论文章。我们还描述了我们的研究如何不同于现有的综述文章。第3节介绍了基于流的入侵检测,并讨论了其优缺点。第4节简要介绍了用于基于流的系统性能评估的不同的基于流的数据集。在第5节中,我们提出了一种基于IP流中攻击检测技术的入侵检测系统分类。在此基础上,对现有的基于流的入侵检测系统进行了研究。在第6节中,我们还列出了一个商业上可用的基于流的入侵检测系统。在第7节中,我们提出了我们对现有技术的看法。我们在第8节中确定了基于流的检测领域的重要挑战和开放问题,并对它们进行了描述。在第9节中,我们将讨论基于流的入侵检测系统的未来。最后,我们在第10节结束我们的工作。
2. 相关工作
入侵检测是一个重要的研究领域。已经发表了一些关于入侵检测技术现状的调查和综述文章。在本节中,我们简要介绍了重要的入侵检测综述文章,并讨论了我们工作的意义。
我们将现有的入侵检测综述文章分为基于场景的、基于技术的、基于攻击的和通用的类别。基于场景的综述文章分析了为特定网络场景或体系结构设计的所有类型的入侵检测系统。Anantvalee和Wu(2007)讨论了用于移动自组网(MANETs)的入侵检测技术。作者对现有的系统进行了回顾和比较,并为今后的研究提供了方向。manet中入侵检测和预防系统的另一项研究发表于(Nadeem和Howarth, 2013)。Patel等(2013)对云计算中的入侵检测与防御系统(IDPS)进行了研究。作者描述了云计算的特点,并讨论了为云开发IDPS所面临的挑战。本文还确定了基于云的IDPS的需求。无线传感器网络(WSNs)中的入侵检测系统综述见(Butun et al., 2014)。本文简要介绍了IDSs,并讨论了它们在无线传感器网络中的应用。本文对无线传感器网络设计的IDSs进行了详细的综述,分析了其优缺点。该调查还为适用于无线传感器网络的IDS提供了一个通用模型。
基于技术的综述文章在检测算法的基础上分析了一种特殊类型的入侵检测系统。在基于技术的审查中,构造了一种检测算法分类,并对每个类别的入侵检测系统进行了审查。基于技术的综述文章有助于比较不同检测算法的性能。GarciaTeodoro等(2009)综述了基于异常的网络入侵检测系统(a - nids)。作者将A-NIDS分为基于统计的、基于知识的和基于机器学习的三类。本文对各种类型的A- nids技术进行了综述,并对其优缺点进行了讨论。最后,讨论了异常检测系统存在的问题和面临的挑战。Zhang等人(2009)对计算机网络中的异常检测方法进行了综述。调查将异常检测技术分为四类:统计、分类、机器学习和有限状态机。本文描述了这些类别中的每种可用技术。Tsai等人(2009)对使用机器学习技术的入侵检测系统进行了研究。在分类器设计、使用的数据集和其他实验设置的基础上,对入侵检测系统进行了比较。本文还对入侵检测的限制进行了分析,并对未来的研究方向进行了探讨。(Wu and Banzhaf, 2010)对使用计算智能技术的入侵检测系统进行了综述。综述了人工神经网络、模糊系统、进化计算、人工免疫系统、群体智能和软计算算法在入侵检测中的应用。Buczak和Guven(2015)对入侵检测的数据挖掘和机器学习方法进行了综述。本文将可用的系统分为12种不同的数据挖掘和机器学习方法。并对不同方法的计算复杂度进行了描述。最后,对数据挖掘和机器学习技术在入侵检测中的应用提出了建议。Drasar等人(2014)对基于流的入侵检测技术进行了综述。综述了基于流的相似度匹配攻击检测技术。这些技术是根据相似函数的顺序进行分组的。Vasilomanolakis等(2015)对协同入侵检测系统(CIDS)进行了研究。首先,作者定义了在大型IT系统和关键基础设施中成功部署CIDSs的需求。将现有的CIDSs分为集中式、分散式和分布式三类,并对每一类中的技术进行了详细的介绍。
基于攻击的评论文章建立了网络攻击的分类。针对每种类型的攻击,对现有的入侵检测系统进行了回顾。Sperotto等人(2010)对基于流的入侵检测系统进行了详细的研究。本文介绍了基于流的入侵系统,并描述了使用基于流的入侵检测的动机。创建了网络攻击的分类,并描述了针对攻击类型的基于流的技术。最后,作者对基于流的入侵检测进行了批判性的讨论,并指出了未来的研究方向。
一般用途的综述文章提供了不同维度的入侵检测技术。(Patel et al., 2010)中介绍了入侵检测和预防系统的概况。在调查中,分析了现有系统存在的不足,提出了利用机器学习和自主计算等智能技术检测已知和未知威胁的方法。入侵检测系统的综合综述见(Liao et al., 2013)。提出了一种基于系统部署、数据源、时效性和检测策略的入侵检测系统分类方法。同时也提出了未来入侵检测系统的一些挑战。Bhuyan等人(2014)对网络异常检测方法、系统和工具进行了广泛的综述。本文确定了六种不同类型的网络异常检测方法。作者描述了每种方法的优缺点,并讨论了相关的系统。本文还详细介绍了用于入侵检测系统基准测试的评估措施和数据集。最后,对网络异常检测中存在的问题和挑战进行了广泛的讨论。
本文对基于流的入侵检测系统进行了基于最新技术的综述。我们的工作与以往的调查和检讨有以下不同:
1. 我们对基于流量的检测技术进行了全面的介绍。Sperotto等人(2010年)对基于流程的技术进行了较早的调查,现在已有7年的历史。Drasar等人(2014)最近对基于流量的检测技术进行了研究。然而,它侧重于相似性匹配方法。Winter等人(2011b)、Zhang等人(2012)、Fran cois等人(2012)的一些技术还没有被讨论。
2. 我们的工作重点是基于流的入侵检测。其他调查如Bhuyan等(2014)、Buczak和Guven(2015)讨论了一些基于流程的技术,但细节有限。
3.简要介绍了基于流的入侵检测技术。描述了一个通用的基于流的入侵检测模型,并讨论了基于流的入侵检测的优缺点。
4. 我们提供了一个基于流的公开可用数据集的摘要。我们还描述了用于生成数据集的过程,并给出了重要流属性的详细信息。
5. 我们创建了基于流的入侵检测系统的技术分类。这与早期的调查报告不同,调查报告是根据攻击类型组织的。对现有的基于流的入侵检测技术进行了综述,并对其优缺点进行了讨论。
6. 我们提供了一个商业上可用的入侵检测系统列表,这些系统使用IP流记录进行网络攻击检测。
7. 最后,我们指出了基于流的入侵检测中重要的开放问题和研究挑战。
3.基于流的入侵检测
3.1 IP流
基于流的入侵检测系统使用IP流记录进行入侵检测。IP流记录有许多应用,例如计费、流量分析、网络可见性、拥塞控制和入侵检测(Li et al., 2013)。IP流被定义为一组数据包或帧,它们在一定的时间间隔内通过网络中的观察点。所有属于特定流的包都具有一组公共属性(Trammell和Claise, 2013)。网络中的观测点可以是流探针,也可以是启用流的网络设备。网络中IP流的处理通过流导出和收集协议进行管理。流数据的重要性使得所有主要供应商都在其网络硬件中提供内置的流收集和导出支持。不同的供应商都有自己的流协议,但Ciscos Netflow是最流行的。
Internet Engineering Task Force (IETF)采用Netflow v9开发了一个标准的流导出和收集协议,名为Internet Packet flow Information Exchange (IPFIX) (Trammell and Claise, 2013)。IPFIX是一个灵活的协议,大约有280个属性。IPFIX允许以导出模板定义的自定义格式导出流记录。与Netflow不同,IPFIX包含特定的字段,供应商可以使用这些字段存储专有信息。图1显示了IPFIX流导出和集合体系结构。
IPFIX使用以下三个过程收集流记录:
(1)观测点采用计量过程。观察点收集通过特定接口的数据包。这些数据包被转发到一个计量过程。计量过程对数据包进行时间戳。这些时间戳包可以采样或过滤,因为在高速网络中,包的总数可能非常大。这些包按特定的间隔缓存,以便接收特定流所需的所有包。
(2)出口过程。在导出过程中定义了生成IPFIX流记录的规则。该过程生成IPFIX记录使用IPFIX模板定义的格式,并使用底层传输协议将它们转发到收集过程。
(3)收集过程。收集过程从导出过程收集IPFIX记录,并将它们存储在流数据库中。流分析应用程序可以访问数据库,以达到所需的目的。
3.2。基于流的入侵检测系统体系结构
图2展示了一个基于流的入侵检测系统的总体架构。系统以IPFIX/Netflow记录作为输入。流记录可以有许多属性。并不是所有这些属性在分类决策中都是必需的,其中一些属性可以成为计算性的,而一些重要的属性如原始IP地址、目标端口等在检测决策中起着重要的作用。特征选择阶段只选择决策所需的相关属性。预处理阶段以异常检测算法可接受的特定格式转换流记录。异常检测算法利用IP流记录进行训练和检测阶段。在检测阶段,算法将流量记录标记为恶意或正常。如果流是正常的,则认为它是安全的,并且没有后续操作,而恶意流可以发出警报并成为进一步检查的对象。
3.3 基于流的入侵检测的优缺点
与传统的入侵检测系统相比,基于流的入侵检测具有许多优点。基于流的IDS只分析IP流记录。IP流记录包含包头的聚合信息。将网络流量信息归纳为IP流的形式,减少了IDS处理的数据量。因此,基于流量的入侵检测最适合于处理计算困难的完整网络流量的骨干链路的保护(Sperotto和普拉斯,2011)。
许多现代网络应用程序使用端到端加密。基于分组的入侵检测系统不可能在中间位置检测加密的数据。在这种情况下,基于流的入侵检测是一个合适的选择,因为不需要包数据扫描。基于流的检查比基于包的检查更少涉及隐私问题,因为用户信息不受任何中间扫描的保护。
从网络中收集的流数据可以很容易地分布到多个流收集点。大多数最新的硬件都提供了内置的流收集支持。因此,流数据可以从网络的多个位置收集,而不需要任何额外的成本(Golling et al., 2014)。
基于流的技术的一个重要特性是使用Netflow或IPFIX以标准格式收集流记录。基于流的系统不需要包含用于收集来自各种网络体系结构和协议的流量数据的任何逻辑。收集针对IPFIX的流记录还具有额外的好处,如计费、拥塞控制和网络行为分析(Hofstede et al., 2014a)。在最好的情况下,基于流的入侵检测系统具有接近实时响应、低部署成本和在高速骨干链路上运行的能力(Golling et al., 2014)。
基于流的入侵检测具有很多优点,但也存在一些不足。用于入侵检测的IP流记录包含广义网络信息。因此,基于流的入侵检测系统很难利用广义信息来识别攻击。基于流的技术不扫描数据包负载。因此,基于流的技术不能检测隐藏在包有效负载中的网络攻击,也不如基于包的检测准确(Sperotto和普拉斯,2011)。
4. 基于流的入侵数据集
入侵数据集用于对入侵检测系统的性能进行基准测试。数据集包含正常和恶意网络流量。入侵检测系统检测数据集中存在的恶意流量。入侵检测系统的性能是通过实际攻击次数和IDS检测到的攻击次数来评估的。公开可用的数据集使得比较不同的入侵检测系统更容易获得对称的结果。入侵检测数据集的生成有两种方式(Marek Malowidzki和Mazur, 2015):
(1)建立了一个实验室环境来模拟不同的网络场景。这些攻击使用脚本进行人工启动,并从网络中收集流量样本。这种类型的数据集易于开发,并且可以手动注入所有攻击类型。然而,这样的数据集并不代表真实的网络流量场景。在这样的数据集上评估的入侵检测系统不能保证在实际部署中得到类似的结果。
(2)创建入侵检测数据集的另一种方法是从实际网络中收集流量样本。这些数据集代表了网络流量的实际性质。然而,这些数据集可能不包含所有必需的攻击类型。实际的数据集很难构建。由于保密和隐私问题,公司和企业不允许从其网络上收集流量样本。此外,法律不允许在公共领域发布实际数据。通常,从数据集中删除用户相关信息是为了解决隐私问题。
在Bhuyan等人(2014)中给出了入侵数据集的分类。分类中包含的入侵数据集大部分是基于包的,除了TUIDS, TUIDS是基于包和流的(Gogoi et al., 2012)。基于分组的入侵数据集也可用于基于流量的入侵检测。由于基于流的入侵检测的重要性,研究人员正在开发基于流的本地数据集。基于流的数据集以IP流记录的形式提供。在下一节中,我们将简要介绍可用的基于流的数据集。
4.1。UoT入侵数据集
UoT数据集是第一个公开可用的基于流的数据集(Sperotto et al., 2009)。它由1420万条流量记录组成,这些记录是通过特温特大学校园网的“蜜罐”部署收集的。四个标准服务SSH、HTTP、FTP和AUTH/IDENT在这个蜜罐上运行了六天。在流收集期间,一个黑客在蜜罐上安装了一个IRC代理,这也产生了一些流量。流量转储和服务日志文件都已下载,并通过相关进程进行警报生成。关联过程成功地标记了超过98.5%的流量和99.99%的警报。数据集以Netflow v5记录的形式提供。表1显示了数据集中每个警报的IP流数量。
4.2。ISOT入侵数据集
ISOT数据集由几个现有的公开可用的恶意和非恶意数据集组成(Szab ' o et al., 2008)。恶意部分包含Storm和Waledac僵尸网络的恶意流量。正常流量是来自匈牙利爱立信研究所(Szab ' o et al., 2008)的流量实验室和劳伦斯伯克利国家实验室(LBNL)的两个现有数据集的组合。爱立信实验室数据集有各种正常流量,包括网页浏览、游戏和种子流量。LBNL跟踪数据由三个多月记录的网络跟踪组成,包含web、电子邮件和流媒体应用程序的网络流量。
所有数据集使用一个特殊的过程彼此合并。结果数据集包含流量23子网,其中22子网来自LBNL的正常流量,1子网来自honeypot和Ericsson实验室的恶意和正常流量。数据集中的记录包含11个属性,包括7个基于流的属性和4个基于主机的属性。表2显示了数据集中恶意流和正常流的总数。
4.3 TU 入侵数据集
TUIDS(特兹普尔大学入侵数据集)是在特兹普尔大学实验室环境中生成的基于数据包和流的数据集(Gogoi et al., 2012)。用于数据集生成的实验装置包括一个路由器、一个三层交换机、两个二层交换机、一台服务器、两个工作站和40个节点。攻击针对不同的节点生成。另一个350个节点的局域网也连接到实验装置上。攻击从局域网和安装程序中启动。数据集包含包和基于流的数据。基于流的数据集采用Netflow v5格式。流记录有16个基本属性、4个时间窗口属性和4个基于连接的属性。表3给出了基于流的数据集中正常记录和恶意记录的详细信息。
4.4 CTU-13数据集
CTU-13数据集是在捷克共和国CTU大学创建的(Garcia et al., 2014)。该数据集由僵尸网络流量与正常通信流量和后台通信流量混合构成。流量捕获过程由13个不同的场景组成,每个场景捕获一个特定的恶意软件流量。流量捕获环境由在Linux Debian主机上运行Microsoft Windows XP SP2操作系统的虚拟机组成。这些虚拟机被连接到大学网络中。在Linux主机和连接到Linux主机的大学网络路由器上都捕获了流量。在贴标签过程中,所有流量最初都被贴上了背景标签。对于来自交换机、代理和合法计算机的流量,给出了正常的标签。所有来自已知受感染机器的流量都被标记为僵尸网络。CTU数据集包含双向Netflow记录。表4给出了每个场景中的恶意软件和流量记录的详细信息。
4.5 SSHCure入侵数据集
SSHCure入侵数据集由校园网SSH攻击构成(Hofstede et al., 2014b)。数据集以Netflow v5格式从四个Cisco 6500系列路由器导出。数据集有两个段,D1和D2。这两个片段都是在UT的校园网中收集的,历时一个月。这两个部分反映了两个不同的场景。D1段由以蜜罐为目标的SSH流量组成。D2段包含来自普通服务器的SSH数据。D1段攻击632次,D2段攻击10716次。从服务器和蜜罐的相应日志文件中获得数据集的基本事实。
5. 基于流的入侵检测技术
基于流的入侵检测系统采用了不同的技术。在检测方法的基础上,提出了一种基于流的入侵检测系统分类方法。图3显示了分类法层次结构。我们将基于流的入侵系统分为统计、机器学习、知识和推理等技术。在下面的部分中,我们将回顾每个类别中可用的基于流的入侵检测系统的体系结构和性能结果。
5.1 统计技术
统计方法利用网络流量参数的统计函数,建立正常网络流量的分布图。正常流量的这个概要文件用于检查不可见的传入流量。利用统计方法计算了网络流量与一般网络流量的相似度。如果相似性测度超过预定义阈值,则流被标记为恶意流或正常流(Liao et al., 2013;Qayyum等,2005)。我们进一步将统计技术分为单变量、多变量和时间序列方法。
5.1.1 单变量统计技术
单变量统计技术一次分析一个变量,例如均值和标准差。这些技术假定有一个已知的底层数据分布。(Muraleedharan and Parmar, 2010)提出了一种基于流的TCP端口扫描检测系统。TCP端口扫描是发起攻击的第一步,攻击者使用TCP扫描来确定关键用户服务的端口号。作者构建了TCP扫描的长期和短期概要文件。长期剖面和短期剖面具有不同的IP流量参数及其统计均值和标准差。这些参数值用作检测TCP扫描的阈值。作者将该系统与已知的IDS Snort进行了比较,用于检测传入流中的TCP扫描。用于评估的流数据来自通过Internet连接的实时网络。结果表明,与Snort相比,该系统能够检测所有13种扫描类型,而Snort只能识别8种扫描类型。该技术适用于网络的初步无源保护。无法检测TCP扫描,这些扫描本身隐藏为合法的网络流量,并将平均值和标准差值保持在阈值以下。
(Salem et al., 2011)提出了一种检测主干网流量中洪水攻击的技术。使用 sketch数据结构将流量踪迹聚合到流记录中。利用最小均方(LMS)滤波器和皮尔逊奇斯夸尔偏差检测流量记录的变化。作者使用MAWI数据集进行评估(Fontugne et al., 2010)。结果表明,该方法优于其他发散技术,检测率为100%,误报率为3.8%。然而,这些结果是通过将基于包的数据集转换为自定义流得到的,并且不使用标准Netflow/IPFIX流记录作为输入。
(Zhang et al., 2012)提出了一种新的基于流的度量方法——拥塞参与率(CPR),用于检测低速率DDoS攻击。流F的CPR定义为拥塞中的传入包与该流的总传入包的比值。较高的CPR值意味着流量是恶意的可能性更大。CPR大于预定义阈值的所有流都被归类为恶意流并被删除。作者使用NS2仿真、试验台实验和LBNL/ICSI企业踪迹进行了验证实验。在所有的实验中,计算出的CPR在正常流量范围内,当LDoS攻击时,会变得很高。该方法具有检测小范围慢斜率攻击的优点,可与其他入侵检测技术相结合。
(Ellens et al., 2013)提出了一种利用IP流量记录检测DNS隧道的解决方案。在DNS隧道传输中,另一个协议或负载通过DNS数据包隧道传输。DNS隧道可能对网络造成重大风险。本文从流量记录中推导出8个基于流量的变量,作为DNS隧道的指示。采用阈值法、Brodsky-Darkhovsky法和基于分布的方法对基于流量变量的流量特性进行了评价。利用各种数据集对该方法进行了验证,结果表明,该方法能够检测出不同的隧道使用场景,具有较高的检测率。
IPFIX/Netflow导出过程在一定的时间间隔后导出IP流记录。在这段时间间隔内,短时间攻击可以持续存在,直到IP流记录被入侵检测系统导出和处理,才会检测到短时间攻击。(Hofstede et al., 2013)提出了一种使用NetFlow和IPFIX对DDoS攻击进行实时入侵检测的解决方案。作者扩展了IPFIX/Netflow导出过程,并将其直接连接到一个轻量级的入侵检测模块。入侵检测模块采用基于指数加权移动平均(EWMA)均值计算的时间序列预测方法。测量与DDoS攻击相关的特定指标,并与预测值进行比较。如果流量样本的测量值不在预测值的范围内,则视为恶意流量样本。恶意IP流的特征被添加到黑名单中,然后用于过滤恶意流量。该技术通过从服务提供者主干网络捕获的数据集进行验证。在900秒的时间内,检测算法的检出率达到92%,假阳性率为0.01%。该方法可用于DDoS攻击的检测。然而,如果发生多次攻击,可能会出现性能问题。在这种情况下,IDS将无法以正在收集的速度检查流记录。(Hofstede et al., 2013)中提出的算法也被应用于Cisco IOS中DDoS攻击的检测(van der Steeg et al., 2015)。
5.1.2 多变量统计技术
多元技术分析两个或多个变量之间的关系。多元分析技术包括主成分分析(PCA)、线性判别分析和判别分析。
采用PCA对IP流量数据进行异常检测(Kanda et al., 2013)。PCA是一种无监督学习降维技术。作者使用了带有散列网络跟踪的sketch结构。将经过哈希处理的网络轨迹转换为熵时间序列,作为PCA分类器的输入。该技术采用三步sketch结构,有助于获得较高的检出率和较低的假阳性。通过对不同参数调优的MAWI数据集的9年跟踪,对该技术进行了评价。与同一数据集上其他基于PCA的异常检测方法相比,该方法的改进效果明显。作者以F1-measure的形式获得的最大精度为0.90,与前面讨论的其他技术相比要低。F1-measure较低的原因可以归结为所用数据集的实时性、方差和复杂性。
(Fernandes et al., 2015)提出了一种基于剖面的PCA和流量分析的异常检测系统。这种方法为所有类型的正常流量创建概要文件,这些流量称为网络段的数字签名(DSNSFs)。异常检测的过程分为两个步骤:流量表征和异常检测。流量描述步骤从流量记录中提取定量属性,并使用主成分分析创建相应的DSNSFS。异常检测步骤使用DSNSFs创建置信带。这些频带与正常的流量签名匹配,任何异常都会通知系统管理员。利用sFlow流导出和采集协议,在实际网络上对该系统进行了评估。异常检测阶段的评价正确率达到94%。然而,由于无法预先生成所有网络流量的签名,这种技术在现代网络中很难实现。
5.1.3。时间序列统计技术
基于时间序列的统计技术使用以前观测到的值来预测新值。Sperotto等人(2008)在IP流流量中使用时间序列分析异常特征。yen等人(2008)应用holt - winter预测方法检测流量中的异常。它们使用四个指标来构造流:总字节数、总包数、与相同目标套接字具有相似流的流的数量,以及具有相同流、相同源地址和目标地址但到不同端口的流的数量。这四个指标用于检测三种类型的异常;泛洪、TCP SYN和端口扫描。Holt-Winters方法跟踪正常的度量值,并在任何值超出范围时发出异常标志。该技术仅限于三种异常,如果攻击者将流度量值保持在范围内,则可以绕过该技术。
Li等(2010)提出了一种高速流级入侵检测系统(HiFIND)。Li et al.(2005)和Gao et al.(2006)最初提出使用流信息进行高速和dos弹性入侵检测。HiFind使用一小组包头字段,包括源/目标IP和源/目标端口。它主要针对三种类型的攻击:SYN泛洪攻击、水平扫描攻击和垂直扫描攻击。作者采用holt - winterdouble指数平滑和EWMA与季节指数相结合的方法来检测网络流量的变化。HiFIND分三个阶段进行应用,通过分离由错误配置引起的入侵和网络异常来减少误报。HiFind的性能演化采用仿真和现场部署两种方法进行。使用由900M流量记录组成的一天流量跟踪的自定义数据集。作者将HiFIND与其他基于流的统计检测技术进行了比较,结果表明,HiFIND具有类似的精度,但在最坏的情况下内存效率更高。HiFind是实现入侵检测系统安全性的少数模型之一(Sadre et al., 2012)。Holt-winter双指数平滑法的使用EWMA和季节指数统计调味效果的缺点。作者只使用了4个特性的NetFlow记录,没有包含协议字段。因此,系统可能无法检测发送到UDP数据包的攻击。HiFIND系统的另一个限制是无法检测小的和缓慢的攻击。
5.2 静态技术的优缺点
表5总结了基于统计流的技术。基于流量的入侵检测统计技术的优势如下:
(1)统计技术不需要先验知识的网络攻击Bhuyan et al。(2014)。
(2)这些能够准确地检测导致突然的攻击和网络流量的变化如高度相同。DoS攻击。
统计技术的缺点如下:-
(1)高维度和网络流量的变化会影响统计入侵检测系统的性能(Gyanchandani et al ., 2012)。
(2)很难计算正常网络流量的统计数据。
(3)小攻击和慢攻击通过将攻击的影响保持在统计阈值下,可以绕过统计技术。
5.3 机器学习
机器学习技术在入侵检测系统中得到了广泛的应用(Tsai等,2009;Gyanchandani等,2012;廖等人(2013)也在基于流的入侵检测方面保持着关注。机器学习技术包括人工神经网络、支持向量机、k近邻、决策树和聚类。在下一节中,我们将讨论基于流的入侵检测系统,该系统基于机器学习技术来检测IP流中的异常。
5.3.1 人工神经网络
人工神经网络模拟人脑,并使用称为神经元的相互连接的小输入单元。神经网络中的每个神经元都参与决策,并将决策结果结合起来。人工神经网络通过对用户行为的建模,为异常检测问题提供了一种解决方案。Beghdad(2008)讨论了不同的神经网络用于基于异常的入侵检测系统。
Song等(2006)提出了一种基于流的异常检测系统,该系统使用统计特征向量和反向传播神经网络分类器。该系统使用了22个与DoS攻击相关的IP流记录特性。考虑了DoS攻击的三种场景:资源耗尽、带宽攻击以及资源耗尽和带宽攻击的组合。该技术由DARPA和一个自定义数据集评估。DARPA数据集的检测率为88%,误报率为0.2%,没有欺骗式洪水攻击。对于自定义数据集,性能更好。检出率为94%,误报率为0.2%。
(Tran et al., 2012)提出了一种基于流的基于块的神经网络入侵检测技术。作者使用一种基于硬件的检测引擎对大量数据进行实时处理。利用现场可编程门阵列(FPGA)构造了基于块的神经网络(BBNN)。采用遗传算法对bp神经网络进行优化,以提高识别率和降低误报率为目标。为了评估,作者将UoT数据集与DARPA进行了比较。作者使用DARPA是因为UoT数据集包含的正常流量样本比DARPA少。DARPA的数据集最初以tcpdump格式提供,并使用Softflowd和Flowd工具转换为NetFlow格式。作者通过阅读DARPA原始数据集,手动为这些NetFlow记录贴上标签。利用支持向量机、径向基函数和贝叶斯方法对该方法进行了评价。BBNN的检测率与SVM相同,但运行时间较好。基于硬件的BBNN耗时0.005秒,而支持向量机耗时8.53秒。因此,利用FPGA设计高速网络的IDS是很有前途的。在基于流的数据集上对该技术进行评价,可以得到更实际的结果。
(Nguyen et al., 2008)提出了一种利用流数据进行入侵检测的两阶段神经网络。第一个阶段检测可能是攻击的流量中的重要变化。如果在第一阶段检测到攻击,则将流数据转发到第二阶段,从而确定攻击的类型。采用多层前馈神经网络(MLFF)对第一阶段的攻击进行检测,径向基函数网络(RBFN)对第二阶段的攻击进行分类。第一阶段使用6个特性,而第二阶段使用11个特性。所有阶段I和II的特性都是从Netflow v5记录中计算出来的。Netflow记录是使用softflowd工具从DARPA的数据集生成的。两种神经网络阶段的训练分别采用了三种不同的训练算法:弹性反向传播、Levenberg-Marquardt和径向基函数网络。利用Levenberg-Marquardt网络,第一阶段神经网络的检出率为94.2%,假阳性率为3.4%。第二阶段,利用Levenberg-Marquardt网络得到最佳检出率为99.42%,径向基函数得到最低的假阳性率为2.6%。使用多个阶段有助于实现更高的效率,因为大多数输入记录在阶段i中被丢弃。该系统为基于流量的入侵检测提供了一个全面的框架。
(Jadidi et al., 2013)提出了一种基于启发式优化算法的多层感知器(MLP)来检测基于流量的流量异常。采用布谷鸟算法和粒子天鹅算法两种启发式算法对MLP互连权值进行优化。两个数据集,DARPA和UoT数据集的子集(Winter et al., 2011a)已经被使用。比较结果表明,多层感知器与PSOGSA优化算法的误报率最高,分别为99.55%和0.21%。然而,作者的结论是,该方法使用集中处理,不能检测分布式攻击,如DDoS。
5.3.2 支持向量机
支持向量机(SVM)是一种在n维空间中映射数据集的分类技术。SVM使用空间中的向量作为类。如果数据不是线性可分的,则使用核函数构造高维空间。SVM在入侵检测中能够给出准确的结果,降低误报率(Liao et al., 2013)。支持向量机也被用于基于流量的入侵检测。
(Winter et al., 2011a)提出了一种基于svm的单类流数据入侵检测模型。单类SVM学习单个类类型的行为。利用恶意数据集对一类支持向量机进行训练。由于恶意流与正常流的比例较低,因此对恶意记录的学习速度较快。用于评价一类svm的数据集是从UoT数据集中提取的(Sperotto et al., 2009)。数据集由200条流记录和属性组成。结果表明,该方法的准确率为98%,误报率为0%。但是,如果缺少端口属性,则准确率可以下降到72%。正如作者在公开勘误表中所解释的那样,该技术有几个弱点。
(Wagner et al., 2011)提出了一种使用支持向量机对大量Netflow记录进行异常检测的技术。该技术同时考虑了Netflow记录的上下文信息和数量信息。该方法将核函数应用于Netflow记录,并将计算值转发给一个单类SVM。该技术是在internet服务提供商提供的Netlow数据量上进行评估的。作者使用Flame工具在数据集中注入了8种不同的攻击。实验结果表明,单类支持向量机具有良好的应用前景,对所有攻击类别的平均准确率达到92%。
5.3.3 k近邻(k-NN)
K-NN利用相邻点的知识对输入样本进行分类。K-NN在基于分组的入侵检测系统中得到了广泛的应用(Li and Guo, 2007;苏,2011;Lin等人,2015),也用于基于流的入侵检测。
(Shubair et al., 2014)提出了一种基于流的基于模糊逻辑的k-NN入侵检测系统。该工作使用k-NN选择最佳匹配类。采用最小均方法进行误差估计。与基于包的系统相比,基于流的入侵检测系统需要额外的计算智能,因为只有头信息可用来进行决策。因此,模糊逻辑似乎是选择流类标签的一个很好的选择。尽管该技术给出了很好的结果,但作者仅用200个训练示例进行了测试,而实际数据集包含大约1420万条记录(Sperotto等,2009)。
(Costa et al., 2015)提出了一种基于最优路径森林聚类(OPFC)的网络入侵检测技术。OPFC是一个利用概率密度函数对节点加权的k-NN图。作者使用改进的自然启发技术优化fo OPFC。采用Bat算法、引力搜索、和声搜索和粒子群优化技术确定k的最优值,分别应用于8个数据包和基于流的数据集。评价结果以纯度测定的形式给出。作者将OPFC的性能与k均值聚类和自组织映射(SOM)进行了比较。对Netflow数据集的评价表明,OPFC、k -均值和SOM的纯度分别为0.9577、0.75945和0.2145。因此,在基于流的检测中,OPFC优于其他两种聚类技术。
5.3.4 聚类技术
聚类技术识别数据中的新模式和有用模式。这些模式可用于将相似的实例分组到不同的集群中。Lakhina等人(2005)已经使用聚类技术挖掘网络流中的异常。最近,Casas等(2011)提出了一种使用多种无监督聚类技术的网络异常检测系统。该系统从网络中捕获数据包,并在随机的时隙中聚合成流。采用基于时间序列分析的变化检测算法对恶意流进行分离。该技术使用子空间和基于密度的集群在每个子空间中创建数据分区。该算法还按异常程度对聚类进行排序。所有高于检测阈值的簇都被认为是异常。检测阈值对于每种类型的攻击都是惟一的。在MAWI数据集上对该技术进行了评价,得到了ROC曲线。与其他无监督学习方法相比,该方法的ROC曲线下面积更大。这种技术的优点是不需要签名或训练,可以立即用于监控网络流量。
提出了一种基于人工免疫系统和无监督聚类的分布式入侵检测系统(Hosseinpour et al., 2014)。作者使用了DBSCAN聚类算法。集群引擎将网络流量标记为恶意和非恶意。利用聚类引擎的输出,对原始免疫反应检测器的训练数据进行在线和实时的验证。免疫反应探测器被放置在网络主机周围。在KDD99数据集上对该技术进行了评价,取得了0.738的F1-measure。
(Satoh et al., 2015)提出了一种检测SSH字典攻击的ward聚类方法。SSH是通过Internet访问远程服务器的一种常见方法,仍然是最受欢迎的攻击目标。作者使用了两个关键的创新来检测SSH协议中的攻击。首先,使用了原始SSH协议中不可用的两个标准,即检查连接协议的存在性和auth-packet和next的到达时间。其次,确定了SSH中各个子协议的传输点。检查子协议转接点期间的两个标准和业务流。该技术采用基于欧氏距离的沃德聚类方法对流量数据进行评价。该技术是通过一个连接到互联网的服务器的两个观察点生成的数据集来评估的。最佳结果包括对不成功SSH攻击尝试的99.90%的检出率和对成功SSH尝试的92.80%的检出率。该技术在SSH中检测隐藏字典攻击方面具有良好的应用前景,应应用于主机级检测。
5.3.5 决策树
决策树(DTs)通过为每个树节点创建基于属性值的规则来创建树模型。Thaseen和Kumar(2013)讨论了决策树在入侵检测中的应用。
Zhao等(2013)提出了一种基于流的僵尸网络检测方案。僵尸网络是由恶意用户控制的一组受攻击的主机,用于各种类型的攻击和网络犯罪(Silva et al., 2013)。作者认为基于流的方法比有效载荷检查更好,因为大多数僵尸网络使用加密的通信通道。该方法采用一种减少错误剪枝的决策树算法来构造僵尸网络分类器。流记录由12个流属性组成。该分类器是在一个包含两个僵尸网络痕迹的数据集上进行评估的。该技术对恶意和非恶意分类的检出率分别为98.3%和99.9%。该技术还成功地检测到新型僵尸网络。该方法简单有效,但可以通过对属性值进行小的修改来避免。此外,一个300秒的流分析窗口太长,算法可能会错过小规模的恶意流。(Casas等,2014)
Stevanovic和Pedersen(2014)提出了一种高效的基于流的僵尸网络检测方法,该方法使用了一系列监督机器学习。该技术使用39个特性集的流程记录。该算法是在ISOP数据集上进行评估的,ISOP数据集是四个公开可用的恶意和非恶意数据集的组合。结果表明,随机森林算法作为决策树的集合,总体性能最好(Zhang et al., 2008)。
Haddadi等(2014)提出了利用遗传规划和决策树进行僵尸网络行为检测的另一种解决方案。在一个由三个僵尸组成的自定义生成的数据集上对所提出的技术进行了评估。此外,还使用了来自Snort和NETSREr的公开可用数据集。作者从数据集中提取了两种类型的流属性。第一个集合由常见的流属性组成,例如发送方/接收方IP地址、端口、。第二组使用TCF标志属性。评估结果显示了流属性集。第一个集合使用类似于Netflow v5的属性。第二组流记录使用TCP标记。
(Stevanovic and Pedersen, 2014)提出了一种基于流的僵尸网络检测方法,该方法使用了一组监督机器学习。该技术使用了39个特性集流记录。该算法是在ISOP数据集上进行评估的,ISOP数据集是四个公开可用的恶意和非恶意数据集的组合。结果表明,随机森林算法总体性能最好(Zhang et al., 2008)。
5.4 机器学习技术的优缺点
表6总结了使用机器学习技术的基于流的入侵检测系统。使用机器学习技术进行基于流量的入侵检测的优点包括:
(1)使用机器学习技术的入侵检测模型能够根据经过的流量进行自适应。
(2)这些技术有较高的检出率。
(3)人工神经网络等机器学习技术能够从有限的信息中归纳出模型。
IDS使用机器学习技术的缺点如下:-
(1)构建具有代表性的监督机器学习训练数据集是一项非常困难的任务。
(2)机器学习技术的训练过程在计算上是昂贵的。
(3)这些技术有很高的假阳性报警率。
(4)无监督学习技术需要背景知识来确定集群的数量。
5.5 其他技术
熵是一种重要的数据挖掘技术。熵捕获了交通分布特征的重要特征。这些特征用于检测网络流量中的异常和恶意行为。IP流记录可以有大量的属性。熵技术可以用来选择在入侵检测中起重要作用的属性。Wagner和Plattner(2005)使用熵来检测蠕虫和IP网络中使用流记录的异常。提出了一种网络熵时间序列突变检测算法(Winter et al., 2011b)。该技术基于任何网络攻击都会对流属性造成显著变化的思想,这些变化可以在熵时间序列中检测到。提出了一种利用动态异常值检测攻击的突变检测算法。该算法是在ISP服务器获得的数据集上进行评估的。数据集包含了为期五天的单向网络流量。在特定时间手工注入HTTP DoS攻击和水平网络扫描两种合成异常。该技术成功地检测到了给定时间内流量的变化。正如作者所指出的,这种技术可以通过小规模的DDoS攻击来规避。然而,该技术不需要训练数据,可以直接用于监测网络活动。
(Fran cois et al., 2012)提出了一种检测网络流量中大规模异常的技术。该技术存储正常流量的概要文件。所有传入的流量记录首先被聚合,然后与正常流量的概要文件进行比较。然后使用香农熵公式测量偏差。为了进行评估,可以从商业服务提供商获得一个定制的数据集,然后使用Flame工具手动插入攻击。该技术的一个缺点是需要常规的网络概要文件,而在实际的多业务网络中,这些概要文件很难生成。
(Berezi’nski et al., 2014)讨论了一种基于熵的互联网流量异常检测系统。利用Shannon、Renyi和Tsallis熵的变分结合一组特征分布。在基于流的框架中采用了熵技术。UoT数据集的一个变体用于评估所提议的方法。在训练模式下,使用特定于时间的熵值为正常流量创建一个概要文件。任何超过熵极限上限的值都被认为是不正常的。结果表明,Tsallis和Renyi的熵值表现最好,而Shannon熵和基于对比的方法表现较差。如果网络流量出现良性变化(如拥塞),这种技术会产生误报。
在(Qin等,2015)中,作者描述了一种基于熵的DDoS攻击检测方法。该技术计算了所选流量特征的熵值。这些特征被聚类算法用来构造一个正常的流型。此常规流配置文件用于检测传入流量中的DOS攻击。在DARPA数据集上对该技术进行了评估,并以DF速率的形式得到了结果。DF率定义为检出率与假阳性率之比。该技术的最佳DF速率为7。
流度量阈值、流签名和语义链接网络(SLN)等技术也被用于基于流的入侵检测。Dubendorfer等人(2005)使用阈值来检测网络流中的入侵。Hellemons et al. (2012) SSHCure是一个基于流的系统,用于检测SSH攻击,它也使用流度量阈值。SSHCure采用了一种有效的算法来实时检测正在进行的攻击,并允许识别受危害的攻击目标。确定了SSH攻击扫描阶段、蛮力阶段和终止阶段的三个阶段。在扫描阶段,攻击者扫描IP以找到SSH守护进程。在暴力阶段,攻击者试图登录SSH服务器。如果登录成功,则终止阶段显示攻击者和目标主机之间的攻击流量。SSHCure使用两个流度量来检测所有三个阶段中的攻击。第一个度量是每个流两个包的上限。第二个指标为每次攻击定义了最少数量的流记录。每个攻击阶段都为这两个流度量使用不同的阈值。利用实测交通数据验证了系统的检测性能。SSHcure的实时实现表明,该算法存在各种缺点,最终会导致无法检测到的折衷或引发虚假警报(Hofstede et al., 2014b)。
Vizv ' ary等人(2013)提出了一种基于流的检测技术,用于使用流签名的远程桌面协议(RDP)蛮力攻击检测。Kim等人(2004)提出了使用流模式进行攻击检测。Vizv’ary等人(2013)分析了RDP客户机的流流量签名、蛮力工具和成功的身份验证事件。在马萨里克大学校园网上进行了为期两个月的流签名评估。作者使用RdpMonitor(一个具有派生NetFlow签名的公共NfSen插件)来自动检测。该插件成功地检测到恶意流量,并报告说校园网中大约40%的RDP相关流量是恶意的。
(AlEroud and Karabatis, 2014)提出了一种利用语义链接网络(SLNs)检测网络攻击的新方法。语义链接网络从流数据中挖掘时间、位置和其他上下文信息。上下文信息由概率语义网络(sln)上可疑流警报之间的语义链接使用。这些语义链接有助于检索可能是多步骤攻击的一部分的相关可疑活动。在UoT和ICSX数据集的混合上对该技术进行了评估,F1得分为0.97。并与其他基于流的入侵检测系统进行了比较,结果表明该方法的性能优于其他方法。
Hofstede等(2014b)对SSHCure进行了增强,提出了SSH破坏检测的两阶段检测算法。第一阶段是蛮力阶段。通过检查每个流中相同数量的包来检测穷举阶段。攻击者两次不成功的连接尝试在每个流中使用相同数量的包。第二阶段是破坏阶段。该技术在六种攻击场景中转换破坏阶段。如果SSH流量与特定的攻击场景匹配,则检测到攻击,并关闭连接。在SSHCure数据集上对该方法进行了验证,对SSHCure数据集的两个部分的准确率分别为83%和99%。
使用马尔可夫链行为僵尸网络检测方法提出了(Garc´ıa et al ., 2014)。该技术利用流特征和由源IP、目的IP、目的端口和协议组成的四元组结构,分析了僵尸网络通信的指挥控制信道。采用马尔可夫链对C&C通道的不同状态进行建模。利用CTU-13数据集对该方法进行了训练和测试。该技术的检测准确率为92%,假阳性率为0.05%。该方法能够检测多种僵尸网络。
在(Gogoi et al., 2014)中,作者提出了一种多级混合入侵检测方法,将监督、非监督和基于异常值的方法相结合进行入侵检测。分别采用CatSub+、K-point和GBBK三种算法进行监督检测、无监督检测和离群点检测。这个混合框架是在许多数据集上评估的,包括一个基于流的数据集tuid。虽然基于流程的评价结果较好,但该方法存在明显的不足。在给定数据集的特定层次上选择有监督的、无监督的或基于异常值的分类器是基于单个分类器对给定数据集的分类精度。这种调整很难在实时场景中实现,并且可能无法获得类似的性能结果。
(Wijesinghe et al., 2015)提出了一种使用流模板的僵尸网络检测方法。该技术创建不同僵尸网络的基于流的概要文件,并将其与网络流量进行比较,用于僵尸网络检测。实验环境由感染了僵尸网络的虚拟机组成。结果表明,该技术可以检测到所有的僵尸网络家族。然而,这种方法需要僵尸网络操作的先验知识,可能无法检测未知的僵尸网络。表7总结了这些技术。
6. 基于流量的入侵检测的商业应用
基于流的入侵也引起了商业供应商的注意。Lancope的StealthWatch System2通过思科提供,是一个完全基于NetFlow的企业网络监控和安全情报解决方案。StealthWatch系统执行NetFlow和其他上下文数据的收集、聚合和分析。该系统能够检测到与apt、内部威胁、DDoS和恶意软件相关的恶意行为。思科下一代入侵防御系统3与FireSIGHT管理中心4也有Netflow功能。
由Plixer公司开发的审查系统5是一个基于流程的事件响应和行为分析产品。审查器使用许多流技术对网络活动进行收集、威胁检测和报告。它还提供了实时的态势感知和网络的历史行为。该系统采用固定的算法检测DoS攻击、网络扫描等异常网络行为。
Flowmon异常检测系统(ADS)6是另一种基于流的入侵检测系统,支持NetFlow、IPFIX或NetStream协议。Flowmon广告使用智能行为分析算法来识别威胁、攻击、事件和配置问题。它还提供对国防部攻击的保护。
IBM的QRadar安全情报平台7是一个安全信息和事件管理(SIEM)系统,具有异常检测、事件取证和漏洞管理功能。QRadar还包括基于IP流的分析支持。
瞻博网络JSA系列安全分析软件为企业提供了一套完整的网络监控工具。JSA系列产品支持NetFlow、J-Flow、sFlow和IPFIX。它们还包括用于检测粗糙服务器的网络行为异常检测(NBAD)和基于APTs流的网络活动。
在开源世界中,Bro9是一个用于一般网络流量分析的综合平台。它还具有入侵检测能力。除了其他网络窃听工具,Bro还使用Netflow进行网络分析和威胁检测。
7. 观察
在前一节中,我们讨论了用于设计基于流的入侵检测系统的各种方法。我们对现有基于流量的入侵检测技术的观察如下:
(1)已有的基于流量检测的研究多采用统计方法。有必要开发基于流量检测的机器学习技术的真正潜力。可以考虑贝叶斯网络、集成学习、进化计算、顺序模式挖掘等技术。
(2)本文研究的一些技术只针对特定的攻击类型。Muraleedharan和Parmar(2010)的工作只检测TCP扫描。Hellemons等(2012)和Satoh等(2015)给出了抵御SSH攻击的解决方案。使用IP流记录检测DOS攻击的解决方案见(Zhang et al., 2012;Hofstede等,2013)。这种技术为特定的攻击类型或场景提供了更好的结果,但是还没有针对其他攻击进行评估。将这些技术集成到一个全面的基于流的入侵检测框架中,对企业网络进行全面的保护是非常困难的。
(3)一些基于流的技术使用基于分组的数据集来生成流记录,以评估基于流的技术(Song et al., 2006;Salem et al., 2011;Tran等,2012;Abuadlla等,2014;秦等,2015)。然而,在实际的基于流的检测中,对这些数据集的评估并不能保证得到类似的结果。一些技术使用定制的数据集,这使得很难将结果与其他技术进行比较(Wagner et al., 2011;Hellemons等人,2012)。
(4)一些研究没有使用代表性的数据集来获得验证结果。Shubair等人(2014)和Winter等人(2011a)使用200条流记录的数据集进行验证,而原始数据集有近140万条记录。在这样的数据集上评估的技术在现实世界中不会表现得更好,而且会给出许多假阳性结果。Guo等人(2013)提出了一种从大型数据集中获取代表性实例的解决方案。当输入量足够大且影响算法的空间复杂度时,该方法是有效的。
(5)现有工作中采用了多种评价方法来获得实验结果。这些包括精确度,召回率,f1分,真阳性率、DF率、正确率、纯度测定、ROC曲线、ROC曲线下面积等。它们在一定程度上基本可以与标准评价方法相比较,可以相互借鉴。然而,许多技术将结果报告为正常或恶意标志,而不提供用于入侵检测的定量结果。
8. 悬而未决的问题和挑战
分组和基于流的技术比较表明,基于流的技术是高速网络保护的较好选择(Hellemons et al., 2012;Golling等,2014)。然而,基于流的入侵检测技术还不够成熟,无法替代传统的基于包的入侵检测技术(Sperotto et al., 2010)。Sperotto et al.(2010)和Golling et al.(2014)提出基于流的检测应该与基于包的检测相结合。基于流的入侵检测应该在入侵检测的初始层进行,而细节深度的入侵检测应该在基于包的检测的第二层进行。然而,这种技术仍然存在基于包的检测的缺点。这种混合安排的另一个问题是包的存储,直到基于时间流的检测完成。我们认为在基于流量的入侵检测方面需要进一步研究的挑战如下:
(1)入侵检测数据集是评估所提技术的一个有价值的工具。正如在第4节中讨论的,现有的基于公共流的数据集非常少。迫切需要开发具有多种攻击流量的基于流的公共数据集,对不同的基于流的入侵检测技术进行评估和比较。
(2)IPFIX/Netflow为IP流记录指定约280个属性。研究人员使用不同的流属性来评估交通流。Tran等(2012)和Jadidi等(2013)分别使用4元组和7元组流记录。Zhao等人(2013)采用了12元组流量记录。但是,目前还没有建立流属性与攻击类型之间关系的文献。增加流属性的数量也会增加计算量,而使用少量流属性可能会遗漏重要的网络信息。因此,研究流属性与攻击类型之间的关系非常重要。
(3)基于流的技术不能访问包负载。因此,基于流的入侵检测系统不能检测嵌入在包有效负载中的攻击,也不能改变流量流,如SQL注入和交叉脚本(Vykopal et al., 2013)。
(4)一些技术使用由4或5个流属性组成的流记录(Winter et al., 2011a;(Jadidi et al., 2013),这不足以分析交通流。这个问题的解决方案是使用基本流属性计算额外的流度量(Zhang et al., 2012)。
(5)基于流量的入侵检测的一个重要问题是流量采样技术的应用。包抽样(PSAMP)协议(Claise, 2009)为流导出过程指定了不同的抽样技术。抽样技术是原始种群的真实代表,有助于更好地存档结果。因此,研究基于流量的入侵检测中采样技术的有效性和准确性就显得尤为重要。
(6)流量输出区间的大小对基于流量的入侵检测系统的性能有重要影响(Vykopal et al., 2013)。如果流导出间隔时间较长,则会发生短时攻击,入侵检测系统可能无法检测到。另一方面,较短的流量间隔会使系统过载,影响系统的整体效率。应该详细分析流量输出间隔与检测性能的关系(Hofstede et al., 2013)。
9. 基于流的入侵检测的未来
随着端到端加密技术在网络应用程序(如网站、移动应用程序和电子邮件)中的应用越来越多,基于有效负载的入侵检测系统的应用空间有限。基于有效载荷的入侵检测方法也不适用于大规模的主干网和服务提供商网络。Sperotto等人(2010)设想将基于流的检测用于垃圾邮件检测、僵尸网络检测和分布式攻击检测。我们的综述还表明,基于流的检测作为传统的基于包的入侵检测的一种替代方法正受到越来越多的关注。
现有的基于流量的入侵检测研究包括使用统计或机器学习技术监控网络流量的变化。独立的基于流量的网络流量检查正在演变为网络行为分析(NBA) (Shackleford, 2016)。网络行为分析(NBA)方法收集来自各种设备的IP流记录,包括来自整个网络的路由器、交换机和服务器。NBA不依赖于个人流量指标,还利用网络性能和监控数据。NBA使用智能机器学习技术来建立一个正常的网络概况。正常的轮廓线作为检测入侵的基线。与其他入侵检测技术相比,将NBA与机器学习技术结合使用具有许多优势(Liao et al., 2013)。基于流的检查、网络性能和安全度量的集成使用为企业级网络提供了全面的保护,使其免受入侵。最新的商业入侵检测应用程序,如思科的Stealthwatch和Plixer的inspecizer,也建立在网络行为分析的基础上。
10. 结论
在本文中,我们对现有的基于流的入侵检测系统进行了最新的研究。基于恶意流检测技术,提出了一种基于流的入侵检测系统分类方法。我们讨论了每一类方法中可用的基于流的技术的体系结构、算法和数据集。我们的讨论表明,基于流的入侵检测系统评估的一个重要方面是使用本地的基于流的数据集。我们还提供了可用的基于流的数据集的简要摘要。其他重要的贡献是对基于商业流的IDS产品和基于流的入侵检测的未来的讨论。最后,我们对现有系统进行了观察,并展望了未来的研究方向。