⼊侵检测系统 (IDS) 旨在检查所有⼊站和出站流量,并及时准确地识别各种攻击者的可疑流量和行为。当 IDS 发现任何可能违反组织安全策略的⼊侵时,它可以通知管理员或通过⽹络防⽕墙阻⽌它们(Saleh 等⼈,2019; Yuan 等⼈,2010a)。
IDS ⽅法分为基于异常检测的 IDS、基于误⽤检测的 IDS 和混合⽅法(Sallay 等,2013)
1、基于签名的 IDS 框架依赖于已知的签名安全威胁,但创建所有攻击和恶意行为的签名数据库(Wang 等⼈,2019 年)可能是⼀项艰巨且耗时的任务。此外,基于签名的 IDS ⽅法⽆法处理其签名未知且流量已加密的新攻击。
2、基于异常的 IDS ⽅案(Liu et al., 2015)根据⽤⼾的正常行为特征进行操作,并且
可以检测新发动的攻击(Wressnegger et al., 2013)。然⽽,在⼤型组织中很难确定和维持所有
正常行为。
3、混合IDS⽅案为了在克服它们的缺点的同时受益于这两个类别的优点,试图有效地集成异常检测和误⽤检测⽅法。
SVM 是⼀种基于监督机器学习模型的机器学习技术。SVM 的主要⽬标是为新数据点的分类找到最佳超平⾯。线性 SVM 是⼀种⼆元分类器,它通过使⽤每个类的⼀些最近的训练数据点创建超平⾯并最⼤化它们 之间的边距来对多维数据进行分类。因此,它仅 使⽤称为⽀持的训练数据点的⼦集向量。SVM 可⽤于线性和⾮线性数据的分类。
⽀持向量机可⽤于⼆元和多类分类。为此,已经提出了多种 SVM 分类器,例如径 向 SVM、多类 SVM 和最⼩⼆乘 SVM,以提⾼该分类器区分线性和⾮线性数据的能力。
• One Against All (OAA) SVM
• One Against One (OAO) SVM
• DAGSVM
在 OAA SVM 中,每个类都应该训练⼀个 SVM,以找到相关类中存在的样本。当某个类的 SVM 接受它⽽其他⼈拒绝它时,每个数据点必须被归类为某个类。
OAA 分类器使⽤k个SVM 模型,其中k表⽰类的数量,每个模型都应使⽤其具有正标签的类⽰例进行训练,⽽所有其他情况都具有负标签。
OAA SVM 可以使⽤多数投票法进行分类。同时,OAO SVM 对每⼀对类应⽤⼀个 SVM,并构造 k*(k-1)/2 个分类器,每个分类器都使⽤来⾃两个类的数据进行训练。
为了对⾮线性数据进行分类,SVM 分类器利⽤核函数,试图将数据映射到更⾼的维度以更好地分类 它们。许多核函数,例如多项式核、径向基函数 (RBF) 核、sigmoid 核等,都⽤于 SVM 分类 器。
这些核函数的参数可以在 SVM 的训练过程中进行调整。图 6描述了在基于 SVM 的 IDS ⽅案中应⽤的各种内核函数。径向基函数或 RBF 核是 SVM 分类器中最常⽤的核函数。它有以下两个输⼊参数:
• 每种 IDS 模型使⽤哪些技术来做特征选择?
• 每种IDS模型应⽤哪种SVM 分类器?以及对其进行了哪些可能的修改以提⾼分类性能?
• 如何使⽤⼆元分类器来处理多类分类问题和检测不同类型的攻击?
• 哪些分类器与IDS 结合使⽤?
• 每个⽅案中应⽤了哪些数据集?以及如何对它们进行预处理以供每个 IDS ⽅案有效使⽤?每个 IDS ⽅案如何减少和处理⼤型数据集?
• 使⽤哪些指标来分析每个 IDS ⽅案?
各种 SVM 分类器被研究⽅案应⽤于处理不同类型的安全攻击。此外,为了提⾼ IDS 的准确性和有效性,在使⽤基准数据集的交易数据的某些⽅案中,使⽤元启发式算法训练 SVM 参数。为了处理⼤型数据集并提⾼ IDS 性能,⼀些基于 SVM 的系统利⽤了与 SVM 相结合的聚类算法。此外,为了提⾼检测率,⼀些 IDS ⽅法使⽤ SVM 和其他分类器,如⼈⼯神经⽹络、决策树、朴素⻉叶斯等。许多 IDS 使⽤ SVM 将计算机⽹络流量分类为正常和异常。
(Wang et al., 2016)中提供的 IDS 解决⽅案尝试使⽤从主要训练数据中提取的较⼩数据集构建 IDS,并对实现的压缩模型进行异常检测。作者提出了三种数据抽象⽅法:属性选择、属性抽象和样本提取。样本提取⽅法在构建检测模型之前从数据集中提取⼦集。 K-means 聚类和 Affinity Propagation (AP) ⽤于分析培训审计数据并从中找到样本。之后,PCA、K-NN 和 OC-SVM ⽤于检测异常。他们还选择和提取审计数据特征以执行异常检测。实验表明,所提出的样本提取⽅法在检测精度⽅⾯优于属性选择和抽象⽅法。他们使⽤ KDDCup 数据集和真实的 HTTP 流量数据来验证他们的数据抽象⽅法在⼊侵检测过程中的有效性。
在(Lin et al., 2012) 中,作者尝试选择基本特征并利⽤决策规则进行异常检测。他们应⽤ KDDCup 数据集、SVM 和决策树分类器从数据集中提取决策规则,以正确识别安全攻击。为了提⾼分类精度,模拟退⽕算法也⽤于调整 SVM 和决策树参数。作者对KDDCup 数据集。但是,他们未能专注于更新的 IDS 数据集。此外,即使作者通过集成 SVM 和决策树分类器取得了更好的结果,但他们没有评估他们的⽅案在训练时间和测试时间⽅⾯的开销。
在(Shang et al., 2015) 中,作者提出了 PSO-OCSVM,这是⼀种使⽤粒⼦群优化 (PSO) 进行训练的 IDS ⽅案。该⽅案使⽤⼀类样本进行异常检测模型训练。作为⼀个优势,他们将他们的⽅法与反向传播神经⽹络、RBF 神经⽹络和⽹格优化⽅法进行了⽐较。此外,该⽅案不使⽤现有数据集,适⽤于真实⽹络流量数据。然⽽,作者未能将他们的⽅案与其他分类器和其他 IDS ⽅案进行⽐较。
决策树是⼀ 种⽤于回归和分类⽬的的⾮参数和监督学习技术。它是通过学习从数据特征中推断出的⼀ 些简单的决策规则,提供⼀个基于树的模型来预测⽬标变量值。决策树易于理解和解释。
(Cid-Fuentes et al., 2018),它利⽤决策树与 SVM 相结合来增强分类能力。
AdaBoost 分类器是⼀种集成学习⽅法,可⽤于提⾼⼆元分类器的性能,通常被称为最好的开 箱即⽤分类器。它采⽤迭代⽅法从弱分类器的错误中学习,并将弱分类器的输出组合成⼀个加权和。 然⽽,它对异常值和噪声数据很敏感,但它不太容易过度拟合。
在(Hu et al., 2014), Hu et al.在两种 IDS 算法中应⽤ AdaBoost。
k-nearest neighbors 是⼀种有监督的分类器,可以根据 k 个最近的数据点确定新的数据 点,可应⽤于回归和分类问题。通常,可以通过使⽤这种分类⽅法并对其k个最近的相邻数据项进行 投票来对数据项进行分类。因为这个分类器依赖于数据项之间的距离,训练数据归⼀化可以增加它 的准确性。
(Aburomman and Reaz, 2016a)中引⼊的 IDS ⽅案提供了⼀种基于集成的⽅法,该⽅法在预处理 KDDCup 数据集后,从中创建五个随机选择的⼦集。
⼈⼯神经⽹络分类器基于⼀组连接的节点进行操作,这些节点被组织在⼏层中;他们每个⼈都 可以对其输⼊进行⼀些转换。 ANN 节点(⼈⼯神经元)有⼀些连接(边)来接收来⾃其他节点的所 需信号并向其连接的神经元产⽣信号。每个连接都有⼀个在学习过程中调整的权重。
在(Qazanfari 等⼈,2012 年)中, Qazanfari 等⼈。使⽤多层感知器(MLP)和SVM分类器提供了⼀种基于混合异常的IDS⽅法。
在(Wu 等⼈,2020 年)中, Wu 等⼈。通过使⽤特征加权 SVM 和深度信念⽹络引⼊了 IDS。
SOM 或⾃组织图被定义为⽆监督的⼈⼯神经⽹络模型,旨在将⾼维数据分析成⼆维 格。因此,SOM 模型可以有效地处理⾼维⼊侵检测数据集。
在(Wang et al., 2010a, 2010b) 中, Wang et al.提出了使⽤ SOM 和 OC-SVM 的杂交来检测异常连接的 IDS 模型
在⼤型数据集上训练 SVM 分类器是⼀个具有挑战性的问题。这类基于 SVM 的⽅案通过丢弃除⽀持向量之外的所有先前数据,对新数据应⽤增量学习。增量⽀持向量机学习⽅法可以应⽤于主动学习和在线设置。
在(Mu et al., 2012a) 中,作者提出了⼀种称为 B-ISVM 的⽅案,通过使⽤增量 SVM 来提⾼其检测率和速度。
多类⽀持向量机分类器由⼀些⼆类⽀持向量机组成,可⽤于多类分类和检测多类流量。在 这种情况下,⼀对多(OAA)和⼀对⼀方法(OAO)是众所周知的多类SVM分类器技术。
在(Aburomman 和 Reaz,2017)提供的 IDS ⽅案中,作者研究了从⼆元 SVM 模型创建⼏个基于多类 SVM 的分类器。他们⽐较了 OAO-SVM、OAR-SVM、⾃适应 DAG SVM、DAG SVM 和纠错输出码 SVM 等各种多类 SVM 的结果。之后,他们应⽤加权的⼀对⼀⽀持向量机来处理⼊侵检测问题,并使⽤元启发式算法调整其权重。
在(Song et al., 2011) 中,作者提出了 MK-SVM,这是⼀种使⽤不同内核的 IDS 解决 ⽅案,可以通过使⽤半⽆限线性规划来调整内核函数权重和拉格朗⽇乘数。解决⽅案的聚类和特征选择⽅法⽤于输⼊数据的预处理,以减少搜索空间和所需的训练 时间。实验结果表明,它们实现了更好的检测精度,但评估是在 KDDCup 数据集上进行 的,同时有更新的数据集可⽤。
多层⽀持向量机通常应⽤于复杂问题的分类,其中⼀个问题由多个⼦问题组成。在多 层SVM中,核将第i个⼦问题的输⼊映射到更⾼维的特征空间中,并在其中实现第i个⼦问 题的求解。之后,这个新的特征空间被⽤作第 (i+1) 个⼦问题的输⼊空间,这也由 SVM 处 理。
(Kuang et al., 2014)中提供的安全解决⽅案采⽤多层 SVM 模型和内核 PCA 来查找主成分。它可以识别恶意行为并更有效地处理低频攻击。
聚类是将⼀些数据项分类为⼀组聚类的过程,使得每个聚类中的数据项相似,但与其 他聚类中的其他数据项不同。通常,聚类⽅法分为硬聚类⽅法和软聚类⽅法。通常,在硬聚类⽅法中,每个数据项可能属于⼀个簇,⽽在软聚类中,每个数据项都有⼀些 属于每个簇。聚类是⼀种⽆监督学习⽅法,⼴泛应⽤于各种上下⽂和⼊侵检测上下⽂。
(Li et al., 2012)中提出的 IDS ⽅法提出了 GFR,这是⼀种基于 SVM 的模型,它使⽤ K-means 聚类从 KDDCup 构建⼀个紧凑、精炼的数据集。它应⽤了⼀个⼩型训练数据集并使⽤ ACO 算法。
在(Cheng et al., 2016) 中, Cheng et al.应⽤增强版 BA 来训练基于 SVM 的 IDS 并提⾼其检测率。它将 SVM 参数编码为蝙蝠并将检测率应⽤为适应度。该⽅案使⽤ KDDCup 数据集进行评估。
此外,使⽤了对应于 SVM 参数的⼆进制编码,它指定了 RBF 内核参数的值和不同特征的选择。
(Ahmad et al., 2013)中提出的安全解决⽅案引⼊了⼀个优化的
IDS,它使⽤ KDDCup 数据集的 38 个特征并丢弃了服务、标志和协议类型等特征。他们使⽤ GA 搜索 PCA 空间并选择主成分的⼦集。然后,这种⽅法在使⽤ SVM 选择的特征上进行训练和测试。为了降低 FAR 和提⾼检测率,在 GA 的适应度函数中使⽤了准确度和特征数量等因素。此外,针对TP、FP、FN和TN对所提⽅案进行了敏感性分析。
(Yang et al., 2016)利⽤ ICPSO,⼀种增强的 PSO 算法,在惯性权重参数中使⽤混沌,提⾼了基本 PSO 算法的收敛速度。该⽅案采⽤ICPSO算法训练SVM,优化惩罚因⼦和RBF核参数。该⽅案将⽹络IDS随机选取的数据分为训练数据和测试数据,使⽤训练数据训练SVM。他们应⽤ MATLAB 软件在 KDDCup 数据集上评估他们的⽅案。实验表明,ICPSO-SVM 优于 GA-SVM 和 PSO-SVM ⽅法。但是,他们没有应⽤可⽤于进⼀步改进结果的特征选择技术。
在(Wang 等⼈,2010a, 2010b)中, Wang 等⼈。通过应⽤⼆进制 ABC 算法来训练 SVM 分类器并从 KDDCup 数据集中选择⼀组最佳特征,提出了⼀种异常检测⽅案。
LS-SVM 或 SVM 的最⼩⼆乘版本是⼀组基于监督核的学习⽅法,可以分析数据并检 测模式。 LS-SVM 可⽤于回归分析和分类问题。在这种类型的 SVM 中,必须求解⼀组线 性⽅程,⽽不是凸⼆次规划问题。
在(Ambusaidi et al., 2016) 中,作者提出了⼀种基于互信息的⽅法来选择最佳特征并处理线性和⾮线性相关特征。
一些⽅案应⽤多级 SVM来处理恶意行为和攻击,例如,在 (Saleh et al., 2019) 中,作者提出了⼀种基于 SVM 的⾼效 IDS ⽅法,该⽅法具有增强的特征。他们利⽤算法边际密度⽐变换形成原始特征以获得更好的变换特征并提⾼检测精度。但他们只考虑了⼆进制⼊侵,⽆法识别不同类型的攻击。
PCA是⼀种在尽可能保持数据集变化的同时减少数据维数的统计⽅法。在(Thaseen 和 Kumar,2014 年)中,作者在他们提出的 IDS 模型中集成了 PCA 和 SVM,然后使⽤参数选择⽅法优化了 RBF 核函数。该⽅案减少了训练和测试时间,提⾼ 了IDS的准确性。考虑到 U2R 和 R2L 等恶意少数行为,KDDCup 数据集分为训练和测试。 然⽽,需要进⼀步的性能分析来评估其能力和优点。
(Zhang et al., 2012)中提出的⼊侵检测框架利⽤ RST 和 SVM 分类器来检测⽹络⼊ 侵。 RST ⽤于预处理数据并减少 SVM 模型⽤于训练和测试的维度。尽管作者使⽤ KDDCup 数据集进行实验,但作为⼀个优势,他们还应⽤了 WINPCAP ⼯具来捕获和收 集真实的⽹络流量。
图 12显⽰了基于 SVM 的 IDS ⽅案中使⽤的评估因⼦。如图所⽰,在⼤多数系统中,检测率、准确 度、FAR、训练时间和测试持续时间等因素被⽤来评估 IDS 的有效性。然⽽,值得注意的是,在 IDS 上下⽂中提⾼新提案的检测率和准确性应该重视训练所需的时间;这在实时⼊侵检测和预 防系统以及为不同的低资源环境(如物联⽹)设计的 IDS ⽅案中⾮常关键。
图 14显⽰了通过将低维数据转换为⾼维数据来增强⾮线性 SVM 分类器准确检测各种攻 击和⼊侵的能力的不同内核。如图所⽰,RBF、⾼斯和多项式等核函数是所研究的⾮线性分类⽅ 案⼴泛应⽤的三个核函数。训练这些核函数的参数是⼀个重要问题,如前所述,通常通过使⽤元 启发式算法来解决。尽管如此,如前⼀节所述,只有少数⽅案修改了现有的内核函数以提⾼其功 能。因此,可以在未来的 IDS 研究中更多地探索新的核函数以更好地处理⾮线性数据。
图 15显⽰了与 SVM 结合使⽤的其他分类器。
IDS应使⽤从真实⽹络跟踪中获得的各种数据集进行评估。然⽽,这些数据集的⼤⼩通 常很⼤,使⽤如此⼤的数据集会导致 IDS ⽅案的训练时间增加。处理这个问题的⼀种⽅法是减少数据点的数量⽽不丢失数据中有价值的信息。
通常,IDS ⽅案的性能受数据质量的影响。作为预处理⽅法之⼀,数据规范化试图缩放或转 换数据以使其更有⽤。这⼀步可以在通过上⼀⼩节中指定的技术减少数据集后开始。通过选择 更好的归⼀化⽅法来提⾼ SVM 分类器的性能是少数⽅案研究的重要问题。例如,在(Liu, 2011) 中,作者指出,如果不进行归⼀化,SVM 分类器会获得过多的⽀持向量并在计算中消耗⼤量时 间。关于基于监督学习的 IDS ⽅法应该处理的⼤量数据集,另⼀个值得进⼀步研究的⽅⾯是研究减少训练数据集的有效⽅法,特别是在具有不平衡类的数据集中。⼤型数据集增加 了训练时间和监督学习⽅法的开销;
[1] Mokhtar Mohammadi et al. A comprehensive survey and taxonomy of the SVM-based intrusion detection systems. Journal of Network and Computer Applications, Volume 178, 2021, 102983, ISSN 1084-8045, https://doi.org/10.1016/j.jnca.2021.102983. (https://www.sciencedirect.com/science/article/pii/S1084804521000102)
[2] Rajendran, Vimala Devi & Seelamal, C… (2017). Hadoop based Feature Selection and Decision Making Models on Big Data. Middle East Journal of Scientific Research. 25. 660-665.
[] Gita Donkal, Gyanendra K. Verma,A multimodal fusion based framework to reinforce IDS for securing Big Data environment using Spark,Journal of Information Security and Applications,Volume 43,2018,Pages 1-11,ISSN 2214-2126,https://doi.org/10.1016/j.jisa.2018.10.001.(https://www.sciencedirect.com/science/article/pii/S2214212618302709)
[3] A. Dobson, K. Roy, X. Yuan and J. Xu, “Performance Evaluation of Machine Learning Algorithms in Apache Spark for Intrusion Detection,” 2018 28th International Telecommunication Networks and Applications Conference (ITNAC), 2018, pp. 1-6, doi: 10.1109/ATNAC.2018.8615314.
[4] A. M. Karimi, Q. Niyaz, Weiqing Sun, A. Y. Javaid and V. K. Devabhaktuni, “Distributed network traffic feature extraction for a real-time IDS,” 2016 IEEE International Conference on Electro Information Technology (EIT), 2016, pp. 0522-0526, doi: 10.1109/EIT.2016.7535295.
[5] Bilge L, Dumitraş T. Before we knew it: an empirical study of zero-day attacks in the real world[C]//Proceedings of the 2012 ACM conference on Computer and communications security. 2012: 833-844.
[6] Rajkumar M N. A survey on latest DoS attacks: classification and defense mechanisms[J]. International Journal of Innovative Research in Computer and Communication Engineering, 2013, 1(8): 1847-1860.
[7] Alwan Z S, Younis M F. Detection and prevention of SQL injection attack: A survey[J]. International Journal of Computer Science and Mobile Computing, 2017, 6(8): 5-17.
[8] Khraisat A, Gondal I, Vamplew P, et al. Survey of intrusion detection systems: techniques, datasets and challenges[J]. Cybersecurity, 2019, 2(1): 1-22.
[9] Ahmad Z, Shahid Khan A, Wai Shiang C, et al. Network intrusion detection system: A systematic study of machine learning and deep learning approaches[J]. Transactions on Emerging Telecommunications Technologies, 2021, 32(1): e4150.
[10] X.K. Ren, W.B. Jiao, D. Zhou. Intrusion Detection Model of Weighted Navie Bayes Based on Particle Swarm Optimization Algorithm[J]. Computer Engineering and Applications, 2016, 52(7): 122-126. (任晓奎, 缴文斌, 周丹. 基于粒子群的加权朴素贝叶斯入侵检测模型[J]. 计算机工程与应用, 2016, 52(7): 122-126.)
[11] T. Hurley, J.E. Perdomo, and A. Perez-Pons, “HMM-Based Intrusion Detection System for Software Defined Networking[C],” in IEEE International Conference on Machine Learning & Applications(ICMLA), 2017.
[12] X. Jing, Y. Bi, and H. Deng, “An innovative two-stage fuzzy kNN-DST classifier for unknown intrusion detection[J],” Int. Arab J. Inf. Technol, vol. 13, no. 4, pp. 359-366, 2016.
[13] Singh G, Khare N. A survey of intrusion detection from the perspective of intrusion datasets and machine learning techniques[J]. International Journal of Computers and Applications, 2021: 1-11.
[14] Al-Omari M, Rawashdeh M, Qutaishat F, et al. An intelligent tree-based intrusion detection model for cyber security[J]. Journal of Network and Systems Management, 2021, 29(2): 1-18.
[15] Ajaeiya G A, Adalian N, Elhajj I H, et al. Flow-based intrusion detection system for SDN[C]//2017 IEEE Symposium on Computers and Communications (ISCC). IEEE, 2017: 787-793.
[16] Xu W, Leng J. Network Intrusion Detection Method Based On ABC Algorithm and XGBoost[J]. Computer Applications and Software, 2021, 38(03):314-318+333.(徐伟,冷静.基于人工蜂群算法和XGBoost的网络入侵检测方法研究[J].计算机应用与软件,2021,38(03):314-318+333.)
[17] Tao L, Guo C L. Network Intrusion Detection Based on Improved Particle Swarm Optimization Algorithm and Support Vector Machine[J]. Computer Systems and Applications, 2016,25(06):269-273.DOI:10.15888/j.cnki.csa.005304.(陶琳,郭春璐.改进粒子群算法和支持向量机的网络入侵检测[J].计算机系统应用,2016,25(06):269-273.DOI:10.15888/j.cnki.csa.005304.)
[18] Hussain K, Mohd Salleh M N, Cheng S, et al. Metaheuristic research: a comprehensive survey[J]. Artificial Intelligence Review, 2019, 52(4): 2191-2233.