数据挖掘和机器学习在网络安全入侵检测中的研究

数据挖掘和机器学习在IDS中的研究

Introduction

Cyber Security 分为Network Security和Host Security,对应入侵行为,Network可由网络设备检测到流量的异常,Host 与软件环境相关。

IDS的三种方法:1.misued-based 2.anomaly-based 3.hybrid

Major steps in ML and DM

KDD: Knowledge Discovery in Databases

DM是这个过程中的一个特殊步骤——应用特定的算法从数据中提取方法

ML专注于分类和预测,基于之前从训练数据中学到的已知属性。ML算法需要从域(如因变量)中得到一个目标(问题表示)来进行预测。DM侧重于发现数据中以前未知的属性。它不需要特定领域的目标,而是专注于发现新的和有趣的知识。

​ ——ML的先驱亚瑟·塞缪尔(Arthur Samuel)

ML/DM方法主要有三种类型:无监督、半监督和监督。在无监督学习问题中,主要任务是在未标记的数据中发现模式、结构或知识。当部分数据在获取过程中或由人工专家标注时,这个问题就称为半监督学习。添加标记数据极大地帮助解决了这个问题。如果数据被完全标记,这个问题就称为监督学习,通常任务是找到一个解释数据的函数或模型。使用曲线拟合或机器学习方法等方法对数据进行建模,以解决基本问题。标签通常是专家假定与收集的数据相关的业务或问题变量。

++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

对于大部分ML方法,三个阶段: training, validation, testing

多分类问题的指标: Overall accuracy; Class detection rate;ClassFAR orclass FP rate

Cyber-security Data Sets For ML&DM

通过pcap抓包捕获的不同数据类型,对此进行了分析

packet level data

互联网工程列出144个IP。在计算机的物理接口(例如以太网端口)上接收和传输的网络数据包可以由称为pcap的特定应用程序编程接口(API)捕获。

Netflow data

最初netflow是思科引入的路由器特性。路由器或交换机在进入和退出接口时能够收集IP网络流量。

从版本9开始,NetFlow数据包括一个压缩和预处理版本的actua lnetwork数据包。这些统计数据是派生出来的特性,并根据某些参数(如窗口持续时间、数据包数量等)设置设备上的NetFlow设置。

Public data set

KDD1999 data set

DARPA 1998版定义了四种类型的攻击:拒绝服务(DoS)、用户到根(U2R)、远程到本地(R2L)和探测或扫描。DoS攻击是试图拒绝目标用户的计算或网络资源。U2R攻击授予攻击者root访问权限。R2L攻击允许攻击者访问本地网络。探测或扫描攻击收集关于网络资源的信息。DARPA 1999增加了一种新的攻击类型——攻击者试图从受害者电脑上的特殊文件中窃取信息。

ML&DM Methods for IDS

Artificial Neural Networks 人工神经网络

基于感知器

可能出现局部最小值导致较长的学习实践。

1)误用检测

2)异常检测和混合检测**【这里提及的两篇论文可看一下】**

Association Rules and Fuzzy Association Rules 关联规则和模糊关联规则

发现数据中未知的关联性。传统的AR只可以处理二进制变量,模糊AR扩展了更多的分类。

Bayesian Network 贝叶斯网络

概率图形模型。该网络以节点作为离散或连续的随机变量,并以有向边作为它们之间的关系,建立有向无环图。子节点依赖于它们的父节点。每个节点维护随机变量的状态和条件概率形式。

【论文42可以看】

计算平台接收到TCP/IP数据包时,底层OS的网络栈处理这些数据包。网络堆栈生成各种日志和系统内核调用,最终在内核调用的应用程序级别处理数据包数据。

Clustering 聚类

是一组用于在高维未标记数据中发现模式的技术。它是一种无监督模式发现方法,其中数据根据相似性度量分组。聚类用于入侵检测的主要优点是,它可以从审计数据中学习,而不需要系统管理员提供对各种攻击类的显式描述。

【论文52总结了ML在网络中的使用,可看。】

Decision Trees 决策树模型

规则聚类最小化了确定由给定输入数据触发哪些规则所需的比较次数。决策树选择规则集中最具鉴别性的特性,从而允许对每个特性进行并行评估。

Ensemble Learning 集成学习算法

提及Adaptive Boosting 自适应提升来减少ML的过度学习。

Bagging (bootstrap aggreging)是一种改进预测模型通用性、减少过拟合的方法。它基于模型平均技术,可以提高1-近邻聚类的性能。随机森林分类器是一种结合决策树和集成学习的ML方法。

【62】【65】

Evolutionary Computation 进化计算

Hidden markov model 隐马尔可夫模型

从可观测参数中确定隐藏参数。

Inductive Learning 归纳学习

异常检测的主要困难在于发现已知和未知类别之间的界限

【87】成功地展示了如何进行真正的异常检测

Naïve Bayes

朴素贝叶斯分类器可以处理任意数量的独立特征,无论是连续的还是分类的。它们使用特征独立的假设,将高维密度估计任务简化为一维内核密度估计。虽然朴素贝叶斯分类器有一些局限性,但如果特征在给定真实类的条件下是独立的,则是最优分类器。可在线性时间内完成计算。

Sequential pattern mining 序列模式挖掘

在用户给定最小支持度的情况下,找出D中包含的所有最大序列。最大序列本身是由D中的序列通过枚举所有可能的序列生成的。

通过检查数据库日志的序列模式来检测数据库入侵;

SVM

基于最小化的分类风险的方法。

个人总结

对DM ML用于IDS的概述。摘了一下几个有突破性和可参考性的DOS攻击的论文,接着来看。涉及到具体算法内容的没有细看。

接下来的目标:多看一些关于分布式(结合集中式)+ML用于DDOS防范的论文,找一下目前的可行性方法。

你可能感兴趣的:(论文阅读笔记)