【网络流量识别】【聚类】【三】自适应密度FCM和自适应权重K-Means

目录

第一篇:自适应密度的模糊聚类

(一)文章内容概述

(二)自适应密度FCM

第二篇:自适应权重的K-Means聚类分析

(一)文章内容概述

(二)自适应权重的K-Means聚类方法

 (三)实验结果


第一篇:自适应密度的模糊聚类

地址:使用基于自适应密度的模糊聚类|进行网络流量异常检测IEEE 会议出版物|伊 · X普洛尔

(一)文章内容概述

本篇文章针对径向FCM在分析中不利用空间信息而不准确的情况下,提出了一种自适应模糊聚类技术。即在成员分簇的计算时同时考虑距离,密度和数据实例密度变化的趋势。同时,引入自适应阈值加快迭代过程。从企业网络中自己采集真实的网络数据流量,采用PCA进行特征提取,提取出10个特征。然后使用自适应的模糊聚类技术进行聚类。结果证明,自适应模糊聚类技术性能优于传统FCM。

(二)自适应密度FCM

本文的主要目标是通过结合基于距离、基于密度和基于分布的方法,提高检测效率。主要思想是将邻居密度数据集分布纳入会员值计算,从而将传统的基于距离的会员值计算进行调整。当距离、密度和分布的变化超过一定阈值时,其成员值将在聚类过程中快速更新,从而在大多数情况下更快的确定聚类(例如切换到另一个聚类,形成新聚类或者隔离到单个点)。本文提出的自适应密度的FCM可以有效检测位于打击群边界,集群稀疏区域,小集群和孤立独立点的网络流量检测。

传统的FCM聚类没有不同形状分布的自适应特性,因为它没有考虑任何空间信息。根据通信网络流量的特点,某些群集中的隔离点(不属于任何群集)、稀疏区域、边界点和远距离实例是由流量异常构成的。如果我们希望将所有异常分类为一个或多个唯一的聚类(不包括正常数据元素),传统的FCM聚类技术通常不会产生理想的结果。

本文提出的自适应模糊聚类算法采用实证聚类技术,考虑了数据实例的距离、密度和分布阈值设置的可靠估计器使算法具有自适应性、动态性和高效性。计算效率高,因为迭数分组过程基于自适应阈值设置和距离函数和成员函数的快速调整而有效。

第二篇:自适应权重的K-Means聚类分析

地址:基于恶意代码检测自适应权重的 K-手段聚类分析|IEEE 会议出版物|伊 · X普洛尔

(一)文章内容概述

文章基于自适应权重(AW-MMKM)提出了K-Means聚类分析,在提出的方法中识别网络流量中的四种类型的网络行为。此外,使用MFAM-NB框架提取网络行为特征。然后,通过该聚类算法在建议的方法中对恶意网络中的主机成员进行检测。此方法解决了K-Means算法的两个局限性:大数据集的处理效率对初始选择的依赖性

(二)自适应权重的K-Means聚类方法

AW-MMKM算法的目的是最大限度地减少类中方形错误的加权总和。基于最大化类之间的差异,AW-MMKM通过随机选择小批量的功能集来计算类中的方形误差。每个聚类的重量的自适应分配是根据方形误差的总和大小。另一方面,实例对象的重新分配基于加权距离执行。此外,算法还使用优化加权距离的参数来最大化类别之间的差异。除了降低计算成本外,建议的算法还可以提高算法的执行效率,优化目标功能。特定的恶意代码检测过程通过以下步骤执行:

(1)特征规范化;

(2)通过 AW-MMKM 算法随机初始化聚类中心;

(3)由 AW-MMKM 算法初始化功能子集的大小;

(4)随机选择案例,而无需聚类;

(5)计算每个功能实例和功能子集中的集线集中心之间的距离,并将实例划分为与实例加权距离最小的子集

——在MinMax K-Means算法中,权重指数的预定义处理存在限制。因此,建议使用 AW-MMKM 算法。建议的算法可以通过自适应调整重量来优化客观函数中的重量公式,并调整每个组的权重。此外,在最小化和最大化步骤之间进行交替计算。权重计算由下式完成:

(6)重新计算集束中心;

(7)返回(4)。重复迭代计算,直到实现迭代的最大数数或连续计算两次的聚类中心保持不变;

(8)计算新 k 类的方形差异之间的差值;

(9)如果有Dq≥Dmax更新Dq和Dmax,并保存新生成的集群。否则,可以直接保存新生成的 k 聚类;

(10)根据聚类结果对正常数据组和异常数据组进行分类。获得的异常数据组是实现恶意码检测目标的恶意网络主机。

 (三)实验结果

本文中提出的称为AW-MMKM算法的算法,在恶意代码检测的准确性方面优于传统的k-means算法和MinMax K-means算法。为了提高性能,AW-MMKM 算法采用加权距离测量,可在处理大规模实时数据时解决K手段问题。此外,根据实验结果,AW-MMKM 算法具有识别恶意代码精度高、检测延迟低的优势。

你可能感兴趣的:(网络安全,机器学习,人工智能,算法)