一种基于被动DNS流量分析的不平衡恶意域检测方法

来源：An Imbalanced Malicious Domains Detection Method Based on Passive DNS Traffic Analysis，北京科技大学

一、背景知识

1、“域名”和“标签”有什么区别?

来源：http://www.trademark-clearinghouse.com/help/faq/what-difference-between-%E2%80%9Cdomain-name%E2%80%9D-and-%E2%80%9Clabel%E2%80%9D

https://en.wikipedia.org/wiki/Domain_Name_System#Domain_name_syntax

子域名和域名，三级域名和二级域名详解

子域名->三级域名

域名->二级域名

as the domain name is commonly equated with the second level domain, and the subdomain is commonly equated with the third level domain.

https://icannwiki.org/SLD

术语“域名”是由两个或多个级别组成的名称，例如“商标- clearinghouse.com”。一个标签是一个域名的一部分,例如,“trademark-clearinghouse”来自于“trademark-clearinghouse.com”。

域名由一个或多个部分组成，技术上称为标签（label），它们通常由点连接，并由点分隔，比如example.com。标签可以包含0到63个字符。为根区域保留长度为0的空标签。完整域名的文本表示长度不得超过253个字符

2、URL、域、子域、主机名等之间的区别是什么?

来源：https://www.sistrix.com/ask-sistrix/onpage-optimisation/what-is-the-difference-between-a-url-domain-subdomain-hostname-etc/

“URL”是“统一资源定位器”的缩写，通常用于指网站或互联网地址，而实际的目标通常是目录或特定路径。

URL通常由几个部分组成。为了了解结构和组件，我们将分解如下的示例URL：

3.基于被动DNS流量分析分析恶意域名

对一些特征的统计分析的结果进行选择以在图1中示出。从这些特征中我们可以发现，这些特征具有较强的区分恶意域和良性域的能力。在本节中，我们将介绍12个静态词法特征和4个动态DNS解析特征，以及构建这些特征来分析恶意域的动机。

3.1 静态的词汇特征。为了避免被发现，攻击者通常使用域生成算法(domain generation algorithm, DGA)来动态生成大量的随机域名。这些恶意域名的词法特征与良性域名有很大区别。我们构造了12个静态词法特征来分析恶意域名。

到目前为止，短域名几乎已经注册;因此，DGA生成的恶意域名大多比良性域名长。恶意域名子域中标签的最大长度通常也较长(即，由点分隔的部分)。因此，我们基于长度度量构造了两个特征:第一，域名长度(特征1)，第二，子域标签的最大长度(特征2)。

DGA生成的域名最显著的特性是字符的分布是随机的。我们知道信息熵的定义是由随机数据来源[17]产生的平均信息量。因此，我们使用信息熵来测量字符的无序性。

设d为域名，m为d中不同字符数，定义熵(d)为d的字符熵(特征3)

其中ai (i = 1…)m)表示d中的一个字符，count(ai)是d中的ai个数，length(d)是d的长度，如果d的字符熵值较大，则更有可能识别出d是恶意的。

此外，恶意域名是由恶意软件使用，而不是人类使用，所以它们不容易记住或人类发音。因此，恶意域名中数字字符和字母字符的出现也是非常重要的指示符号。在此基础上，我们构建了五个特征:数字字符数(特征4)、数字字符比(特征5)、数字字符和字母字符的转换频率(特征6)、连续数字字符的最大长度(特征7)、连续字母字符的最大长度(特征8)，以及连续相同字母字符的最大长度(特征9)。

众所周知，英语字母表中的辅音字母要比元音字母多得多。因此，在随机恶意域名中，元音(Feature 10)的比例较小，连续辅音(Feature 11)的长度较长，元音与辅音(Feature 12)的转换频率较高。

https://baike.baidu.com/item/%E5%85%83%E9%9F%B3%E5%AD%97%E6%AF%8D/890495?fr=aladdin

3.2 动态DNS解析特性。使用DNS进行的互联网规模的攻击不可避免地会留下一些足迹，这些足迹隐藏在DNS解析记录中，因此我们可以挖掘这些足迹(即， DNS解析功能)以配置恶意域名。在本节中，我们将介绍4个来自DNS解析记录的动态解析特性。

为了规避黑名单和抵制被窃取，恶意域名服务器返回的DNS答案通常包含多个DNS a记录(即，地址纪录)或NS纪录(即，名称服务器记录)。而且狡猾的攻击者通常不会针对特定的名称服务器或IP范围。因此，我们构建了四个统计特征:A记录的显著数量(特征13)，域名的IP熵(特征14)，NS记录的显著数量(特征15)，NS域名的相似性(特征16)。

不同A记录的数量(特性13)记录DNSDB中解析的IP地址总数。此外，构造了域名的IP熵(特征14)来度量这些解决的IP地址的离散度。设d为域名，S为解析后的IP地址集，n为S中不同IP/16前缀的个数。我们将IP_ENTROPY(d)定义为域名的IP熵(Feature 14)。

ipxi(i=1....n)意味着S中IP/16前缀，count(ipxi)是S中ipxi的数量，|S|是S的大小。如果d的IP熵值更大，那么d被识别成恶意域名的可能性就更大。

不同的NS记录(特性15)记录DNSDB中解析的名称服务器的总数。此外，构造了NS域名的相似度(特征16)来度量这些名称服务器之间的差异。计算每对域名服务器名之间的编辑距离，然后将这些距离的平均值定义为NS域名的相似度。如果d的NS域名相似度较大，则更有可能被识别为恶意。

一种基于被动DNS流量分析的不平衡恶意域检测方法

你可能感兴趣的:(一种基于被动DNS流量分析的不平衡恶意域检测方法)