网络安全和机器学习:准确的特征可通向成功

网络安全和机器学习:准确的特征可通向成功

 

原文地址:http://www.computerworld.com/article/2947617/data-analytics/cybersecurity-and-machine-learning-how-selecting-the-right-features-can-lead-to-success.html

译者:张某人ER

译者地址:http://blog.csdn.net/xinxing__8185



 网络安全和机器学习:准确的特征可通向成功_第1张图片



我们的周围遍布大数据。但是,还是经常听说,许多数据科学家和研究员需要更多的数据,以支持进行中的研究分析。这怎么可能,这种得到更多数据的急切心理又从何而来?

 

通常,数据科学家需要很多数据来训练复杂的机器学习模型。同样的情形也出现(适用)于网络安全领域的机器学习算法。为了可以在许多不同目标,恶意行为,恶意软件感染中,建立分类器并予以识别。由此而论,获取大量数据的急切心理来自对充足的正样本的需要----例如,来自真实威胁和恶意软件感染的数据-----这些数据可以用来训练机器学习分类器。

 

这种对大量数据的需求合理吗?这依赖于机器学习试图要解决的问题。但是,训练一个机器学习模型需要的确切数据量,通常和特征的选取有关。

 

特征是信息的集合,该集合可以用于表征给定数据样本的特征(特性)。可使用的特征数量有时并不直接受控制,因为它来自复杂的数据流水线,且不易修正。又如在其他的情形下,从现存的数据样本中获取新特征,相对容易;经过合适的预处理的数据也可建立更有趣的新特征。这个过程通常命名为“特征工程”;

 

机器学习的书籍中,会强调准确选择特征对训练机器学习算法的重要性。这是个重要的考量,因为无尽数量的训练数据,如果配以错误的特征几何,将会产生一个不可信赖的模型。

 

当机器学习算法的特征选择被用于网络流量数据,以识别网络安全威胁时,(以上情形)尤为如此 。对于一些模型,了解网络流使用的协议-----例如TCPUDP----可能有相关性,尽管在其他情形中是毫无意义的特征。

 

在特征抽取中应用自然语言处理技术,可能是正确的选择,例如模型中包含HTTP数据时,解析URL域。但是,这可能并不合适,例如模型主要研究聚合信息或关于网络流量像客户端/服务器间的交互时。

 

一般而言,可用的特征与解析给定网络协议能力相关。这是因为,缺少解析能力,从原始网络流量数据中可抽取出的有用信息的总量相当有限。

 

以上的论述,可能会产生一个错误的感觉,即使用一个特别大的特征集,会解决任何的机器学习问题。

 

实际上,现有的机器学习库提供易于使用的方法可以获取不同的特征,并被用于训练一些算法。这些工具试图使选择准确的特征变得自动化 ,但在实际中,不应消除对被测试的特征仔细的审查。

 

被选中用于解决机器学习问题的特征质量远比利用的特征数量重要。这个重要的观点,可以看做对著名的维数灾难的简单表述。(R. Bellman, Adaptive Control Processes: A Guided Tour, Princeton University Press, Princeton, N.J., 1961).

已经有许多关于这个主题的文章,同时存在几个不同的定义。一个相对合理准确,又有点神秘的陈述是,当维数增加时,所需空间量快速增长,可获取的数据便变得稀疏。

 

解释这一表述不同的方式是,当特征维数增长时,不同样本间的距离,在特征空间中很快会收敛于同一值。

 

这是很直观的,因为数据的稀疏性会使不同的数据样本趋向于特征空间的角落(空间中边缘,相对的为空间的中心部分)。这种现象的一个图形(直观)表示,可以点击

http://simplystatistics.org/2014/10/24/an-interactive-visualization-to-teach-about-the-curse-of-dimensionality/

 

正如许多机器学习算法依赖于一种或多种形式的距离定义(例如Euclidean),随着这些距离定义变得无意义,这些算法会迅速的失去预测性的能力。

 

对于特定数量的训练数据,增长(过多)的特征数量将会造成过拟合问题。例如,分类器在训练集上有很好的表现,却在预测数据上表现的预测性能很差。

 

这这种情况下,一种可能的方案是增加训练数据量。但正如我们上面指出的,对于网络流分类器,这常常是不可能的或代价太高、异常耗时。

 

一种可能有些的方式包括合理的特征选择,识别特征间的关系,使用一些技术如主成分分析(PCA),来降低特征的维度。但新的降维的特征集,较原来的特征集缺少直观性。

 

正如我们在上一篇博文中讨论的(http://www.computerworld.com/article/2908507/cybersecurity-data-science-and-machine-learning-is-all-data-equal.html),限制正样本的数量,在训练相关网络安全的机器学习模型中,至关重要。合理特征选择同样重要,同时也在构建高泛化能力和高预测性能的分类器中扮演着重要角色。

 


相关博文推荐;

http://www.visiondummy.com/2014/04/curse-dimensionality-affect-classification/

http://www.visiondummy.com/machine-learning-books/

你可能感兴趣的:(机器学习)