异常检测—机器学习在数据安全领域的应用

领域应用背景

随着全球数字经济的发展,各行业领域都在逐步进入数字化转型阶段,打造更为开放、智能、便利的数字生态体系。其中数据被认为是创造价值的核心资产,与此同时数据安全风险和隐私保护管理面临严峻考验。《中华人民共和国数据安全法》中第三条,给出了数据安全的定义,是指通过采取必要措施,确保数据处于有效保护和合法利用的状态,以及具备保障持续安全状态的能力。要保证数据处理的全过程安全,数据处理,包括数据的收集、存储、使用、加工、传输、提供、公开等。

伴随着通信技术的发展,大数据、云计算等核心技术的不断成熟,人工智能技术取得重大突破性进展,并快速向各个行业和领域渗透。其中,大数据是人工智能研究和应用的基础,数据质量、数据维度、数据量级对算法模型的优良有着重要的影响。在数据安全领域,人工智能也在发挥自身优势,多维度监控和预警存在的数据风险,以便更好的应对风险挑战,维护数据安全。

算法应用背景

在数据安全领域,人工智能算法基于数据的多样性和应用场景的多样性其技术手段也极为丰富,基于数据多样性维度常用的算法涉及数据加解密算法、信息摘要算法等。基于应用场景多样性维度常用的算法涉及不同场景的检测及监测算法、场景预测算法等。本文分享的是应用场景多样性维度使用较为广泛的检测算法--异常检测算法。

异常检测是指通过数据挖掘相关手段识别数据中的“异常点”,该技术目前已经用于各种领域,如入侵检测、欺诈检测、故障检测、系统健康监测等。

异常检测算法发展迅速,研究领域具有重要的发展价值。最早在1986年多萝西·丹宁教授提出了入侵检测系统(IDS)的异常检测方法。该入侵检测系统的异常检测通常是通过阈值和统计完成的。到后来从数据分布维度、距离维度、机器学习维度、深度学习维度入手不断发展至今,以及未来该方向有望成为研究热点之一。

算法应用介绍

关于异常检测相关算法众多,下图从不同角度列举了一些常用的异常检测算法。

异常检测算法介绍表

在入侵检测系统中,异常检测算法应用较为广泛。异常检测算法通常是根据异常信息占总样本量的比例较小,异常点的特征值与正常点的差异很大这两大特征,入侵检测系统可以被定义为对计算机和网络资源的恶意使用行为进行识别和相应处理的系统。包括系统外部入侵和内部用户的非授权的行为,是保证计算机系统的安全而设计与配置的一种能够及时发现并报告系统中未授权或异常现象的技术,是一种用于检测计算机网络中违反安全策略行为的技术。尽管入侵检测系统从不同的角度有多种不同的分类,但入侵检测过程基本可以分为以下三个步骤,信息收集、信息分析、结果处理。而异常检测算法就是在信息收集这一过程的基础上获取大量历史日志及历史信息,在信息分析这一阶段利用这些收集到的有关系统、网络、数据及用户活动的状态和行为等信息后,整合这部分有效数据信息通过选择适应度较高的算法构建检测模型,输出当检测到某种入侵时就会产生一个告警并发送给入侵检测系统控制台。入侵检测控制台则根据告警预先定义的相应采取相应的措施。在该使用场景下,使用频率通常较高的算法有iForest、聚类相关的算法等。其中iForest算法的逻辑是异常样本相较正常样本可以通过较少次数的随机特征被孤立出来,其设计的简要图示如下图:

iForest算法逻辑图

另一类在安全系统中较为典型的应用场景如欺诈检测系统,欺诈检测是企业为保护资产、身份、客户和业务信息、账户和交易免受欺诈者侵害而实施的一组活动或技术。欺诈检测的方式有很多,其主要是通过分析用户活动和行为模式并将他们与代表正常用户行为的基线或配置文件进行比较来完成。在欺诈检测系统中,异常检测算法作为其中较为代表性的使用算法之一,往往是通过机器学习或深度学习相关算法手段检测到历史数据中的离群点,或进行相关用户的关联分析进行异常检测,来辅助应用场景中进行决策。欺诈检测系统的主要挑战是迅速适应不断变化的欺诈模式和欺诈者的策略,及时发现并优化提出日益复杂的解决方案。在欺诈检测系统中,基于距离和密度的异常检测算法较为常用,其算法逻辑是基于距离和密度把无法聚类的点孤立出来,孤立出来的点即为异常点。算法逻辑示意图如下:

欺诈监测系统中的算法逻辑图

由此可见,异常检测在数据安全领域的应用涉及方方面面,其算法手段随着研究领域的不断深入,算法研究也在不断深化,其应用重点是根据应用场景选择适合的该场景下应用逻辑的算法,不断优化达到需求目的。

算法应用趋势

当前,随着越来越多的数据在人们的生产和生活场景中被收集和利用,人们对数据安全的认知度也在逐渐提升,在国家及社会对数据安全高度关注下,人工智能在数据安全领域覆盖方方面面,就其发展前景来看,人工智能必定将在数据安全领域不断发挥优势,创造更多价值。

文章来源:转自【鹏信科技】微信公众号

你可能感兴趣的:(异常检测—机器学习在数据安全领域的应用)