人工智能即我们俗称的AI,是模仿人类智慧而形成的一种科学技术,AI其实质上是运用计算机技术和机械设备模拟人的智慧与人的动作,从而创造出一种机器。这种智慧型机器与人类一样有感知,可以进行语言表达、改造环境,并从事一些人类无法实现的工作,从根本上替代人。AI的根本作用是解放人类的劳动,把人们从繁重的生产工作中脱离出来。AI的应用极为广泛,现代的AI技术通过互联网丰富了智慧型机器人的信息资源,并为智慧型机器人提供了更为广阔的空间。AI发展一般来说有三大阶段,第一阶段是按固定程序以一定顺序执行任务型机器人。AI在这个阶段被广泛应用于工业与制造业,促进了制造业的快速发展。典型的例子是汽车加工与生产,现代的汽车制造普遍采用机器人进行组装与生产,人们只要通过操作机器设备,机器人就可以按预先设计好的指令完成组装任务。第二个阶段是机器学习阶段,此阶段机器人向着智能化方向有了一定的发展,出现了以柔性制造系统为代表的机器人,此类机器人可以生产出不同形状的产品,进行不同工位的加工,有一定的学习能力,适合生产系统的柔性制造与加工。第三阶段是深度学习阶段,此阶段的机器人通过更深入的学习,像人一样充满智慧,可以改造环境,当前人工智能已经向着深层次学习阶段发展。(附一张我最喜欢漫威英雄-钢铁侠)
将机器学习应用到网络安全已成为近年来安全领域的研究热点。针对安全领域的5个研究方向(指网络空间安全基础、密码学及其应用、系统安全、网络安全、应用安全),机器学习在系统安全、网络安全、应用安全三个方向有大量的研究成果,而在网络安全基础和密码学及其应用方面的研究较少涉及。其中,系统安全以芯片、系统硬件物理环境及系统软件为研究方向;网络安全主要以网络基础设施、网络安全监测为研究重点;应用层面则关注应用软件安全、社会网络安全。
从机器学习应用于网络安全的角度出发,下图右侧所示是机器学习在网络安全中的一般应用流程,左侧则是上述3个主要研究方向的典型应用。
机器学习被认为是一组能够利用经验数据来改善系统自身性能的算法集合,它包括分类、聚类、降维等问题,它在安全研究中的一般应用流程包括这六个阶段:安全问题抽象--》数据采集--》数据预处理--》安全特征提取--》模型构建--》模型验证--》模型效果评估。
安全问题抽象化
安全问题抽象是指将网络空间安全问题映射为机器学习能够解决的类别,问题映射的恰当与否直接关系到机器学习技术解决网络空间安全问题成功与否。比如,对劣质芯片或硬件木马的检测、伪基站检测、虚拟化安全、信用卡欺诈等都可以抽象为分类问题;设备身份认证、社交网络异常账号检测、网络入侵检测等可以抽象为聚类问题;用户身份认证、恶意/异常/入侵检测、取证分析、网络舆情等问题既可以抽象为分类问题也可以抽象为聚类问题。
数据采集
数据采集是机器学习应用于网络空间安全的前提条件,它主要利用各种软件(比如wireshark、Netflow、日志收集工具等),主要从系统层、网络层及应用层采集数据,系统层数据用于系统安全问题的与研究,这类数据主要有芯片信息、设备信息、系统日志信息等。网络层数据指与具体网络活动密切相关的数据,目前常用的是网络包数据或者网络流数据。应用层数据指网络空间中的各类应用软件产生及存储的数据,如web日志信息、用户个人信息。
数据预处理及特征提取
在真实网络环境中,采集的数据可能有大量的缺失值、噪音也可能由于人工录入失误而产生异常点,因此需要对数据进行清洗以及归一化处理。(比如,从企业内部采集的TCP流数据,首先需要剔除重复数据、去除噪音等规范化操作,然后对清洗的数据进行聚合、归一化处理等操作)
如果采集的数据集中某个特征缺失值较多,通常会将该特征舍弃,否则可能会产生较大的噪声,影响机器学习模型的效果。如果缺失值较少,可以采用固定值填充、均值填充、中位数填充、插值法或者随机数填充等方法。如果存在异常值则直接将该条数据删除。在一些安全问题中国,有时候异常数据样本或恶意数据样本远远少于正常样本,对于这种非平衡数据集,通常采用过采样或欠采样方法构造平衡数据集。(对数据量大的正例采用欠采样,对数据量小的负例采用过采样)。
之后,将数据集进行分割,分成三个集合:训练集、验证集、测试集。(ps;训练集和测试集大家应该都了解),验证集主要用于验证模型及参数调优。常用的数据集分割方法有随机采样和交叉验证。
特征提取指从数据中提取最具有安全问题本质特性的属性,比如从恶意网页的识别中,提取主机信息特征、网页内容特征、静态连接及动态网页行为关系等,不过,这方面,提取特征虽然比较困难,机器学习中比较火的深度学习可以实现自动提取特征
模型构建
在机器学习领域,按照数据集是否有标记,将其分为监督学习和无监督学习,对于监督学习,比如说:垃圾邮件检测中的每条数据标记为“垃圾邮件”或"非垃圾邮件"。在非监督学习中,数据不包含标签信息,但可以通过非监督学习算法推断出数据的内在关联,例如社交网络账号的检测中对好友关系、点赞行为的聚类,从而发现账号内在的关联。近几年来,深度学习凭借强大的自动提取特征的能力,被用于解决异常协议检测、恶意软件检测、网络入侵检测等方面。另外,深度学习与增强学习相结合的深度增强学习算法还可以应用于移动终端恶意检测。
将选定的算法和训练数据集用于模型训练时,往往需要面临调参的挑战,这需要依据个人的经验进行。
模型验证
模型验证主要采用K倍交叉验证法,它将数据预处理后的训练数据集划分成k个大小相似且互斥的子集,每个子集尽可能保持数据分布的一致性,然后用k-1子集的并集作为训练集,剩余子集作为验证集,从而获得k组训练数据集和验证集,可以进行k此训练和验证测试,最终返回的结果是这k次验证测试结果的均值。
模型效果评估
安全领域一般常用的有正确率、查准率、查全率,正确率是分类正确的正常样本数与恶意样本数占样本总数的比例。查准率(精度)是指被正确识别的正常样本数占被识别为正常样本的比例,查全率(召回率)则是指被正确识别的正常样本与正确识别的正常样本和被错误识别的恶意样本之和的比例(简单说即是被正确识别的正常样本占)。公式一般如下:
深度学习在搜索的应用概括起来包括4个方面:
首先是系统,强大的深度学习训练平台和在线预测系统是深度学习应用的必要条件,目前我们的离线深度学习框架、在线深度学习框架和在线预测框架统一到tf,并实现了日志处理,特征抽取,模型训练和在线服务部署端到端的流程,极大提升了算法迭代效率;
其次是搜索应用,包括智能交互,语义搜索,智能匹配和智能决策四个技术方向,这四个方向的协同创新实现了搜索全链路的深度学习技术升级,并具备从传统的单场景单目标优化到多场景多目标联合优化的能力;
再次是在性能优化上做的工作,包括模型压缩、量化、低秩分解再到二值网络,大量的技术调研和论证,为未来提高深度模型预测性能和软硬件协同优化做了很好的技术铺垫;
最后是排序平台化,实现了PC商品搜索、无线商品搜索、店铺内搜索搜索和店铺搜索的搜索服务统一,通过特征和模型复用,实现了多条业务线技术的快速升级。
人工智能是全球公认的尖端领域和创新前沿,有着超乎想象的广阔应用前景。而住房已经是全球最大的财富载体,全世界的房地产总价是271万亿美元,相当于美国国内生产总值的12倍,我国国内生产总值的21倍
以人工智能作为技术支撑,透过语音语意理解、图像识别、衣物识别、人脸识别为入口,通过人工智能机器学习,理解用户所想,主动为用户提供舒适健康的生活。在我看来物联网的核心,尤其与物联网有关联的可穿戴、智能家居等智能设备核心是人机交互,语音和图像识别是比较好的路径。透过语音、图像使得机器能读懂你,之后执行精准命令。未来智能家居将由人工智能变的更大强大,显然人工智能应用中发挥智能家居巨大价值,模拟人脑的思考方式,帮助我们从后端服务器中获得及时信息并呈现给用户。而海尔U+智慧生活大脑是一种应用于家庭的人工智能系统,能通过家里的各种智能设备,感知用户的生活习惯,了解用户的行为喜好,并实现自主决策,帮助用户控制家电,主动提供相应的服务.
海尔、微软的战略合作,也开启了机器学习在智能家居行业应用的行业先河,提升智能家电的智力水平,使得家电能够像人一样能听、能看、会说、能思考、有情感,并且主动提供服务。
人工智能的概念已经被很多人所熟悉,且在未来发展中也展现了很多优势,当前AI在计算机网络技术中的应用也更为广泛,主要体现在网络搜索、保护网络信息安全、智能家居、远程服务等各个方面,当然人工智能是计算机技术发展的重要产物,当前网络技术的发展为人工智能的深度学习提供了更为广阔的空间。相信不久的将来,人工智能可以在各个领域替代人类,为人类提供更加优质的服务,实现更高度的智能化。