前言
如何知道自己所在的企业是否被intrusion了?是没人来“黑”,还是因自身感知能力不足,暂时还无法发现?其实,intrusion检测是每一个大型互联网企业都要面对的严峻挑战。价值越高的公司,面临的intrusion威胁也越大,即便是Yahoo这样的互联网鼻祖,在落幕(被收购)时仍遭遇全量数据失窃的事情。安全无小事,一旦互联网公司被成功“intrusion”,其后果将不堪想象。
基于“攻-防对抗”的考量,本文不会提及具体的入-侵检测模型、算法和策略,那些希望直接照搬“入/侵策略”的同学可能会感到失望。但是我们会将一部分运营思路分享出来,请各位同行指点,如能对后来者起到帮助的作用,那就更好了,也欢迎大家跟我们交流探讨。
入/侵的定义
典型的入-侵场景:
在很远的地方,hacker通过网络远程控制目标的笔记本电脑/手机/服务器/网络设备,进而随意地读取目标的隐私数据,又或者使用目标系统上的功能,包括但不限于使用手机的麦克风监听目标,使用摄像头偷窥监控目标,使用目标设备的计算能力挖矿,使用目标设备的网络能力发动DDoS等等。亦或是破解了一个服务的密码,进去查看敏感资料、控制门禁/红绿灯。以上这些都属于经典的入-侵场景。
我们可以给入-侵下一个定义:就是hacker在未经授权的情况下,控制、使用我方资源(包括但不限于读写数据、执行命令、控制资源等)达到各种目的。从广义上讲,hacker利用SQL注入漏洞窃取数据,或者拿到了目标域名在ISP中的帐号密码,以篡改DNS指向一个黑页,又或者找到了目标的社交帐号,在微博/QQ/邮箱上,对虚拟资产进行非授权的控制,都属于入-侵的范畴。
针对企业的入-侵检测
企业入-侵检测的范围,多数情况下比较狭义:一般特指hacker对PC、系统、服务器、网络(包括办公网、生产网)控制的行为。
hacker对PC、服务器等主机资产的控制,最常见的方法是通过Shell去执行指令,获得Shell的这个动作叫做GetShell。
比如通过Web服务的上传漏洞,拿到WebShell,或者利用RCE漏洞直接执行命令/代码(RCE环境变相的提供了一个Shell)。另外,通过某种方式先植入“木-马后门”,后续直接利用木-马集成的SHELL功能对目标远程控制,这个也比较典型。
因此,入-侵检测可以重点关注GetShell这个动作,以及GetShell成功之后的恶意行为(为了扩大战果,hacker多半会利用Shell进行探测、翻找窃取、横向移动攻-击其它内部目标,这些区别于好人的特性也可以作为重要的特征)。
有一些同行(包括商业产品),喜欢报告GetShell之前的一些“外部扫描、攻/击探测和尝试行为”,并美其名曰“态势感知”,告诉企业有人正在“试图攻/击”。在笔者看来,实战价值并不大。包括美团在内的很多企业,基本上无时无刻都在遭受“不明身份”的攻/击,知道了有人在“尝试”攻/击,如果并不能有效地去行动,无法有效地对行动进行告警,除了耗费心力之外,并没有太大的实际价值。
当我们习惯“攻/击”是常态之后,就会在这样的常态下去解决问题,可以使用什么加固策略,哪些可以实现常态化的运营,如果有什么策略无法常态化运营,比如需要很多人加班临时突击守着,那这个策略多半在不久之后就会逐渐消逝掉。跟我们做不做这个策略,并没有本质上的区别。
类似于SQL注入、XSS等一些不直接GetShell的Web攻/击,暂时不在狭义的“入/侵检测”考虑范围,建议可以划入“漏洞”、“威胁感知”等领域,另行再做探讨。当然,利用SQL注入、XSS等入口,进行了GetShell操作的,我们仍抓GetShell这个关键点,不必在乎漏洞入口在何处。
“入/侵”和“内鬼”
与入/侵接近的一种场景是“内鬼”。入/侵本身是手段,GetShell只是起点,hacker GetShell的目标是为了之后对资源的控制和数据的窃取。而“内鬼”天然拥有合法的权限,可以合法接触敏感资产,但是基于工作以外的目的,他们对这些资源进行非法的处置,包括拷贝副本、转移外泄、篡改数据牟利等。
内鬼的行为不在“入/侵检测”的范畴,一般从内部风险控制的视角进行管理和审计,比如职责分离、双人审计等。也有数据防泄密产品(DLP)对其进行辅助,这里不展开细说。
有时候,hacker知道员工A有权限接触目标资产,便定向攻/击A,再利用A的权限把数据窃取走,也定性为“入/侵”。毕竟A不是主观恶意的“内鬼”。如果不能在hacker攻/击A的那一刻捕获,或者无法区分hacker控制的A窃取数据和正常员工A的访问数据,那这个入/侵检测也是失败的。
入/侵检测的本质
入/侵就是hacker可以不经过我们的同意,来操作我们的资产,在手段上并没有任何的限制。那么如何找出入/侵行为和合法正常行为的区别,将其跟合法行为进行分开,就是“入/侵发现”。在算法模型上,这算是一个标记问题(入/侵、非入/侵)。
可惜的是,入/侵这种动作的“黑”样本特别稀少,想通过大量的带标签的数据,有监督的训练入/侵检测模型,找出入/侵的规律比较难。因此,入/侵检测策略开发人员,往往需要投入大量的时间,去提炼更精准的表达模型,或者花更多的精力去构造“类似入/侵”的模拟数据。
一个经典的例子是,为了检测出WebShell,安全从业人员可以去GitHub上搜索一些公开的WebShell样本,数量大约不到1000个。而对于机器学习动辄百万级的训练需求,这些数据远远不够。况且GitHub上的这些样本集,从技术手法上来看,有单一技术手法生成的大量类似样本,也有一些对抗的手法样本缺失。因此,这样的训练,试图让AI去通过“大量的样本”掌握WebShell的特征并区分出它们,原则上不太可能完美地去实现。
此时,针对已知样本做技术分类,提炼更精准的表达模型,被称为传统的特征工程。而传统的特征工程往往被视为效率低下的重复劳动,但效果往往比较稳定,毕竟加一个技术特征就可以稳定发现一类WebShell。而构造大量的恶意样本,虽然有机器学习、AI等光环加持,但在实际环境中往往难以获得成功:自动生成的样本很难描述WebShell本来的含义,多半描述的是自动生成的算法特征。
另一个方面,入/侵的区别是看行为本身是否“授权”,而授权与否本身是没有任何显著的区分特征的。因此,做入/侵对抗的时候,如果能够通过某种加固,将合法的访问收敛到有限的通道,并且给该通道做出强有力的区分,也就能大大的降低入/侵检测的成本。例如,对访问来源进行严格的认证,无论是自然人,还是程序API,都要求持有合法票据,而派发票据时,针对不同情况做多纬度的认证和授权,再用IAM针对这些票据记录和监控它们可以访问的范围,还能产生更底层的Log做异常访问模型感知。
这个全生命周期的风控模型,也是Google的BeyondCorp无边界网络得以实施的前提和基础。
因此,入/侵检测的主要思路也就有2种:
根据黑特征进行模式匹配(例如WebShell关键字匹配)。
根据业务历史行为(生成基线模型),对入/侵行为做异常对比(非白既黑)
如果业务的历史行为不够收敛,就用加固的手段对其进行收敛,再挑出不合规的小众异常行为。
入/侵检测与攻/击向量
根据目标不同,可能暴露给hacker的攻/击面会不同,hacker可能采用的攻/击手法也就完全不同。比如,入/侵我们的PC/笔记本电脑,还有入/侵部署在机房/云上的服务器,攻/击和防御的方法都有挺大的区别。
针对一个明确的“目标”,它被访问的渠道可能是有限集,被攻/击的必经路径也有限。“攻/击方法”+“目标的攻/击面”的组合,被称为“攻/击向量”。
因此,谈入/侵检测模型效果时,需要先明确攻/击向量,针对不同的攻/击路径,采集对应的日志(数据),才可能做对应的检测模型。比如,基于SSH登录后的Shell命令数据集,是不能用于检测WebShell的行为。而基于网络流量采集的数据,也不可能感知hacker是否在SSH后的Shell环境中执行了什么命令。
基于此,如果有企业不提具体的场景,就说做好了APT感知模型,显然就是在“吹嘘”了。
所以,入/侵检测得先把各类攻/击向量罗列出来,每一个细分场景分别采集数据(HIDS+NIDS+WAF+RASP+应用层日志+系统日志+PC……),再结合公司的实际数据特性,作出适应公司实际情况的对应检测模型。不同公司的技术栈、数据规模、暴露的攻/击面,都会对模型产生重大的影响。比如很多安全工作者特别擅长PHP下的WebShell检测,但是到了一个Java系的公司……
常见的入/侵手法与应对
如果对hacker的常见入/侵手法理解不足,就很难有的放矢,有时候甚至会陷入“政治正确”的陷阱里。比如渗/透测试团队说,我们做了A动作,你们竟然没有发现,所以你们不行。而实际情况是,该场景可能不是一个完备的入/侵链条,就算不发现该动作,对入/侵检测效果可能也没有什么影响。每一个攻/击向量对公司造成的危害,发生的概率如何进行排序,解决它耗费的成本和带来的收益如何,都需要有专业经验来做支撑与决策。
现在简单介绍一下,hacker入/侵教程里的经典流程(完整过程可以参考杀伤链模型):
入/侵一个目标之前,hacker对该目标可能还不够了解,所以第一件事往往是“踩点”,也就是搜集信息,加深了解。比如,hacker需要知道,目标有哪些资产(域名、IP、服务),它们各自的状态如何,是否存在已知的漏洞,管理它们的人有谁(以及如何合法的管理的),存在哪些已知的泄漏信息(比如社工库里的密码等)……
一旦踩点完成,熟练的hacker就会针对各种资产的特性,酝酿和逐个验证“攻/击向量”的可行性,下文列举了常见的攻/击方式和防御建议。
高危服务入/侵
所有的公共服务都是“高危服务”,因为该协议或者实现该协议的开源组件,可能存在已知的入/侵方法(高级的攻/击者甚至拥有对应的0day),只要你的价值足够高,hacker有足够的动力和资源去挖掘,那么当你把高危服务开启到互联网,面向所有人都打开的那一刻,就相当于为hacker打开了“大门”。
比如SSH、RDP这些运维管理相关的服务,是设计给管理员用的,只要知道密码/秘钥,任何人都能登录到服务器端,进而完成入/侵。而hacker可能通过猜解密码(结合社工库的信息泄露、网盘检索或者暴力破解),获得凭据。事实上这类攻/击由于过于常见,hacker早就做成了全自动化的全互联网扫描的蠕虫类工具,云上购买的一个主机如果设置了一个弱口令,往往在几分钟内就会感染蠕虫病毒,就是因为这类自动化的攻/击者实在是太多了。
或许,你的密码设置得非常强壮,但是这并不是你可以把该服务继续暴露在互联网的理由,我们应该把这些端口限制好,只允许自己的IP(或者内部的堡垒主机)访问,彻底断掉hacker通过它入/侵我们的可能。
与此类似的,MySQL、Redis、FTP、SMTP、MSSQL、Rsync等等,凡是自己用来管理服务器或者数据库、文件的服务,都不应该针对互联网无限制的开放。否则,蠕虫化的攻/击工具会在短短几分钟内攻破我们的服务,甚至直接加密我们的数据,甚至要求我们支付比特币,进行敲诈勒索。
还有一些高危服务存在RCE漏洞(远程命令执行),只要端口开放,hacker就能利用现成的exp,直接GetShell,完成入/侵。
防御建议: 针对每一个高危服务做入/侵检测的成本较高,因为高危服务的具体所指非常的多,不一定存在通用的特征。所以,通过加固方式,收敛攻/击入口性价比更高。禁止所有高危端口对互联网开放可能,这样能够减少90%以上的入/侵概率。
Web入/侵
随着高危端口的加固,hacker知识库里的攻/击手法很多都会失效了。但是Web服务是现代互联网公司的主要服务形式,不可能都关掉。于是,基于PHP、Java、ASP、ASP.NET、Node、C写的CGI等等动态的Web服务漏洞,就变成了hacker入/侵的最主要入口。
比如,利用上传功能直接上传一个WebShell,利用文件包含功能,直接引用执行一个远程的WebShell(或者代码),然后利用代码执行的功能,直接当作Shell的入口执行任意命令,解析一些图片、视频的服务,上传一个恶意的样本,触发解析库的漏洞……
Web服务下的应用安全是一个专门的领域(道哥还专门写了本《白帽子讲Web安全》),具体的攻/防场景和对抗已经发展得非常成熟了。当然,由于它们都是由Web服务做为入口,所以入/侵行为也会存在某种意义上的共性。相对而言,我们比较容易能够找到hacker GetShell和正常业务行为的一些区别。
安全建议:针对Web服务的入/侵痕迹检测,可以考虑采集WAF日志、Access Log、Auditd记录的系统调用,或者Shell指令,以及网络层面Response相关的数据,提炼出被攻/击成功的特征,建议我们将主要的精力放在这些方面。
0day入/侵
通过泄漏的工具包来看,早些年NSA是拥有直接攻/击Apache、Nginx这些服务的0day武器的。这意味着对手很可能完全不用在乎我们的代码和服务写成什么样,拿0day一打,神不知鬼不觉就GetShell了。
但是对于入/侵检测而言,这并不可怕:因为无论对手利用什么漏洞当入口,它所使用的Shellcode和之后的行为本身依然有共性。Apache存在0day漏洞被攻/击,还是一个PHP页面存在低级的代码漏洞被利用,从攻/击的行为上来看,说不定是完全一样的,入/侵检测模型还可以通用。
所以,把精力聚焦在有hacker GetShell入口和之后的行为上,可能比关注漏洞入口更有价值。当然,具体的漏洞利用还是要实际跟进,然后验证其行为是否符合预期。
*办公终端****
绝大多数APT报告里,hacker是先对人(办公终端)下手,比如发个邮件,哄骗我们打开后,控制我们的PC,再进行长期的观察/翻阅,拿到我们的合法凭据后,再到内网漫游。所以这些报告,多数集中在描述hacker用的木/马行为以及家族代码相似度上。而反APT的产品、解决方案,多数也是在办公终端的系统调用层面,用类似的方法,检验“免杀木/马”的行为。
因此,EDR类的产品+邮件安全网关+办公网出口的行为审计+APT产品的沙箱等,联合起来,可以采集到对应的数据,并作出相似的入/侵检测感知模型。而最重要的一点,是hacker喜欢关注内部的重要基础设施,包括但不限于AD域控、邮件服务器、密码管理系统、权限管理系统等,一旦拿下,就相当于成为了内网的“上帝”,可以为所欲为。所以对公司来说,重要基础设施要有针对性的攻/防加固讨论,微软针对AD的攻/防甚至还发过专门的加固白皮书。
入/侵检测基本原则
不能把每一条告警都彻底跟进的模型,等同于无效模型。入/侵发生后,再辩解之前其实有告警,只是太多了没跟过来/没查彻底,这是“马后炮”,等同于不具备发现能力,所以对于日均告警成千上万的产品,安全运营人员往往表示很无奈。
我们必须屏蔽一些重复发生的相似告警,以集中精力把每一个告警都闭环掉。这会产生白名单,也就是漏报,因此模型的漏报是不可避免的。
由于任何模型都会存在漏报,所以我们必须在多个纬度上做多个模型,形成关联和纵深。假设WebShell静态文本分析被hacker变形绕过了,在RASP(运行时环境)的恶意调用还可以进行监控,这样可以选择接受单个模型的漏报,但在整体上仍然具备发现能力。
既然每一个单一场景的模型都有误报漏报,我们做什么场景,不做什么场景,就需要考虑“性价比”。比如某些变形的WebShell可以写成跟业务代码非常相似,人的肉眼几乎无法识别,再追求一定要在文本分析上进行对抗,就是性价比很差的决策。如果通过RASP的检测方案,其性价比更高一些,也更具可行性一些。
我们不太容易知道hacker所有的攻/击手法,也不太可能针对每一种手法都建设策略(考虑到资源总是稀缺的)。所以针对重点业务,需要可以通过加固的方式(还需要常态化监控加固的有效性),让hacker能攻/击的路径极度收敛,仅在关键环节进行对抗。起码能针对核心业务具备兜底的保护能力。
基于上述几个原则,我们可以知道一个事实,或许我们永远不可能在单点上做到100%发现入/侵,但是我们可以通过一些组合方式,让攻/击者很难绕过所有的点。
当老板或者蓝军挑战,某个单点的检测能力有缺失时,如果为了“政治正确”,在这个单点上进行无止境的投入,试图把单点做到100%能发现的能力,很多时候可能只是在试图制造一个“永动机”,纯粹浪费人力、资源,而不产生实际的收益。将节省下来的资源,高性价比的布置更多的纵深防御链条,效果显然会更好。
入/侵检测产品的主流形态
入/侵检测终究是要基于数据去建模,比如针对WebShell的检测,首先要识别Web目录,再对Web目录下的文件进行文本分析,这需要做一个采集器。基于Shell命令的入/侵检测模型,需要获取所有Shell命令,这可能要Hook系统调用或者劫持Shell。基于网络IP信誉、流量payload进行检测,或者基于邮件网关对内容的检查,可能要植入网络边界中,对流量进行旁路采集。
也有一些集大成者,基于多个Sensor,将各方日志进行采集后,汇总在一个SOC或者SIEM,再交由大数据平台进行综合分析。因此,业界的入/侵检测相关的产品大致上就分成了以下的形态:
主机Agent类:hacker攻/击了主机后,在主机上进行的动作,可能会产生日志、进程、命令、网络等痕迹,那么在主机上部署一个采集器(也内含一部分检测规则),就叫做基于主机的***检测系统,简称HIDS。
典型的产品:OSSEC、青藤云、安骑士、安全狗,Google最近也发布了一个Alpha版本的类似产品 Cloud Security Command Center。当然,一些APT厂商,往往也有在主机上的Sensor/Agent,比如FireEye等。
网络检测类:由于多数攻/击向量是会通过网络对目标投放一些payload,或者控制目标的协议本身具备强特征,因此在网络层面具备识别的优势。
典型的产品:Snort到商业的各种NIDS/NIPS,对应到APT级别,则还有类似于FireEye的NX之类的产品。
日志集中存储分析类:这一类产品允许主机、网络设备、应用都输出各自的日志,集中到一个统一的后台,在这个后台,对各类日志进行综合的分析,判断是否可以关联的把一个攻/击行为的多个路径刻画出来。例如A主机的Web访问日志里显示遭到了扫描和攻/击尝试,继而主机层面多了一个陌生的进程和网络连接,最后A主机对内网其它主机进行了横向攻/击尝试。
典型的产品:LogRhythm、Splunk等SIEM类产品。
APT沙箱:沙箱类产品更接近于一个云端版的高级杀毒软件,通过模拟执行观测行为,以对抗未知样本弱特征的特点。只不过它需要一个模拟运行的过程,性能开销较大,早期被认为是“性价比不高”的解决方案,但由于恶意文件在行为上的隐藏要难于特征上的对抗,因此现在也成为了APT产品的核心组件。通过网络流量、终端采集、服务器可疑样本提取、邮件附件提炼等拿到的未知样本,都可以提交到沙箱里跑一下行为,判断是否恶意。
典型产品:FireEye、Palo Alto、Symantec、微步。
终端入/侵检测产品:移动端目前还没有实际的产品,也不太有必要。PC端首先必备的是杀毒软件,如果能够检测到恶意程序,一定程度上能够避免入/侵。但是如果碰到免杀的高级0day和木/马,杀毒软件可能会被绕过。借鉴服务器上HIDS的思路,也诞生了EDR的概念,主机除了有本地逻辑之外,更重要的是会采集更多的数据到后端,在后端进行综合分析和联动。也有人说下一代杀毒软件里都会带上EDR的能力,只不过目前销售还是分开在卖。
典型产品:杀毒软件有Bit9、SEP、赛门铁克、卡巴斯基、McAfee ;EDR产品不枚举了,腾讯的iOA、阿里的阿里郎,一定程度上都是可以充当类似的角色;
入/侵检测效果评价指标
首先,主动发现的入/侵案例/所有入/侵= 主动发现率。这个指标一定是最直观的。比较麻烦的是分母,很多真实发生的入/侵,如果外部不反馈,我们又没检测到,它就不会出现在分母里,所以有效发现率总是虚高的,谁能保证当前所有的入/侵都发现了呢?(但是实际上,只要入/侵次数足够多,不管是SRC收到的情报,还是“暗网”上报出来的一个大新闻,把客观上已经知悉的入/侵列入分母,总还是能计算出一个主动发现率的。)
另外,真实的入/侵其实是一个低频行为,大型的互联网企业如果一年到头成百上千的被入/侵,肯定也不正常。因此,如果很久没出现真实入/侵案例,这个指标长期不变化,也无法刻画入/侵检测能力是否在提升。
所以,我们一般还会引入两个指标来观测:
蓝军对抗主动发现率
已知场景覆盖率
蓝军主动高频对抗和演习,可以弥补真实攻/击事件低频的不足,但是由于蓝军掌握的攻/击手法往往也是有限的,他们多次演习后,手法和场景可能会被罗列完毕。假设某一个场景建设方尚未补齐能力,蓝军同样的姿势演习100遍,增加100个未发现的演习案例,对建设方而言并没有更多的帮助。所以,把已知攻/击手法的建成覆盖率拿出来,也是一个比较好的评价指标。
入/侵检测团队把精力聚焦在已知攻/击手法的优先级评估和快速覆盖上,对建设到什么程度是满足需要的,要有自己的专业判断(参考入/侵检测原则里的“性价比”原则)。
而宣布建成了一个场景的入/侵发现能力,是要有基本的验收原则的:
该场景日均工单 < X单,峰值 < Y单;当前所有场景日平均
具备误报自学习能力。
告警具备可读性(有清晰的风险阐述、关键信息、处理指引、辅助信息或者索引,便于定性),不鼓励Key-Value模式的告警,建议使用自然语言描述核心逻辑和响应流程。
有清晰的说明文档,自测报告(就像交付了一个研发产品,产品文档和自测过程是质量的保障)。
有蓝军针对该场景实战验收报告。
不建议调用微信、短信等接口发告警(告警和事件的区别是,事件可以闭环,告警只是提醒),统一的告警事件框架可以有效的管理事件确保闭环,还能提供长期的基础运营数据,比如止损效率、误报量/率。
策略人员的文档应当说明当前模型对哪些情况具备感知能力,哪些前提下会无法告警(考验一个人对该场景和自己模型的理解能力)。通过前述判断,可以对策略的成熟度形成自评分,0-100自由大致估算。单个场景往往很难达到100分,但那并没有关系,因为从80分提升到100分的边际成本可能变的很高。不建议追求极致,而是全盘审视,是否快速投入到下一个场景中去。
如果某个不到满分的场景经常出现真实对抗,又没有交叉的其它策略进行弥补,那自评结论可能需要重审并提高验收的标准。至少解决工作中实际遇到的Case要优先考虑。
影响入/侵检测的关键要素
讨论影响入/侵检测的要素时,我们可以简单看看,曾经发生过哪些错误导致防守方不能主动发现入/侵:
依赖的数据丢失,比如HIDS在当事机器上,没部署安装/Agent挂了/数据上报过程丢失了/Bug了,或者后台传输链条中丢失数据。
策略脚本Bug,没启动(事实上我们已经失去了这个策略感知能力了)。
还没建设对应的策略(很多时候入/侵发生了才发现这个场景我们还没来得及建设对应的策略)。
策略的灵敏度/成熟度不够(比如扫描的阈值没达到,WebShell用了变形的对抗手法)。
模型依赖的部分基础数据错误,做出了错误的判断。
成功告警了,但是负责应急同学错误的判断/没有跟进/辅助信息不足以定性,没有行动起来。
所以实际上,要让一个攻/击事件被捕获,我们需要入/侵检测系统长时间、高质量、高可用的运行。这是一件非常专业的工作,超出了绝大多数安全工程师能力和意愿的范畴。所以建议指派专门的运营人员对以下目标负责:
数据采集的完整性(全链路的对账)。
每一个策略时刻工作正常(自动化拨测监控)。
基础数据的准确性。
工单运营支撑平台及追溯辅助工具的便捷性。
可能有些同学会想,影响入/侵检测的关键要素,难道不是模型的有效性么?怎么全是这些乱七八糟的东西?
实际上,大型互联网企业的入/侵检测系统日均数据量可能到达数百T,甚至更多。涉及到数十个业务模块,成百上千台机器。从数字规模上来说,不亚于一些中小型企业的整个数据中心。这样复杂的一个系统,要长期维持在高可用标准,本身就需要有SRE、QA等辅助角色的专业化支持。如果仅依靠个别安全工程师,很难让其研究安全攻/防的时候,又兼顾到基础数据质量、服务的可用性和稳定性、发布时候的变更规范性、各类运营指标和运维故障的及时响应。最终的结果就是能力范围内可以发现的入/侵,总是有各种意外“恰好”发现不了。
所以,笔者认为,以多数安全团队运营质量之差,其实根本轮不到拼策略(技术)。当然,一旦有资源投入去跟进这些辅助工作之后,入/侵检测就真的需要拼策略了。
此时,攻/击手法有那么多,凭什么先选择这个场景建设?凭什么认为建设到某程度就足够满足当下的需要了?凭什么选择发现某些样本,而放弃另一些样本的对抗?
这些看似主观性的东西,非常考验专业判断力。而且在领导面前很容易背上“责任心不足”的帽子,比如为困难找借口而不是为目标找方法,这个手法hacker了好多次,凭什么不解决,那个手法凭什么说在视野范围内,但是要明年再解决?
如何发现APT?
所谓APT,就是高级持续威胁。既然是高级的,就意味着木/马很大可能是免杀的(不能靠杀毒软件或者普通的特征发现),利用的漏洞也是高级的(加固到牙齿可能也挡不住敌人进来的步伐),攻/击手法同样很高级(攻/击场景可能我们都没有见过)。
所以,实际上APT的意思,就约等于同于不能被发现的入/侵。然而,业界总还有APT检测产品,解决方案的厂商在混饭吃,他们是怎么做的呢?
木/马免杀的,用沙箱+人工分析,哪怕效率低一些,还是试图做出定性,并快速的把IOC(威胁情报)同步给其它客户,发现1例,全球客户都具备同样的感知能力。
流量加密变形对抗的,用异常检测的模型,把一些不认识的可疑的IP关系、payload给识别出来。当然,识别出来之后,也要运营人员跟进得仔细,才能定性。
攻/击手法高级的,还是会假定hacker就用鱼叉、水坑之类的已知手法去执行,然后在邮箱附件、PC终端等环节采集日志,对用户行为进行分析,UEBA试图寻找出用户异于平常的动作。
那么,我们呢?笔者也没有什么好的办法,可以发现传说中的“免杀”的木/马,但是我们可以针对已知的hacker攻/击框架(比如Metasploit、Cobalt Strike)生成的样本、行为进行一些特征的提取。我们可以假设已经有攻/击控制了某一台机器,但是它试图进行横向扩散的时候,我们有一些模型可以识别这个主机的横向移动行为。
笔者认为,世界上不存在100%能发现APT的方法。但是我们可以等待实施APT的团队犯错,只要我们的纵深足够的多,信息足够不对称,想要完全不触碰我们所有的铃铛,绝对存在一定的困难。
甚至,攻/击者如果需要小心翼翼的避开所有的检测逻辑,可能也会给对手一种心理上的震慑,这种震慑可能会延缓对手接近目标的速度,拉长时间。而在这个时间里,只要他犯错,就轮到我们出场了。
前面所有的高标准,包括高覆盖、低误报,强制每一个告警跟进到底,“掘地三尺”的态度,都是在等待这一刻。抓到一个值得敬佩的对手,那种成就感,还是很值得回味的。
所以,希望所有从事入/侵检测的安全同行们都能坚持住,即使听过无数次“狼来了”,下一次看到告警,依然可以用最高的敬畏心去迎接对手(告警虐我千百遍,我待告警如初恋)。
AI在入/侵检测领域的正确姿势
最近这两年,如果不谈AI的话,貌似故事就不会完整。只不过,随着AI概念的火爆,很多人已经把传统的数据挖掘、统计分析等思想,比如分类、预测、聚类、关联之类的算法,都一律套在AI的帽子里。
其实AI是一种现代的方法,在很多地方有非常实际的产出了。以WebShell的文本分析为例,我们可能需要花很长很长的时间,才能把上千个样本里隐含的几十种样本技术类型拆分开,又花更长的时间去一一建设模型(是的,在这样的场景下,特征工程真的是一个需要更长时间的工作)。
而使用AI,做好数据打标的工作,训练、调参,很快就能拿到一个实验室环境不那么过拟合的模型出来,迅速投产到生产环境上。熟练一点可能1-2个月就能做完了。
在这种场景下,AI这种现代的方法,的确能极大的提高效率。但问题是,前文也提到过了,hacker的攻/击黑样本、WebShell的样本,往往极其稀缺,它不可能是完备的能够描述hacker入/侵的完整特征的。因此,AI产出的结果,无论是误报率还是漏报率,都会受训练方法和输入样本的影响较大,我们可以借助AI,但绝对不能完全交给AI。
安全领域一个比较常见的现象是,将场景转变成标记问题,要难过于通过数学模型把标记的解给求出来。此时往往需要安全专家先行,算法专家再跟上,而不能直接让算法专家“孤军奋战”。
针对一个具体的攻/击场景,怎么样采集对应的攻/击数据,思考这个攻/击动作和正常行为的区别,这个特征的提取过程,往往决定了模型最终的效果。特征决定了效果的上限,而算法模型只能决定了有多接近这个上限。
此前,笔者曾见过一个案例,AI团队产出了一个实验室环境效果极佳,误报率达到1/1000000的WebShell模型,但是投放到生产环境里初期日均告警6000单,完全无法运营,同时还存在不少漏报的情况。这些情况随着安全团队和AI工程师共同的努力,后来逐渐地解决。但是并未能成功的取代原有的特征工程模型。
目前业界有许多产品、文章在实践AI,但遗憾的是,这些文章和产品大多“浅尝辄止”,没有在真实的环境中实践运营效果。一旦我们用前面的标准去要求它,就会发现,AI虽然是个好东西,但是绝对只是个“半成品”。真正的运营,往往需要传统的特征工程和AI并行,也需要持续地进行迭代。
未来必然是AI的天下,但是有多少智能,前面可能就要铺垫多少人工。愿与同行们一起在这个路上继续探索下去,多多交流分享。
转载于:https://blog.51cto.com/14071176/2316703