2015年RSA号称史上最大规模的一届展会,统计超过500家参展商和3万名参会人员,作为全球安全厂家show,rsa本身不会有非常技术性的深入探讨,但观察一些热点的行业技术点仍然是非常上佳的机会。 今年的绝对热点应该算的上是threat intelligence(威胁情报),展区各不同领域技术的厂家几乎都有往threat Intelligence概念上靠的代表,如splunk,直接宣传自己是”“the threat intelligence company”,又比如老牌公司ibm,提出新口号”Intelligence is the new defense”,展区内,有钱任性做现场demo的厂商几乎都在某种程度上强调和展示威胁情报相关的能力,相当多的厂家还把这种能力转换为2D或是3D的图形的来吸引眼球。
业内比较正式的Threat Intelligence解释是由Gartner 2013年定义的,如下
“Evidence-based knowledge,including context,mechanisms,indicators,implications and actionable advice about an existing oremerging menace or hazard to assets that can be used to inform decisionsregarding the subject’s response to that menace or hazard.”
也许用简单的话可以概括为: Threat Intelligence是可用于有效应对的基于深入感知的信息;
个人认为,从攻防这个具体点看,经过这么多年的发展,安全已从婴儿期逐渐开始成长,而生态圈里的用户和玩家早晚会意识到:
1:攻击不会消亡,新的攻击点和攻击方式会持续出现,也许在广义上和上线资源数量会维持在一个相对平衡和稳定的比例水平。
2:防守方的各种软硬件资源,如防火墙,ids等硬件盒子,扫描器,siem等软件产品作为一个个单点技术被攻破和绕过会是一种常态。此外很多(大部分?)时候防守方无法感知自己的安全手段是否已被攻破和绕过。
在上述大前提下,无论具体用户还是厂家在继续强化一个个具体的头疼医头脚疼医脚单点防御技术点外,将目光也许会开始逐步转向上层的“面”上,比如是否具有“看到的能力”可能是未来的一个重要方向:具体软硬设备是“点”,配置策略是“点”,日志是“点”, 一条条的具体告警也是“点”,能够”connect the right dots”(注意不单是connect thedots)才是最终诉求。 举个现实例子,去年爆出NSA入侵国内某电信设备巨头,NSA自己的文档称他们拿到了太多的数据都不知道该拿这些数据干嘛了(We currently have good accessand so much data that we don't know what to do with it)。NSA这么干的诉求之一应该是通过该巨头看到它想要看到的东西(注意攻方追求的同样也是看到的能力)。从防守角度来说,该巨头拥有专业的运维队伍和良好的安全资源,但是依然没有发现被NSA入侵,也正是因为真实的看到的能力的缺失。这也许是安全圈里面那句流行的“世界上只有两种企业,知道自己被黑的和不知道自己被黑的”的一个佐证吧。
在上述大趋势的情况下,威胁情报作为看到的能力的一个具体体现, 重要性自然逐步突显出来。
本次rsa,不少厂家都宣称自己是threat intelligence这个领域的成功者,而且他们乐于给围观者一种感觉,他们有个神奇的threat intelligence魔力盒子,输入端丢给他们大量的数据,通过机器学习也好,关联分析建模也好,可视化也好,情报就自然会在另一端输出产生了,实际真的是这样么?
举例来说:
我们看到有将大量的日志告警以可视化方式展现的厂家, 并宣称这就是threat intelligence。这个是业内目前流行的做法之一,而且国内跟进的很快。仔细推敲:当厂商对大量的日志告警无法理解,绝大多数都是垃圾消息的时候, 以图形展示并不会消减任何具体告警,垃圾消息还是垃圾消息,只不过以可视化的形式展示了而已。更加重要的是,在具体的告警日志中往往不可能有真正需要的“那一条”, 对此可视化不能提供任何帮助。
又如近期业内某风头强劲的新兴threat intelligence公司,主要的数据来源是蜜罐采集到的扫描主机等信息。由于采集信息方式的先天工作原理和局限性,从而决定了能提供的intelligence有限同时浅层。对用户来说,使用场景基本上局限在有限防控存在大规模扫描行为的主机系统等,而对稍微深入的攻击行为难以提供缺失的数据支撑。 APT等天然的lowprofile的攻击这里就更不用提了。
又如, 有将大量公开和非公开黑数据源进行收集,整理后统一格式提供情报的企业, 也给自己打个标签是threat intelligence提供商, 这种做法的问题更多, 除了完全依赖第三方数据的弊病外,数据的准确性,有效性和及时性是大问题。今年2月M3AAWG内部会议UAB和Malcovery联合出品的垃圾邮件报告提到,他们6天监控期间收到的55万个恶意垃圾邮件域名中60%的域名生存期小于1天(内部资料无法共享link)。2014年blackhat一个报告,对三家知名黑数据提供商的审核显示3家数据仅有1%的重合(https://www.blackhat.com/us-14/speakers/Ryan-Trost.html)。2014年针对短域名服务提供商bit.ly提供短域名服务分析的研究paper研究显示绝大多数恶意域名(超过83%)在5个月内就会失效(http://arxiv.org/abs/1406.3687)。根据我们自己的观察,很多恶意域名和ip的生存周期存活时间其实可以以小时计,此外从实际数据看,如果无条件信任外面的数据源,一定会有大的“惊喜“,比如直接封堵8.8.8.8,google,baidu,sohu,youku,ppstream,alipay,360,qq等很多所有的互联网流行大站。
再比如,一些传统的设备厂家,由于设备的全本地工作机制,视角狭窄,同时几乎无法有效整合数据,intelligence也自然成为无源之水。本次rsa上传统的防火墙公司fortigate等开始大肆的砸物理盒子,也许显示了传统手法决裂的决心?
又比如,一些手里有大量数据的公司, 虽然有数据,但是找不到窍门,不会选,不会用手里的数据,往往把自己淹没在数据的海洋里,陷入细节中无法自拔,这个时候海量的数据反而成为自己的负担。值得注意的这个是很多试图转型threat intelligence公司会遇到的问题(国内比如全流量无差别收集和分析)。
最后又如,一些没有实操经验的公司,喜欢把threat intelligence和一些高大上的词组绑定,如“海量的数据通过机器学习实时产出崭新而又精准的高级威胁新数据”,这个外行听了觉得高大上,但实操过的一听就知道是胡扯。此外,安全和传统的成熟机器学习领域有细微不同,推荐系统有点偏差没关系,但是安全相关的偏差容忍度很低(根据机器学习的结果,这个新的google子站是黑的,封堵了它如何?:) )
个人认为,threat intelligence这个领域刚刚开始,大家都在摸索阶段,所以当面对号称已完全精准实现threat intelligence的厂家还是要留心。其次,threat intelligence无论是现在还是未来,恐怕都不会像厂家宣传的那样神奇,成为所谓的silver bullet。但另一方面,对会用和用对的用户来说,它的确是防守方武器库里的一个新的武器,可以成为一个很有用的新维度。
中短期内, 如下两个分支可能会产生比较有意思的应用:
1:基于大量已有数据加机器学习之上的大规模分析和预测,目标是快速实时的收割所谓lowhanging fruit的确定性数据,为用户提供浅层但是实时的数据。
2:基于大量数据加专家团队的深层次情报分析应用,这里面threat intelligence可能起到的作用更多的是提供有限但是关键的线索,然后依靠专家团队来拼出完整的故事。
最后,我们以15年rsa大会rsa现任主席Amit Yoran大会开场keynote专门制造的几乎40秒全场漆黑的场景下说的第一段话来结束本文,
Since the beginning of time,humanity has been afraid of the dark. And with good reason. We fear the darkbecause evolution has hard-wired us to be suspicious of it,or more specifically,suspicious of the potentialthreats that may await us in the darkness. We can hear noises and see shadows,but without being able to see our surroundings,we don’t know if those sounds and shadows represent danger or not,let alone how to respond.
beingable to see our surroundings,threat intelligence只是第一步。