2016 ATF阿里技术论坛于4月15日在清华大学举办,主旨是阐述阿里对世界创新做出的贡献。阿里巴巴集团技术委员会主席王坚,阿里巴巴集团首席技术官(CTO)张建锋(花名:行癫),阿里巴巴集团首席风险官(CRO)刘振飞(花名:振飞),蚂蚁金服首席技术官(CTO)程立(花名:鲁肃)以及来自阿里巴巴集团各部门多位技术大咖齐聚一堂,与莘莘学子分享阿里的技术梦想。
在下午的云计算与大数据论坛上,阿里云安全研究员吴翰清带来了《云上安全——The Future of Cyber Security》的主题演讲。吴翰清2005年加入阿里巴巴,是阿里安全的早期建设者。陆续设计阿里巴巴、淘宝、支付宝、阿里云的应用安全体系。2012年开始致力于为客户提供更好的云安全产品和服务,旨在将云盾建设成为互联网安全的基础设施。著有《白帽子讲Web安全》一书,并运营了一个微信公众账号:道哥的黑板报。
本文根据其演讲内容整理。
今天我讲的云上安全相对没有复杂技术原理的实现,是大的宏观层面的。09年开始接触云计算的时候,当时整个行业、互联网领域里面所有人都在谈云,但是基本上没有几个人搞清楚云计算到底是什么,回过来看那时候理解云计算是什么的人可能两个手能够数得过来,那么云计算安全对于云计算来说又是什么?很多人都在谈云安全,连杀毒软件都变成云安全了。在很长一段时间里,业界的专家都在追求时髦讲“云安全”,但都不知所云,有如“皇帝的新装”。
图1 安全问题
讲了半天云计算安全,但是跟之前做的十多年安全没有任何区别。要解决的问题是一模一样,比如解决内存和攻防对抗的问题,从用户需求的角度讲,没有什么不同。做了几年云计算安全之后,我们自己都深深的困惑,难道我们做的是不存在的东西吗?但是,我们最后还是发现云计算安全到底是什么东西了。
图2 云上安全责任共担模型
亚马逊AWS提出了一个责任共担模型,在中间这条线之下是云平台安全,是云计算厂商要去解决的。但是在这条线之上,是用户自己去解决自己去负责的。这部分包括用户应用代码安全、配置问题、用户管理的一些安全问题,这就回到之前谈到的悖论。所谓云计算安全,分两部分看,从用户角度看没有任何区别,要解决的问题跟过去一模一样,但是在之下部分,这部分是云计算安全新多出来的,比如需要在云计算环境下解决虚拟化安全的问题、解决多租户引起的复杂环境的问题、解决用户隐私保护的问题,这些东西就是云计算安全跟传统安全不一样的地方,但是这部分安全是厂商解决的,跟用户没有关系。也就是说它在云计算公司买一台云服务器,不需要关心多租户引起的安全问题,这个问题是厂商负责的,什么叫多租户引起的问题,在云计算环境下我们会把服务器卖给用户A,用户A使用一段时间把服务释放掉了,这时候我们卖给用户B,如果用户A使用的时候遭受过攻击,很有可能用户B也遭受攻击,B遭受攻击是无辜的,这就是我们所说的脏IP,需要清洗。这些问题用户不需要考虑,厂商考虑。同时还有云计算虚拟化导致的问题,以及用户的隐私问题等,作为云计算厂商怎么样证明自己今天是没有看用户数据的?这一点也是倍受挑战的,实际上这个问题在过去也存在,IDC机房里面也存在这个问题,如果没有把所有用户集中在一起,没有这么大的体量,没有人去挑战他。阿里通过审计、外部统计报告,同时出了加密服务,让用户自己把他的数据在云上加密,保证任何其他人看不了他的数据,这是整个云计算安全会面临的一些挑战和我们主要去解决的问题。
今天阿里云和业内其他云计算服务商有很大不同,也许模型都是一样的,但是在用户层面,阿里云有个云盾,帮助用户解决问题。云盾是阿里云在安全态度上最大的不一样,有些企业是把这件事情开放给所有第三方公司,所以卖的最好的应用从1到10全部是安全应用。但是阿里云云盾,有十多个层从用户各个层面保护数据安全。云盾整个使命是帮助用户解决它的安全问题,我们希望做到云上比云外更加安全。今天中国IT界有一种说法,认为物理隔离就安全,实际上这是个错误的判断,我曾经接触过很多安全管理员,跟我分享他们内部专网的网络也面对的安全问题。虽然他们对整个互联网通信隔绝了,但存在物理架构的问题,他们用非常古老的系统,有古老的蠕虫病毒在内网肆虐,虽然通过防火墙和网闸把网络通信隔离了,但是仍然有一些媒介通过非网络渠道进入,例如有人进去维护网络可能会带张光盘进入内网,如果这些媒介携带病毒,那就会被感染。那这个过程有点像人类历史上病毒传播的过程。物理隔绝的网络并不能给你带来绝对的安全。当有一天你发现云外一点也不安全,你会到云上来。
图3 云盾体系
云盾就是三个字:反黑客。我们主要解决三个问题,第一是解决因为黑客入侵导致的数据泄露问题,这件事情现在已经变的越来越严重。第二是解决因为黑客入侵导致的资金损失。第三是因为黑客攻击导致的业务中断。
图4 黑客导致的数据安全问题
整个互联网面临的形势正在急剧恶化,据我们掌握的情报,今天黑客掌握的用户信息库超过100亿条数据。公民信息数据泄露是非常可怕的,这些数据最终会流向黑色产业。这个黑色产业市值预估是非常高的。最近公安部公开悬赏电信诈骗排名前十的诈骗犯,同时我们看到太平洋对岸,美国总统奥巴马在今年发布了一个国家网络安全的计划,提出了190亿美金专门用于扶持改善整个公民信息隐私保护,这是由两个因素促成的,一个是公民信息泄露,第二是纳税人、政府雇员信息泄露。接下来会不会出现很难抵御的问题,因为黑客知道你叫什么、住什么地方、知道你所有的朋友关系,黑客也在用大数据。
图5 云盾世界级安全能力
这是云盾今天在阿里云上做的事情。第一个数字30%,今天中国有超过30%的网站在阿里云上,每天由云盾为他们服务,基于阿里云的快速增长、爆发式增长,我认为在未来五年这个数字会突破50%甚至70%。同时云盾每天防御超过一千次的DDoS攻击,大家想象一下这是怎样的规模。
云盾的核心能力在大数据,我们认为云盾代表安全的未来,我们的信心来自于什么地方?云计算赋予我们对安全的理解。情报源自战争学,把它应用在网络安全里面成为我们今天和黑客对抗最好的武器,我们称为威胁情报,又分为战术威胁情报、战略威胁情报。今天有超过30%网站在阿里云上,所以互联网上有任何风吹草动都会第一时间被感知。去年年底,我们发现阿里云上超过一千台服务器连接一个韩国的IP,是一个黑客上传了木马,通过一个弱口令进来的,发现这个问题之后马上对阿里云上所有的服务器进行了紧急的升级和控网,这种情报是非常讲究时效性的,如果晚一周知道,黑客感染的就不是一千台服务器而是一万台服务器了。今天所有的安全公司都在或多或少做威胁情报,我也参加过一些威胁情报的会,我看到台上讲威胁情报的安全公司非常痛苦的说他们没有数据。威胁情报的核心就在于数据,没有数据做不成威胁情报,今天在阿里云上我们可以做威胁情报。
图6 云盾核心能力
前面两位介绍了阿里云在流计算、实时计算部分的计算能力,云盾的大数据安全分析系统就是基于MaxCompute(ODPS),为什么计算非常重要?举个例子,今天我们是世界上唯一一家能够在防火墙里面拉黑超过一百万IP黑名单的,首先这一百万IP是有问题的,这和过去有了改变。双十一期间,淘宝、天猫零点峰值的时候我们拉黑了一百万IP,防黄牛党等,从而保证了双十一的正常运行。为什么我们能做到一下在一个产品里面黑掉一百万IP,因为我们具有强大的弹性和扩展能力,如果我们还停留在买设备的思路上,单机CPU、内存是固定的,是不可能做到在计算能力上面有弹性和扩展性。今天我们在云计算上做到了很多以前做不了的事情。为什么计算能力这么重要?从大数据角度讲我们还有很多东西可以做,只要我们一谈到信誉就一定需要大量的计算,我们在过去很多安全防御思路是基于特征匹配,特征匹配用量非常小,比如写一个竞争表达式,包含很多攻击特征,把所有日志全过滤一遍,这时候思路停留在过滤上,今天转到了信誉上,信誉意味着你可能要针对每一个访问客户建模,把他过去历史三个月的数据拉出来算一遍,看它的访问率好不好,好就放前。这时候就带来什么问题,比如访问率90%在正常区间的客户挪到更好的体验区,对于我们一些无法识别或者识别出来有问题的就落到沙箱里进行有限制的控制。这背后带来是整个访问体验、用户体验的提升,这个事情在没有足够的能力之前是根本没有办法做到的。
图7所有层面(All IT Layers)的安全大数据
我认为云计算的核心价值在于不同数据汇聚于一点,这才是云计算最大的价值,很多人根本没搞明白为什么这件事情非常重要,因为这是可以让数据产生1+1>2价值的前提,因为我们意识到数据是搬不动的,计算是可能搬得动的,所以必须让计算发生在数据所存在的地方。有些跨国公司在中国有业务、美国有业务,如果要把美国和中国数据关联起来算一个结果会非常痛苦,因为没有办法把美国的数据搬到中国,如果美国每天产生一个PB的日志怎么搬过来呢?只能建一个计算集群,所以如果美国数据、中国数据没有办法打通进行关联计算,很多价值就会稀释掉,所以我认为云计算最大的价值就是在于让数据发生它的关联,这种关联可以是市场化、也可以是主动的应用。在云计算上可以汇聚各个不同层面的数据以及内部和外部不同的提交的数据,只有数据汇聚在同一点才能产生更大的价值。
图8 态势感知-可见的安全
云盾在大数据安全分析落地的系统我们把它称之为态势感知。系统其实用大量数据关联做到了以前做不到的事情,今天是国内唯一一个能够自动化分析出整个入侵行为的、入侵路径的安全产品。举例子,当一个服务器被黑客植入了木马我们可以通过关联的东西自动分析出到底是通过什么漏洞进来的,这中间就用到大量计算需要大量建模。以前的做法是需要投入一个经验足够的专家分析所有的日志,出分析报告,之前所有的公司是这样做的,今天在这里实现了自动化。同时这也是可以分析出入侵之后干了什么的系统,比如黑客进来之后也许删了一个文件、偷走了一个东西、导了一个数据,这些东西都能自动监控出来。同时也是唯一能够自动溯源黑客身份的安全系统,我们知道一个攻击者背后的动机是什么,他还想干什么、下一步想干什么。我们之前曾经遇到过一个案例,发生在P2P的服务器上,通过这个IP我们如何知道IP背后的人是谁,今天绝大部分的安全公司能告诉你是什么问题、什么地方漏洞、攻击者是谁,只能告诉你IP是谁,没有办法告诉你IP背后的人是谁,这时候就需要很多关联数据了,通过这个数据能力我们给行业带来了一些新的价值和新的能力。
图9 黑客溯源
这是我们在2014年的时候追踪的一个巴西的黑客,它攻击了超过三万台服务器,我们追踪到黑客本人,在地图上定位他所在的公寓楼。
图10 云盾DDoS防御
在安全的各个方面,包括DDoS我们也在用安全计算的方式在改变。如果大家熟悉DDo S的话,我们在2014年成功阻止了史上最大的攻击。
图11 止血:453.8Gbps-史上最大的DDoS攻击
图12 预警:将DDoS扼杀在摇篮
现在我们在利用大数据和云计算情况下,尝试改变和定义云计算安全。在DDoS发生的时候完全有可能把用户迁移到另外一块完全正常的可用区,把异常的请求丢掉,这就是因为有了数据所以给我们在防御上带来心思路,这些思路是行业颠覆性的。
图13 云盾的社会责任
因为云计算汇集了不同数据,因为云计算提供了计算能力,所以,云计算赋能了云盾代表未来的安全能力。我们才有信心做到云上比云外安全做的更加好,未来客户也会因此而上云。在某种程度上可以看到这个趋势,中国超过30%未来可能50%-70%的业务都在阿里云上,所以某种程度上阿里云和AWS在未来的对比反映了中国和美国两个国家在网络安全领域的对抗,一旦某一天再发生像2000年或者中美黑客大战的话,我相信那一天中国一定有取得上风的优势。这是我们的使命也是我们信心的来源,也是云盾应该承担的责任,所以我们不仅仅是一家商业公司,我们对社会需要尽的责任,会提升整个网络空间的安全程度。这就是我想说的,云盾未来会代表整个安全的未来。谢谢大家!